Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с

.pdf
Скачиваний:
43
Добавлен:
22.08.2013
Размер:
4.02 Mб
Скачать

9.1. Фиктивные переменные

293

где Zj j-й столбец матрицы Z; αj k-вектор-столбец параметров влияния качественного фактора на αj ; в векторе α j-я компонента теперь обозначается α0j — средний уровень параметра αj ; ¯ — операция прямого произведения столбцов матриц.

Прямое произведение матриц A B (произведение Кронекера, см. Приложение A.1.2), имеющих размерность, соответственно, mA × nA и mB × nB , есть матрица размерности (mAmB ) × (nAnB ) следующей структуры:

a11B · · ·

a1nA B

 

.

.

.

 

.

.

.

 

.

.

.

 

 

.

 

amA 1B · · ·

amA nA B

 

Прямое произведение матриц обладает следующими свойствами:

(A1 · · · Am)(B1 · · · B2) = (A1B1) · · · (AmBm),

если, конечно, соответствующие матричные произведения имеют смысл:

(A1 · · · Am) = A1 · · · Am, (A1 · · · Am)1 = A1 1 · · · Am1,

если все матрицы A квадратны и неособенны.

Прямое произведение столбцов матриц применимо к матрицам, имеющим одинаковое число строк, и осуществляется путем проведения операции прямого произведения последовательно с векторами-строками матриц:

 

A1

B1

 

A1 B1

 

¯

.

.

 

.

 

.

¯ .

=

.

.

A B = .

.

.

 

Am

Bm

 

Am Bm

 

Эта операция обладает следующим важным свойством:

(A1 ¯ · · · ¯ Am)(B1 · · · B2) = (A1B1) ¯ · · · ¯ (AmBm).

Приоритет прямого произведения матриц выше, чем обычного матричного произведения.

При использовании способа «а» эквивалентная исходной форма уравнения имеет вид (форма «а»):

0

β

0

¯

0

¯G ¯

αj0

X = Z−j α−j + Z

 

+ Zj Z

, Z C

+ ε,

α˜j

294

где Z−j и после

Глава 9. Целочисленные переменные в регрессии

— матрица Z без j-го столбца, α−j — вектор α без j-го элемента, устранения линейной зависимости фиктивных переменных:

X = + Z0β0 + Zj ¯ ZGj + ε.

Все приведенные выше структуры матриц и соотношения между матрицами

ивекторами сохраняются.

Вуравнение регрессии можно включать более одного качественного фактора. В случае двух факторов, принимающих, соответственно, k1 и k2 значения, форма «б» уравнения записывается следующим образом:

X = + Z0β0 + Z1β1 + Z2β2 + ε,

где вместо «G » в качестве индекса качественного фактора используется его номер.

Это уравнение может включать фиктивные переменные совместного влияния качественных факторов (взаимодействия факторов). В исходной форме компонента совместного влияния записывается следующим образом:

Z1 ¯ Z2β12,

где β12 = (β1112 , . . . , β112k2 , β2112, . . . , β212k2 , . . . , βk1211, . . . , βk121k2 ) — k1 ×k2 -вектор- столбец, а βi121i2 — параметр при фиктивной переменной, которая равна 1, если

первый фактор принимает i1 -е значение, а второй фактор — i2 -е значение, и равна

0 в остальных случаях (вектор-столбцом наблюдений за этой переменной является (k1(i1 1) + i2)-й столбец матрицы Z1 ¯ Z2 ).

Как и прежде, вектор параметров, из которого исключены все компоненты, линейно выражаемые через остальные, обозначается β12 . Он имеет размерность (k1 1) × (k2 1) и связан с исходным вектором параметров таким образом:

β12 = C1 C2β12,

где C1 и C2 — матрицы размерности k1 × (k1 1) и k2 × (k2 1), имеющие описанную выше структуру (матрица C).

Теперь компоненту совместного влияния можно записать следующим образом:

(Z1 ¯ Z2)(C1 C2)β12 = (Z1C1) ¯ (Z2C2)β12 = Z1 ¯ Z2β12 = Z12β12,

а уравнение, включающее эту компоненту (форма «б») —

X= + Z0β0 + Z1β1 + Z2β2 + Z12β12 + ε.

Вобщем случае имеется n качественных факторов, j-й фактор принимает kj значений, см. пункт 1.9. Пусть упорядоченное множество {1, . . . , n} обозначается

9.2. Модели с биномиальной зависимой переменной

295

G, а J — его подмножества. Общее их количество, включая пустое подмножество, равно 2n . Каждому такому подмножеству взаимно-однозначно соответствует чис-

ло, например, в системе исчисления с основанием max kj , и их можно упорядочить

j

по возрастанию этих чисел. Если пустое подмножество обозначить 0, то можно записать:

J = 0, 1, . . . , n, {1, 2}, . . . , {1, n}, {2, 3}, . . . , {1, 2, 3}, . . . , G.

Тогда уравнение регрессии записывается следующим образом:

 

 

 

G

 

 

 

 

 

G

 

G

X = + ZJ βJ + ε = + ZJ CJ βJ + ε = + ZJ βJ + ε,

 

 

 

J =0

 

 

 

 

J =0

 

J =0

где Z

J

=

¯ ˜j

, C

J

=

C

j

при j > 0, C

0

= 1. Выражение j J под зна-

 

Z

 

 

 

 

 

 

j J

 

 

 

j J

 

 

 

 

ком произведения означает, что j принимает значения последовательно с первого по последний элемент подмножества J .

Очевидно, что приведенная выше запись уравнения для n = 2 является частным случаем данной записи.

Если p(J ) — количество элементов в подмножестве J , то ZJ βJ или ZJ βJ

J -е эффекты, эффекты p(J )-го порядка; при p(J ) = 1 — главные эффекты, при p(J ) > 1 — эффекты взаимодействия, эффекты совместного влияния или совместные эффекты.

βJ или β — параметры соответствующих J -х эффектов или также сами эти эффекты.

9.2.Модели с биномиальной зависимой переменной

Рассмотрим теперь модели, в которых зависимая переменная принимает только два значения, т.е. является фиктивной переменной. При этом придется отойти от модели линейной регрессии, о которой речь шла выше.

Если изучается спрос на рынке некоторого товара длительного пользования, например, на рынке холодильников определенной марки, то спрос в целом возможно предсказывать с помощью стандартной регрессии. Однако, если изучать спрос на холодильники отдельной семьи, то изучаемая переменная должна быть либо дискретной (0 или 1), либо качественной (не покупать холодильник, купить холодильник марки A, купить холодильник марки B и т.д.). Аналогично, разные методы приходится применять при изучении рынка труда и при изучении решения

296

Глава 9. Целочисленные переменные в регрессии

отдельного человека по поводу занятости (работать/не работать). Данные о том, произошло какое-либо событие или нет, также можно представить дискретной переменной вида 0 или 1. При этом не обязательно наличие ситуации выбора. Например, можно исследовать данные об экономических кризисах, банкротствах (произошел или не произошел кризис или банкротство).

9.2.1. Линейная модель вероятности, логит и пробит

В биномиальную модель входит изучаемая переменная x, принимающая два значения, а также объясняющие переменные z, которые содержат факторы, определяющие выбор одного из значений. Без потери общности будем предполагать, что x принимает значения 0 и 1.

Предположим, что мы оценили на основе имеющихся наблюдений линейную регрессию

x = + ε.

Очевидно, что для почти всех значений z построенная линейная регрессия будет предсказывать абсурдные значения изучаемой переменной x — дробные, отрицательные и большие единицы, что делает ее не очень полезной на практике.

Более того, линейная модель не может быть вполне корректной с формальной точки зрения. Поскольку у биномиальной зависимой переменной распределение будет распределением Бернулли (биномиальным распределением с одним испытанием Бернулли), то оно полностью задается вероятностью получения единицы. В свою очередь, вероятность того, что x = 1, совпадает с математическим ожиданием x, если эта переменная принимает значения 0 и 1:

E(x) = Pr(x = 1) · 1 + Pr(x = 0) · 1 = Pr(x = 1).

С другой стороны, ожидание x при данной величине z для линейной модели равно

E(x) = + E(ε) = zα.

Отсюда следует, что обычная линейная регрессионная модель не совсем подходит для описания рассматриваемой ситуации, поскольку величина za, вообще говоря, не ограничена, в то время как вероятность всегда ограничена нулем и единицей. Ожидаемое значение зависимой переменной, E(x), может описываться только нелинейной функцией.

Желательно каким-то образом модифицировать модель, чтобы она, с одной стороны, принимала во внимание тот факт, что вероятность не может выходить

9.2. Модели с биномиальной зависимой переменной

297

за пределы отрезка [0; 1], и, с другой стороны, была почти такой же простой как линейная регрессия. Этим требованиям удовлетворяет модель, для которой

Pr(x = 1) = F (),

где F (·) — некоторая достаточно простая функция, преобразующая в число от нуля до единицы. Естественно выбрать в качестве F (·) какую-либо дифференцируемую функцию распределения, определенную на всей действительной прямой. В дальнейшем мы рассмотрим несколько удобных функций распределения, которые удовлетворяют этим требованиям.

Заметим, что если выбрать F (·), соответствующую равномерному распределению на отрезке [0; 1], то окажется, что

0, zα 0,

E(x) = Pr(x = 1) = zα, 0 1,

1, zα 1.

Таким образом, при [0; 1] получим «линейную регрессию». Это так называемая линейная модель вероятности. Однако, вообще говоря, такой выбор F (·) скорее не упрощает оценивание, а усложняет, поскольку в целом математическое ожидание зависимой переменной является здесь нелинейной функцией неизвестных параметров α (т.е. это нелинейная регрессия), причем эта функция недифференцируема.

В то же время, если данные таковы, что можно быть уверенным, что величина далека от границ 0 и 1, то линейную модель вероятности можно использовать, оценивая ее как обычную линейную регрессию. То, что величина далека от границ 0 и 1, означает, что z плохо предсказывает x. Таким образом, линейная модель вероятности применима в случае, когда изучаемая зависимость слаба, и в имеющихся данных доля как нулей, так и единиц не слишком мала. Ее можно рассматривать как приближение для нелинейных моделей.

Есть два удобных вида распределения, которые обычно используют для моделирования вероятности получения единицы в модели с биномиальной зависимой переменной. Оба распределения симметричны относительно нуля.

1) Логистическое распределение.

Плотность логистического распределения равна

ey

λ(y) = (1 + ey )2 ,

298

Глава 9. Целочисленные переменные в регрессии

а функция распределения равна

 

 

 

 

 

 

ey

1

 

 

Λ(y) =

 

=

 

.

 

1 + ey

1 + e−y

Модель с биномиальной зависимой переменной с логистически распределенным отклонением называют логит. Для логита

E(x) = Pr(x = 1) = Λ() =

e

1

 

 

=

 

.

1 + e

1 + e−zα

2) Нормальное распределение (см. Приложение A.3.2).

Модель с нормально распределенным отклонением ε называют пробит. При этом используется стандартное нормальное распределение, т.е. нормальное распределение с нулевым ожиданием и единичной дисперсией, N (0, 1). Для пробита

1

 

 

 

2

E(x) = Pr(x = 1) = Φ() =

ϕ(t)dt =

 

 

e−t /2dt,

2π

 

−∞

 

 

−∞

 

где Φ(·) — функция распределения стандартного нормального распределения, ϕ(·) — его плотность.

Логистическое распределение похоже на нормальное с нулевым ожиданием и дисперсией π2/3 (дисперсия логистического распределения). В связи

сэтим оценки коэффициентов в моделях различаются примерно на множитель

π/ 3 1.8. Если вероятности далеки от границ 0 и 1 (около 0,5), то более точной оценкой множителя является величина ϕ(0)(0) = 8/π ≈ 1.6. При малом количестве наблюдений из-за схожести распределений сложно решить, когда следует применять логит, а когда — пробит. Различие наиболее сильно проявляется при вероятностях, близких к 0 и 1, поскольку логистическое распределение имеет более длинные хвосты, чем нормальное (оно характеризуется положительным коэффициентом эксцесса).

Можно использовать в модели и другие распределения, например, асимметричные.

9.2.2.Оценивание моделей с биномиальной зависимой переменной

Требуется по N наблюдениям (xi, zi), i = 1, . . . , N , получить оценки коэффициентов α. Здесь наблюдения xi независимы и имеют биномиальное распределение с одним испытанием (т.е. распределение Бернулли) и вероятностью

Pr(xi = 1) = F (ziα).

9.2. Модели с биномиальной зависимой переменной

 

299

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нормальное

 

 

 

 

 

 

Логистическое

 

 

 

 

распределение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распределение

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Распределение

 

 

 

 

 

 

 

 

 

 

 

 

экстремального

 

 

 

 

 

 

 

 

 

 

 

 

значения

 

 

 

 

 

 

 

 

 

 

 

 

 

 

–4

–3.1

–2.2

–1.3

–0.4

0.5

1.4

2.3

3.2

4.1

5

Рис. 9.1

Можно рассматривать модель с биномиальной зависимой переменной как модель регрессии:

xi = F (ziα) + ξi,

где ошибки ξi = xi − F (ziα) имеют нулевое математическое ожидание и независимы. Каждая из ошибок ξi может принимать только два значения, и поэтому их распределение мало похоже на нормальное. Кроме того, имеет место гетероскедастичность. Обозначим

pi = pi(α) = F (ziα).

В этих обозначениях дисперсия ошибки ξi равна

var(ξi) = E (xi − pi)2 = E(x2i ) 2piE(xi) + p2i = pi(1 − pi).

При выводе этой формулы мы воспользовались тем, что x2i = xi и E(xi) = pi.

Несмотря на эти нарушения стандартных предположений, данную модель, которая в общем случае представляет собой модель нелинейной регрессии, можно оценить нелинейным методом наименьших квадратов, минимизируя по α следующую сумму квадратов:

N

(xi − pi(α))2.

i=1

Для минимизации такой суммы квадратов требуется использовать какой-либо алгоритм нелинейной оптимизации. Этот метод дает состоятельные оценки коэффициентов α. Гетероскедастичность приводит к двум важным последствиям. Во-первых, оценки параметров будут неэффективными (не самыми точными). Вовторых, что более серьезно, ковариационная матрица коэффициентов, стандартные

300

Глава 9. Целочисленные переменные в регрессии

ошибки коэффициентов и t-статистики будут вычисляться некорректно (если использовать стандартные процедуры оценивания нелинейной регрессии и получения

вней оценки ковариационной матрицы оценок параметров).

Вчастном случае модели линейной вероятности имеем линейную регрессию с гетероскедастичными ошибками:

xi = ziα + ξi.

Для такой модели можно предложить следующую процедуру, делающую поправку на гетероскедастичность:

1)Оцениваем модель обычным МНК и получаем оценки a.

2)Находим оценки вероятностей:

pi = zia.

3) Используем взвешенную регрессию и получаем оценки a .

Чтобы оценить взвешенную регрессию, следует разделить каждое наблюдение исходной модели на корень из оценки дисперсии ошибки, т.е. на величину

pi(1 − pi) = zia(1 − zia):

 

 

 

 

 

 

 

 

 

xi

=

 

zi

α +

 

ξi

,

 

 

 

 

 

 

 

 

 

pi(1 − pi)

 

pi(1 − pi)

 

pi(1 − pi)

 

 

 

 

 

 

 

и далее применить к этой преобразованной регрессии обычный метод наименьших квадратов. При использовании данного метода получим асимптотически эффективные оценки a и корректную ковариационную матрицу этих оценок, на основе которой можно рассчитать t -статистики.

Те же идеи дают метод оценивания модели с произвольной гладкой функцией F (·). Для этого можно использовать линеаризацию в точке 0:

F (ziα) ≈ F (0) + f (0)ziα,

где f (·) — производная функции F (·) (плотность распределения). Тогда получим следующую приближенную модель:

xi ≈ F (0) + f (0) ziα + ξi

 

или

 

 

 

 

 

xi ≈ ziα + ξi,

 

 

 

где

 

 

 

 

xi =

xi − F (0)

и ξ

=

ξi

,

f (0)

f (0)

 

 

 

 

9.2. Модели с биномиальной зависимой переменной

301

которую можно оценить с помощью только что описанной процедуры. Для симметричных относительно нуля распределений F (0) = 0, 5. В случае логита, учитывая λ(0) = 1 4, получаем

xi = 4xi 2,

а в случае пробита, учитывая φ(0) = 1 2π , получаем

xi = 2π(xi 0, 5).

Таким образом, можно получить приближенные оценки для коэффициентов пробита и логита, используя в качестве зависимой переменной регрессии вместо переменной, принимающей значения 0 и 1, переменную, которая принимает зна-

чения ±2 для логита и ± π 2 для пробита ( π 2 1, 25). Ясно, что это хорошее приближение только когда величины ziα близки к нулю, то есть когда модель плохо описывает данные.

Приближенные оценки можно получить также по группированным наблюдениям. Предположим, что все наблюдения разбиты на несколько непересекающихся подгрупп, в пределах каждой из которых значения факторов zi примерно одинаковы. Введем обозначения:

1

p¯j = Nj i Ij xi

и

1

z¯j = Nj i Ij zi,

где Ij — множество наблюдений, принадлежащих j-й группе, Nj — количество наблюдений в j-й группе. Величина p¯j является оценкой вероятности получения единицы в случае, когда факторы принимают значение z¯j , т.е.

p¯j ≈ F zj α),

откуда

F 1(p¯j ) ≈ z¯j α.

Получаем модель регрессии, в которой в качестве зависимой переменной выступает F 1(p¯j ), а в качестве факторов — z¯j . В частном случае логистического распределения имеем:

Λ1(p¯j ) = ln

 

p¯j

,

 

− p¯j

1

 

= f (za)aj .

302

Глава 9. Целочисленные переменные в регрессии

т.е. для логита зависимая переменная представляет собой логарифм так называемого «соотношения шансов».

Чтобы такое приближение было хорошим, следует правильно сгруппировать наблюдения. При этом предъявляются два, вообще говоря, противоречивых требования:

в пределах каждой группы значения факторов должны быть примерно одинаковы (идеальный случай — когда в пределах групп zi совпадает, что вполне может случиться при анализе экспериментальных данных),

в каждой группе должно быть достаточно много наблюдений.

Описанный метод лучше всего подходит тогда, когда в модели имеется один объясняющий фактор (и константа), поскольку в этом случае проще группировать наблюдения.

В настоящее время в связи с развитием компьютерной техники для оценивания моделей с биномиальной зависимой переменной, как правило, используется метод максимального правдоподобия, рассмотрение которого выходит за рамки данной главы.

9.2.3.Интерпретация результатов оценивания моделей с биномиальной зависимой переменной

Предположим, что каким-либо методом получен вектор оценок a. Как в этом случае можно интерпретировать результаты и судить о качестве модели?

Для логита коэффициенты a описывают влияние факторов на логарифм соотношения шансов. В общем случае по знаку коэффициентов можно судить о направлении зависимости, а по соответствующим t-статистикам — о наличии или отсутствии зависимости. Однако интерпретировать коэффициенты в содержательных терминах затруднительно. Поэтому помимо коэффициентов полезно рассмотреть, как влияют факторы на вероятность получения единицы:

∂F (za)

∂zj

Эти величины называют маргинальными значениями. Ясно, что маргинальные значения зависят от точки z, в которой они рассматриваются. Обычно берут z на среднем уровне по имеющимся наблюдениям: z = z¯. Другой распространенный подход состоит в том, чтобы вычислить маргинальные значения во всех точках zi, i = 1, . . . , N , и по ним вычислить средние маргинальные значения:

1

N

f (zia) aj .

 

N

i=1

 

Соседние файлы в предмете Политология