Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с

.pdf
Скачиваний:
43
Добавлен:
22.08.2013
Размер:
4.02 Mб
Скачать

8.2. Гетероскедастичность ошибок

263

ei2

s22

s2

yi

1

 

Рис. 8.3

в которой, правда, угловой коэффициент и свободный член меняются местами. Тем самым применяется преобразование в пространстве наблюдений такое, что диагональные элементы матрицы D равны 1 zi .

Если зависимость дисперсии от других переменных известна не точно, а только с точностью до некоторых неизвестных параметров, то для проверки гомоскедастичности следует использовать вспомогательные регрессии.

Так называемый метод Глейзера состоит в следующем. Строится регрессия модулей остатков |ei| на константу и те переменные, которые могут быть коррелированными с дисперсией (например, это может быть все множество независимых факторов или какое-то их подмножество). Если регрессия оказывается статистически значимой, то гипотеза гомоскедастичности отвергается.

Построение вспомогательной регрессии от некоторой переменной yi показано на рисунке 8.3.

Другой метод (критерий Годфрея) использует аналогичную вспомогательную регрессию, в которой в качестве зависимой переменной используются квадраты остатков e2i .

Если с помощью какого-либо из перечисленных критериев (или других аналогичных критериев) проверены различные варианты возможной зависимости и нулевая гипотеза во всех случаях не была отвергнута, то делается вывод, что ситуация гомоскедастична или гетероскедастична без негативных последствий и что для оценки параметров модели можно использовать обычный МНК. Если же нулевая гипотеза отвергнута и поэтому, возможно, имеет место гетероскедастичность с негативными последствиями, то желательно получить более точные оценки, учитывающие гетероскедастичность.

Это можно сделать, используя для оценивания обобщенный МНК (см. уравнение (8.2)). Соответствующее преобразование в пространстве наблюдений состоит

264

Глава 8. Нарушение гипотез основной линейной модели

в том, чтобы каждое наблюдение умножить на di , т.е. требуется оценить обычным методом наименьших квадратов преобразованную регрессию с переменными diXi и diZi. При этом не следует забывать, что если матрица факторов Z содержит свободный член, то его тоже нужно умножить на di , поэтому вместо свободного члена в регрессии появится переменная вида (d1, . . . , dN ). Это приводит к тому, что стандартные статистические пакеты выдают неверные значения коэффициента детерминации и F -статистики. Чтобы этого не происходило, требуется пользоваться специализированными процедурами для расчета взвешенной регрессии. Описанный метод получил название взвешенного МНК, поскольку он равнозначен

минимизации взвешенной суммы квадратов остатков

N

d2e2 .

 

i i

 

i=1

Чтобы это можно было осуществить, необходимо каким-то образом получить оценку матрицы D, используемой для преобразования в пространстве наблюдений. Перечисленные в этом параграфе методы дают возможность не только проверить гипотезу об отсутствии гетероскедастичности, но и получить определенные оценки матрицы D (возможно, не очень хорошие).

Если S2 — оценка матрицы σ2Ω , где S2 — диагональная матрица, составленная из оценок дисперсий, то S1 (матрица, обратная к ее квадратному корню) — оценка матрицы σD.

Так, после проверки гомоскедастичности методом Глейзера в качестве диагональных элементов матрицы S1 можно взять 1 |ei|c , где |ei|c — расчетные

значения |ei|. Если используются критерии Бартлетта или Голдфельда—Квандта, то наблюдения разбиваются на группы, для каждой из которых есть оценка дисперсии, s2l . Тогда для этой группы наблюдений в качестве диагональных элементов матрицы S1 можно взять 1 sl .

В методе Голдфельда—Квандта требуется дополнительно получить оценку дисперсии для пропущенной средней части наблюдений. Эту оценку можно получить непосредственно по остаткам пропущенных налюдений или как среднее (s21 +s22)/2.

Если точный вид гетероскедастичности неизвестен, и, как следствие, взвешенный МНК неприменим, то, по крайней мере, следует скорректировать оценку ковариационной матрицы оценок параметров, оцененных обычным МНК, прежде чем проверять гипотезы о значимости коэффициентов. (Хотя при использовании обычного МНК оценки будут менее точными, но как уже упоминалось, они будут несмещенными и состоятельными.) Простейший метод коррекции состоит в замене неизвестной ковариационной матрицы ошибок σ2Ω на ее оценку S2 , где S2 — диагональная матрица с типичным элементом e2i (т.е. квадраты остатков используются как оценки дисперсий). Тогда получается следующая скорректированная оценка ковариационной матрицы a (оценка Уайта или устойчивая к гетероскедастичности оценка):

(Z Z)1 Z S2Z (Z Z)1 .

8.3. Автокорреляция ошибок

265

8.3. Автокорреляция ошибок

Если матрица ковариаций ошибок не является диагональной, то говорят об автокорреляции ошибок. Обычно при этом предполагают, что наблюдения однородны по дисперсии, и их последовательность имеет определенный смысл и жестко фиксирована. Как правило, такая ситуация имеет место, если наблюдения проводятся в последовательные моменты времени. В этом случае можно говорить о зависимостях ошибок по наблюдениям, отстоящим друг от друга на 1, 2, 3 и т.д. момента времени. Обычно рассматривается частный случай автокорреляции, когда коэффициенты ковариации ошибок зависят только от расстояния во времени между наблюдениями; тогда возникает матрица ковариаций, в которой все элементы каждой диагонали (не только главной) одинаковы1.

Поскольку действие причин, обуславливающих возникновение ошибок, доста-

точно устойчиво во времени, автокорреляции ошибок, как правило, положительны.

Это ведет к тому, что значения остаточной дисперсии, полученные по стандартным

(«штатным») формулам, оказываются ниже их действительных значений. Что, как

отмечалось и в предыдущем пункте, чревато ошибочными выводами о качестве

получаемых моделей.

 

Это утверждение иллюстрируется рисунком 8.4 (n = 1).

На этом рисунке:

 

a — линия истинной регрессии. Если в первый момент времени истинная ошибка

отрицательна, то в силу положительной автокорреляции ошибок все облако наблю-

дений сместится вниз, и линия оцененной регрессии займет положение b.

Если в первый момент времени истинная ошибка положительна, то по тем же причи-

нам линия оцененной регрессии сместится вверх и займет положение c. Поскольку

1В теории временных рядов это называется слабой стационарностью.

x

c

 

 

a

 

b

 

время

 

Рис. 8.4

266

Глава 8. Нарушение гипотез основной линейной модели

ошибки случайны и в первый момент времени они примерно с равной вероятностью могут оказаться положительными или отрицательными, то становится ясно, насколько увеличивается разброс оценок регрессии вокруг истинных по сравнению с ситуацией без (положительной) автокорреляции ошибок.

Типичный случай автокорреляции ошибок, рассматриваемый в классической эконометрии, — это линейная авторегрессия ошибок первого порядка AR(1):

εi = ρεi−1 + ηi,

где η — остатки, удовлетворяющие обычным гипотезам;

ρ — коэффициент авторегрессии первого порядка.

Коэффициент ρ вляется также коэффициентом автокорреляции (первого порядка).

Действительно, по определению, коэффициент авторегрессии равен (как МНКоценка):

ρ = cov(εi, εi−1) , var(εi−1)

но, в силу гомоскедастичности, var(εi−1) = var(εi)var(εi−1) и, следовательно, ρ, также по определению, является коэффициентом автокорреляции.

Если ρ = 0, то εi = ηi и получаем «штатную» ситуацию. Таким образом, проверку того, что автокорреляция отсутствует, можно проводить как проверку нулевой гипотезы H0: ρ = 0 для процесса авторегрессии 1-го порядка в ошибках.

Для проверки этой гипотезы можно использовать критерий Дарбина— Уотсона или DW-критерий. Проверяется нулевая гипотеза о том, что автокорреляция ошибок первого порядка отсутствует. (При автокорреляции второго и более высоких порядков его мощность может быть мала, и применение данного критерия становится ненадежным.)

Пусть была оценена модель регрессии и найдены остатки ei, i = 1, . . . , N . Значение статистики Дарбина—Уотсона (отношения фон Неймана), или DW-ста- тистики, рассчитывается следующим образом:

 

N

(ei − ei−1)2

 

dc =

i=2

(8.3)

 

.

 

 

 

 

N

 

e2i

i=1

Оно лежит в интервале от 0 до 4, в случае отсутствия автокорреляции ошибок приблизительно равно 2, при положительной автокорреляции смещается в мень-

8.3. Автокорреляция ошибок

267

0

 

2

4

dL

dU

4 dU

4 dL

Рис. 8.5

шую сторону, при отрицательной — в большую сторону. Эти факты подтверждаются тем, что при больших N справедливо следующее соотношение:

dc 2(1 − r),

(8.4)

где r — оценка коэффициента авторегрессии.

Минимального значения величина dc достигает, если коэффициент авторегрессии равен +1. В этом случае ei = e, i = 1, . . . , N , и dc = 0. Если коэффициент авторегрессии равен 1 и ei = (1)ie, i = 1, . . . , N , то величина dc достигает

значения 4 N − 1 (можно достичь и более высокого значения подбором остатков),

N

которое с ростом N стремится к 4. Формула (8.4) следует непосредственно из (8.3) после элементарных преобразований:

 

 

N

 

N

 

N

 

 

 

 

 

ei2

 

ei−1ei

 

ei2

1

 

c

=

i=2

2

i=2

+

i=2

 

,

d

 

 

 

 

 

N

N

N

 

 

 

 

e2

 

e2

 

 

e2

 

 

 

 

i

 

i

 

 

i

 

 

 

 

i=1

 

i=1

 

i=1

 

 

 

поскольку первое и третье слагаемые при больших N близки к единице, а второе слагаемое является оценкой коэффициента автокорреляции (умноженной на 2).

Известно распределение величины d, если ρ = 0 (это распределение близко к нормальному), но параметры этого распределения зависят не только от N и n, как для t- и F -статистик при нулевых гипотезах. Положение «колокола» функции плотности распределения этой величины зависит от характера Z. Тем не менее, Дарбин и Уотсон показали, что это положение имеет две крайние позиции (рис. 8.5).

Поэтому существует по два значения для каждого (двустороннего) квантиля, соответствующего определенным N и n: его нижняя dL и верхняя dU границы. Нулевая гипотеза H0: ρ = 0 принимается, если dU dc 4 −dU ; она отвергается в пользу гипотезы о положительной автокорреляции, если dc < dL , и в пользу

268

Глава 8. Нарушение гипотез основной линейной модели

гипотезы об отрицательной автокорреляции, если dc > 4 −dL . Если dL dc < dU или 4−dU < dc 4−dL , вопрос остается открытым (это — зона неопределенности DW-критерия).

Пусть нулевая гипотеза отвергнута. Тогда необходимо дать оценку матрицы Ω.

Оценка r параметра авторегрессии ρ может определяться из приближенного равенства, следующего из (8.4):

r ≈ 1 dc ,

2

или рассчитываться непосредственно из регрессии e на него самого со сдвигом на одно наблюдение с принятием «круговой» гипотезы, которая заключается в том, что eN +1 = e1 .

Оценкой матрицы Ω является

 

 

 

 

 

 

 

 

 

 

 

 

 

1

r

r2

 

 

· · · rN −1

 

 

1

 

r

1

 

r

 

 

· · · rN −2

 

 

 

r2

r

 

1

 

 

· · ·

rN −3 ,

 

 

 

 

 

 

 

1

r2

 

 

 

 

 

 

.

.

 

.

 

 

.

.

 

.

 

 

 

 

.

.

 

.

 

 

 

.

.

 

 

 

 

.

.

 

.

 

 

 

 

.

 

 

 

 

rN −1 rN −2

rN −3 · · ·

1

а матрица D преобразований в пространстве наблюдений равна

 

 

 

 

 

0 0

· · · 0

 

 

 

 

 

1 − r2

 

 

 

 

 

 

−r

1

0

· · ·

 

 

0

 

 

 

 

 

0

−r

1

· · ·

 

 

0 .

 

 

 

 

.

. . .

.

 

 

 

.

 

 

 

 

 

.

. .

.

 

 

 

 

 

.

. .

 

 

. .

 

 

 

 

 

0

0

0

· · ·

 

 

1

 

Для преобразования в пространстве наблюдений, называемом в данном случае авторегрессионным, используют обычно указанную матрицу без 1-й строки, что ведет к сокращению количества наблюдений на одно. В результате такого преобразования из каждого наблюдения, начиная со 2-го, вычитается предыдущее, умноженное на r, теоретическими остатками становятся η , которые, по предположению, удовлетворяют гипотезе g4.

8.3. Автокорреляция ошибок

269

После этого преобразования снова оцениваются параметры регрессии. Если новое значение DW-статистики неудовлетворительно, то можно провести следующее авторегрессионное преобразование.

Обобщает процедуру последовательных авторегрессионных преобразований метод Кочрена—Оркатта, который заключается в следующем.

Для одновременной оценки r, a и b используется критерий ОМНК (в обозначениях исходной формы уравнения регрессии):

1 N ((xi − rxi−1) (zi − rzi−1)a − (1 − r)b)2 min,

N i=2

где zi n-вектор-строка значений независимых факторов в i-м наблюдении (i-строка матрицы Z).

Поскольку производные функционала по искомым величинам нелинейны относительно них, применяется итеративная процедура, на каждом шаге которой сначала оцениваются a и b при фиксированном значении r предыдущего шага (на первом шаге обычно r = 0), а затем — r при полученных значениях a и b. Процесс, как правило, сходится.

Как и в случае гетероскедастичности, можно не использовать модифицированные методы оценивания (тем более, что точный вид автокорреляции может быть неизвестен), а использовать обычный МНК и скорректировать оценку ковариационной матрицы параметров. Наиболее часто используемая оценка Ньюи—Уэста (устойчивая к гетероскедастичности и автокорреляции) имеет следующий вид:

 

(Z Z)1 Q (Z Z)1 ,

где

 

N

L N

Q = ei2 +

λk eiei−k (zizi−k + zi−k zi),

i=1

k=1 i=k+1

а λk — понижающие коэффициенты, которые Ньюи и Уэст предложили рассчитывать по формуле λk = 1 L +k 1 . При k > L понижающие коэффициенты становятся равными нулю, т.е. более дальние корреляции не учитываются

Обоснование этой оценки достаточно сложно2. Заметим только, что если заменить попарные произведения остатков соответствующими ковариациями и убрать понижающие коэффициенты, то получится формула ковариационной матрицы оценок МНК.

Приведенная оценка зависит от выбора параметра отсечения L. В настоящее время не существует простых теоретически обоснованных методов для такого выбора.

На практике можно ориентироваться на грубое правило L = 4 T 100

2/9

.

2Оно связано с оценкой спектральной плотности для многомерного временного ряда.

270

Глава 8. Нарушение гипотез основной линейной модели

8.4. Ошибки измерения факторов

Пусть теперь нарушается гипотеза g2, и независимые факторы наблюдаются с ошибками. Предполагается, что изучаемая переменная зависит от истинных значений факторов (далее в этом пункте используется сокращенная форма уравнения регрессии), zˆ0 , а именно:

xˆ = zˆ0α + ε,

но истинные значения неизвестны, а вместо этого имеются наблюдения над некоторыми связанными с zˆ0 переменными zˆ:

zˆ = zˆ0 + εz ,

где εz — вектор-строка длиной n ошибок наблюдений. В разрезе наблюдений:

 

ˆ

ˆ0

α + ε,

 

X = Z

 

ˆ

ˆ0

+ εz ,

 

Z = Z

ˆ0

и εz — соответствующие N × n-матрицы значений этих величин по на-

где Z

блюдениям (т.е., в зависимости от контекста, εz обозначает вектор или матрицу ошибок).

Предполагается, что ошибки факторов по математическому ожиданию равны нулю, истинные значения регрессоров и ошибки независимы друг от друга (по крайней мере не коррелированы друг с другом) и известны матрицы ковариации:

E(εz ) = 0,

E(ˆz0 , ε) = 0, E(ˆz0 , εz ) = 0,

 

(8.5)

E(ˆz0 , zˆ0 ) = M 0, E(εz , εz ) = Ω, E(εz , ε) = ω.

Важно отметить, что эти матрицы и вектора ковариации одинаковы во всех наблюдениях, а ошибки в разных наблюдениях не зависят друг от друга, т.е. речь, фактически, идет о «матричной» гомоскедастичности и отсутствии автокорреляции ошибок.

Через наблюдаемые переменные xˆ и zˆ уравнение регрессии записывается

в следующей форме:

 

xˆ = ˆ + ε − εz α.

(8.6)

В такой записи видно, что «новые» остатки не могут быть независимыми от факто- ров-регрессоров zˆ, т.е. гипотезы основной модели регрессии нарушены. В рамках

8.4. Ошибки измерения факторов

271

сделанных предположений можно доказать, что приближенно

 

E(a) (M 0 + Ω)1(M 0α + ω) = α + (M 0 + Ω)1(ω − α),

(8.7)

т.е. МНК-оценки теряют в такой ситуации свойства состоятельности и несмещенности3, если ω = Ωα (в частности, когда ошибки регрессии и ошибки факторов не коррелированны, т.е. когда ω = 0, а Ω и α отличны от нуля).

Для обоснования (8.7) перейдем к теоретическому аналогу системы нормальных уравнений, для чего обе части соотношения (8.6) умножаются на транспонированную матрицу факторов:

E (ˆz xˆ) = E (ˆz zˆ) α + E (ˆz ε) E (ˆz εz ) α.

Здесь, как несложно показать, пользуясь сделанными предположениями,

E (ˆz zˆ) = M 0 + Ω,

Ez ε) = ω,

Ez εz ) = Ω,

Поэтому

E (ˆz xˆ) = E (ˆz zˆ) α + ω − α

или

E (ˆz zˆ)1 E (ˆz xˆ) = α + M 0 + Ω 1 (ω

α) .

 

 

Левая часть приближенно равна E(a).

Действительно, a = M 1 ационные матрицы M и сходятся по вероятности к

, где 1 ˆ ˆ и 1 ˆ . Выборочные ковари- m M = N Z Z m = N Z xˆ

m по закону больших чисел с ростом числа наблюдений своим теоретическим аналогам:

p

M −→E (ˆz zˆ)

p

и m −→E (ˆz xˆ) .

По свойствам сходимости по вероятности предел функции равен функции от предела, если функция непрерывна. Поэтому

p

a = M 1m −→ E (ˆz zˆ)1 E (ˆz xˆ) = (M 0 + Ω)1(M 0α + ω).

Существуют разные подходы к оценке параметров регрессии в случае наличия ошибок измерения независимых факторов. Здесь приводятся два из них.

3Они смещены даже асимптотически, т.е. при стремлении количества наблюдений к бесконечности смещение не стремится к нулю.

272 Глава 8. Нарушение гипотез основной линейной модели

а) Простая регрессия. Если имеется оценка W ковариационной матрицы Ω и w — ковариационного вектора ω , то можно использовать следующий оператор оценивания:

a = (M − W )1(m − w),

который обеспечивает состоятельность оценок и делает их менее смещенными.

Это формула следует из

E (ˆz xˆ) = E (ˆz zˆ) α + ω − α

заменой теоретических моментов на их оценки.

Обычно предполагается, что W — диагональная матрица, а w = 0.

б) Ортогональная регрессия. Поскольку z теперь такие же случайные переменные, наблюдаемые с ошибками, как и x, имеет смысл вернуться к обозначениям 6-го раздела, где через x обозначался n-мерный вектор-строка всех переменных. Пусть ε — вектор их ошибок наблюдения, а x0 — вектор их истинных значений, то есть

x = x0 + ε, X = X0 + ε.

Предположения (8.5) записываются следующим образом:

E(ˆx0 , ε) = 0, E(ˆx0 , xˆ0) = M 0, E(ε , ε) = σ2.

Теперь через M 0 обозначается матрица, которую в обозначениях, используемых в этом пункте выше, можно записать следующим образом:

σx20 m0

,

m0 M 0

а через σ2Ω матрица

σ2

ω

 

.

ω

Поскольку речь идет о линейной регрессии, предполагается, что между истинными значениями переменных существует линейная зависимость:

x0α = 0.

Соседние файлы в предмете Политология