Добавил:

fench Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный университет

Предмет:

Политология

Файл:

Ведение в социально - экономическую статистику. Учебник. Новосибирск, 2004. 739 с

.pdf

Скачиваний:

Добавлен:

22.08.2013

Размер:

4.02 Mб

Скачать

☆

<<< < Предыдущая 15 16 17 18 19 20 21 22 23 24 25 2627 / 7427 28 29 30 31 32 33 34 35 36 37 38 39 > Следующая >>>

8.2. Гетероскедастичность ошибок

263

ei2

s22

	s2	yi
	1	yi
	1

Рис. 8.3

в которой, правда, угловой коэффициент и свободный член меняются местами. Тем самым применяется преобразование в пространстве наблюдений такое, что диагональные элементы матрицы D равны 1 zi .

Если зависимость дисперсии от других переменных известна не точно, а только с точностью до некоторых неизвестных параметров, то для проверки гомоскедастичности следует использовать вспомогательные регрессии.

Так называемый метод Глейзера состоит в следующем. Строится регрессия модулей остатков |ei| на константу и те переменные, которые могут быть коррелированными с дисперсией (например, это может быть все множество независимых факторов или какое-то их подмножество). Если регрессия оказывается статистически значимой, то гипотеза гомоскедастичности отвергается.

Построение вспомогательной регрессии от некоторой переменной yi показано на рисунке 8.3.

Другой метод (критерий Годфрея) использует аналогичную вспомогательную регрессию, в которой в качестве зависимой переменной используются квадраты остатков e2i .

Если с помощью какого-либо из перечисленных критериев (или других аналогичных критериев) проверены различные варианты возможной зависимости и нулевая гипотеза во всех случаях не была отвергнута, то делается вывод, что ситуация гомоскедастична или гетероскедастична без негативных последствий и что для оценки параметров модели можно использовать обычный МНК. Если же нулевая гипотеза отвергнута и поэтому, возможно, имеет место гетероскедастичность с негативными последствиями, то желательно получить более точные оценки, учитывающие гетероскедастичность.

Это можно сделать, используя для оценивания обобщенный МНК (см. уравнение (8.2)). Соответствующее преобразование в пространстве наблюдений состоит

264	Глава 8. Нарушение гипотез основной линейной модели

в том, чтобы каждое наблюдение умножить на di , т.е. требуется оценить обычным методом наименьших квадратов преобразованную регрессию с переменными diXi и diZi. При этом не следует забывать, что если матрица факторов Z содержит свободный член, то его тоже нужно умножить на di , поэтому вместо свободного члена в регрессии появится переменная вида (d1, . . . , dN ). Это приводит к тому, что стандартные статистические пакеты выдают неверные значения коэффициента детерминации и F -статистики. Чтобы этого не происходило, требуется пользоваться специализированными процедурами для расчета взвешенной регрессии. Описанный метод получил название взвешенного МНК, поскольку он равнозначен

минимизации взвешенной суммы квадратов остатков	N
минимизации взвешенной суммы квадратов остатков	d2e2 .
	i i
	i=1

Чтобы это можно было осуществить, необходимо каким-то образом получить оценку матрицы D, используемой для преобразования в пространстве наблюдений. Перечисленные в этом параграфе методы дают возможность не только проверить гипотезу об отсутствии гетероскедастичности, но и получить определенные оценки матрицы D (возможно, не очень хорошие).

Если S2 — оценка матрицы σ2Ω , где S2 — диагональная матрица, составленная из оценок дисперсий, то S−1 (матрица, обратная к ее квадратному корню) — оценка матрицы σD.

Так, после проверки гомоскедастичности методом Глейзера в качестве диагональных элементов матрицы S−1 можно взять 1 |ei|c , где |ei|c — расчетные

значения |ei|. Если используются критерии Бартлетта или Голдфельда—Квандта, то наблюдения разбиваются на группы, для каждой из которых есть оценка дисперсии, s2l . Тогда для этой группы наблюдений в качестве диагональных элементов матрицы S−1 можно взять 1 sl .

В методе Голдфельда—Квандта требуется дополнительно получить оценку дисперсии для пропущенной средней части наблюдений. Эту оценку можно получить непосредственно по остаткам пропущенных налюдений или как среднее (s21 +s22)/2.

Если точный вид гетероскедастичности неизвестен, и, как следствие, взвешенный МНК неприменим, то, по крайней мере, следует скорректировать оценку ковариационной матрицы оценок параметров, оцененных обычным МНК, прежде чем проверять гипотезы о значимости коэффициентов. (Хотя при использовании обычного МНК оценки будут менее точными, но как уже упоминалось, они будут несмещенными и состоятельными.) Простейший метод коррекции состоит в замене неизвестной ковариационной матрицы ошибок σ2Ω на ее оценку S2 , где S2 — диагональная матрица с типичным элементом e2i (т.е. квадраты остатков используются как оценки дисперсий). Тогда получается следующая скорректированная оценка ковариационной матрицы a (оценка Уайта или устойчивая к гетероскедастичности оценка):

(Z Z)−1 Z S2Z (Z Z)−1 .

8.3. Автокорреляция ошибок

265

8.3. Автокорреляция ошибок

Если матрица ковариаций ошибок не является диагональной, то говорят об автокорреляции ошибок. Обычно при этом предполагают, что наблюдения однородны по дисперсии, и их последовательность имеет определенный смысл и жестко фиксирована. Как правило, такая ситуация имеет место, если наблюдения проводятся в последовательные моменты времени. В этом случае можно говорить о зависимостях ошибок по наблюдениям, отстоящим друг от друга на 1, 2, 3 и т.д. момента времени. Обычно рассматривается частный случай автокорреляции, когда коэффициенты ковариации ошибок зависят только от расстояния во времени между наблюдениями; тогда возникает матрица ковариаций, в которой все элементы каждой диагонали (не только главной) одинаковы1.

Поскольку действие причин, обуславливающих возникновение ошибок, доста-
точно устойчиво во времени, автокорреляции ошибок, как правило, положительны.
Это ведет к тому, что значения остаточной дисперсии, полученные по стандартным
(«штатным») формулам, оказываются ниже их действительных значений. Что, как
отмечалось и в предыдущем пункте, чревато ошибочными выводами о качестве
получаемых моделей.
Это утверждение иллюстрируется рисунком 8.4 (n = 1).
На этом рисунке:
a — линия истинной регрессии. Если в первый момент времени истинная ошибка
отрицательна, то в силу положительной автокорреляции ошибок все облако наблю-
дений сместится вниз, и линия оцененной регрессии займет положение b.
Если в первый момент времени истинная ошибка положительна, то по тем же причи-
нам линия оцененной регрессии сместится вверх и займет положение c. Поскольку
1В теории временных рядов это называется слабой стационарностью.
x	c

	a
	b
	время
	Рис. 8.4

266	Глава 8. Нарушение гипотез основной линейной модели

ошибки случайны и в первый момент времени они примерно с равной вероятностью могут оказаться положительными или отрицательными, то становится ясно, насколько увеличивается разброс оценок регрессии вокруг истинных по сравнению с ситуацией без (положительной) автокорреляции ошибок.

Типичный случай автокорреляции ошибок, рассматриваемый в классической эконометрии, — это линейная авторегрессия ошибок первого порядка AR(1):

εi = ρεi−1 + ηi,

где η — остатки, удовлетворяющие обычным гипотезам;

ρ — коэффициент авторегрессии первого порядка.

Коэффициент ρ вляется также коэффициентом автокорреляции (первого порядка).

Действительно, по определению, коэффициент авторегрессии равен (как МНКоценка):

ρ = cov(εi, εi−1) , var(εi−1)

но, в силу гомоскедастичности, var(εi−1) = var(εi)var(εi−1) и, следовательно, ρ, также по определению, является коэффициентом автокорреляции.

Если ρ = 0, то εi = ηi и получаем «штатную» ситуацию. Таким образом, проверку того, что автокорреляция отсутствует, можно проводить как проверку нулевой гипотезы H0: ρ = 0 для процесса авторегрессии 1-го порядка в ошибках.

Для проверки этой гипотезы можно использовать критерий Дарбина— Уотсона или DW-критерий. Проверяется нулевая гипотеза о том, что автокорреляция ошибок первого порядка отсутствует. (При автокорреляции второго и более высоких порядков его мощность может быть мала, и применение данного критерия становится ненадежным.)

Пусть была оценена модель регрессии и найдены остатки ei, i = 1, . . . , N . Значение статистики Дарбина—Уотсона (отношения фон Неймана), или DW-ста- тистики, рассчитывается следующим образом:

	N	(ei − ei−1)2
dc =	i=2			(8.3)
			.

		N

e2i

i=1

Оно лежит в интервале от 0 до 4, в случае отсутствия автокорреляции ошибок приблизительно равно 2, при положительной автокорреляции смещается в мень-

8.3. Автокорреляция ошибок

267

0		2	4
dL	dU	4 dU	4 dL

Рис. 8.5

шую сторону, при отрицательной — в большую сторону. Эти факты подтверждаются тем, что при больших N справедливо следующее соотношение:

dc ≈ 2(1 − r),

(8.4)

где r — оценка коэффициента авторегрессии.

Минимального значения величина dc достигает, если коэффициент авторегрессии равен +1. В этом случае ei = e, i = 1, . . . , N , и dc = 0. Если коэффициент авторегрессии равен −1 и ei = (−1)ie, i = 1, . . . , N , то величина dc достигает

значения 4 N − 1 (можно достичь и более высокого значения подбором остатков),

которое с ростом N стремится к 4. Формула (8.4) следует непосредственно из (8.3) после элементарных преобразований:

		N		N		N
		ei2		ei−1ei		ei2		1
c	=	i=2	− 2	i=2	+	i=2	−		,
d
d		N		N		N
		e2		e2			e2
		i		i			i
		i=1		i=1		i=1

поскольку первое и третье слагаемые при больших N близки к единице, а второе слагаемое является оценкой коэффициента автокорреляции (умноженной на −2).

Известно распределение величины d, если ρ = 0 (это распределение близко к нормальному), но параметры этого распределения зависят не только от N и n, как для t- и F -статистик при нулевых гипотезах. Положение «колокола» функции плотности распределения этой величины зависит от характера Z. Тем не менее, Дарбин и Уотсон показали, что это положение имеет две крайние позиции (рис. 8.5).

Поэтому существует по два значения для каждого (двустороннего) квантиля, соответствующего определенным N и n: его нижняя dL и верхняя dU границы. Нулевая гипотеза H0: ρ = 0 принимается, если dU dc 4 −dU ; она отвергается в пользу гипотезы о положительной автокорреляции, если dc < dL , и в пользу

268	Глава 8. Нарушение гипотез основной линейной модели

гипотезы об отрицательной автокорреляции, если dc > 4 −dL . Если dL dc < dU или 4−dU < dc 4−dL , вопрос остается открытым (это — зона неопределенности DW-критерия).

Пусть нулевая гипотеза отвергнута. Тогда необходимо дать оценку матрицы Ω.

Оценка r параметра авторегрессии ρ может определяться из приближенного равенства, следующего из (8.4):

r ≈ 1 − dc ,

или рассчитываться непосредственно из регрессии e на него самого со сдвигом на одно наблюдение с принятием «круговой» гипотезы, которая заключается в том, что eN +1 = e1 .

Оценкой матрицы Ω является
				1		r	r2				· · · rN −1
		1		r		1		r			· · · rN −2
		1		r2		r		1			· · ·			rN −3 ,

	1	−	r2
		−		.		.		.			.	.		.
				.		.		.				.	.	.
				.		.		.					.	.
				rN −1 rN −2			rN −3 · · ·							1
а матрица D преобразований в пространстве наблюдений равна
				√		0 0		· · · 0
				√	1 − r2	0 0		· · · 0
					−r	1	0	· · ·					0
				0		−r	1	· · ·					0 .
				.		. . .			.				.
				.		. .			.	.
				.		. .				. .
				0		0	0	· · ·					1

Для преобразования в пространстве наблюдений, называемом в данном случае авторегрессионным, используют обычно указанную матрицу без 1-й строки, что ведет к сокращению количества наблюдений на одно. В результате такого преобразования из каждого наблюдения, начиная со 2-го, вычитается предыдущее, умноженное на r, теоретическими остатками становятся η , которые, по предположению, удовлетворяют гипотезе g4.

8.3. Автокорреляция ошибок

269

После этого преобразования снова оцениваются параметры регрессии. Если новое значение DW-статистики неудовлетворительно, то можно провести следующее авторегрессионное преобразование.

Обобщает процедуру последовательных авторегрессионных преобразований метод Кочрена—Оркатта, который заключается в следующем.

Для одновременной оценки r, a и b используется критерий ОМНК (в обозначениях исходной формы уравнения регрессии):

1 N ((xi − rxi−1) − (zi − rzi−1)a − (1 − r)b)2 → min,

N i=2

где zi — n-вектор-строка значений независимых факторов в i-м наблюдении (i-строка матрицы Z).

Поскольку производные функционала по искомым величинам нелинейны относительно них, применяется итеративная процедура, на каждом шаге которой сначала оцениваются a и b при фиксированном значении r предыдущего шага (на первом шаге обычно r = 0), а затем — r при полученных значениях a и b. Процесс, как правило, сходится.

Как и в случае гетероскедастичности, можно не использовать модифицированные методы оценивания (тем более, что точный вид автокорреляции может быть неизвестен), а использовать обычный МНК и скорректировать оценку ковариационной матрицы параметров. Наиболее часто используемая оценка Ньюи—Уэста (устойчивая к гетероскедастичности и автокорреляции) имеет следующий вид:

	(Z Z)−1 Q (Z Z)−1 ,
где
N	L N
Q = ei2 +	λk eiei−k (zizi−k + zi−k zi),
i=1	k=1 i=k+1

а λk — понижающие коэффициенты, которые Ньюи и Уэст предложили рассчитывать по формуле λk = 1 − L +k 1 . При k > L понижающие коэффициенты становятся равными нулю, т.е. более дальние корреляции не учитываются

Обоснование этой оценки достаточно сложно2. Заметим только, что если заменить попарные произведения остатков соответствующими ковариациями и убрать понижающие коэффициенты, то получится формула ковариационной матрицы оценок МНК.

Приведенная оценка зависит от выбора параметра отсечения L. В настоящее время не существует простых теоретически обоснованных методов для такого выбора.

На практике можно ориентироваться на грубое правило L = 4 T 100	2/9
	.

2Оно связано с оценкой спектральной плотности для многомерного временного ряда.

270	Глава 8. Нарушение гипотез основной линейной модели

8.4. Ошибки измерения факторов

Пусть теперь нарушается гипотеза g2, и независимые факторы наблюдаются с ошибками. Предполагается, что изучаемая переменная зависит от истинных значений факторов (далее в этом пункте используется сокращенная форма уравнения регрессии), zˆ0 , а именно:

xˆ = zˆ0α + ε,

но истинные значения неизвестны, а вместо этого имеются наблюдения над некоторыми связанными с zˆ0 переменными zˆ:

zˆ = zˆ0 + εz ,

где εz — вектор-строка длиной n ошибок наблюдений. В разрезе наблюдений:

	ˆ	ˆ0	α + ε,
	X = Z
	ˆ	ˆ0	+ εz ,
	Z = Z
ˆ0	и εz — соответствующие N × n-матрицы значений этих величин по на-
где Z

блюдениям (т.е., в зависимости от контекста, εz обозначает вектор или матрицу ошибок).

Предполагается, что ошибки факторов по математическому ожиданию равны нулю, истинные значения регрессоров и ошибки независимы друг от друга (по крайней мере не коррелированы друг с другом) и известны матрицы ковариации:

E(εz ) = 0,	E(ˆz0 , ε) = 0, E(ˆz0 , εz ) = 0,
	(8.5)

E(ˆz0 , zˆ0 ) = M 0, E(εz , εz ) = Ω, E(εz , ε) = ω.

Важно отметить, что эти матрицы и вектора ковариации одинаковы во всех наблюдениях, а ошибки в разных наблюдениях не зависят друг от друга, т.е. речь, фактически, идет о «матричной» гомоскедастичности и отсутствии автокорреляции ошибок.

Через наблюдаемые переменные xˆ и zˆ уравнение регрессии записывается

в следующей форме:
xˆ = zαˆ + ε − εz α.	(8.6)

В такой записи видно, что «новые» остатки не могут быть независимыми от факто- ров-регрессоров zˆ, т.е. гипотезы основной модели регрессии нарушены. В рамках

8.4. Ошибки измерения факторов	271
сделанных предположений можно доказать, что приближенно
E(a) ≈ (M 0 + Ω)−1(M 0α + ω) = α + (M 0 + Ω)−1(ω − Ωα),	(8.7)

т.е. МНК-оценки теряют в такой ситуации свойства состоятельности и несмещенности3, если ω = Ωα (в частности, когда ошибки регрессии и ошибки факторов не коррелированны, т.е. когда ω = 0, а Ω и α отличны от нуля).

Для обоснования (8.7) перейдем к теоретическому аналогу системы нормальных уравнений, для чего обе части соотношения (8.6) умножаются на транспонированную матрицу факторов:

E (ˆz xˆ) = E (ˆz zˆ) α + E (ˆz ε) − E (ˆz εz ) α.

Здесь, как несложно показать, пользуясь сделанными предположениями,

E (ˆz zˆ) = M 0 + Ω,

E(ˆz ε) = ω,

E(ˆz εz ) = Ω,

Поэтому

E (ˆz xˆ) = E (ˆz zˆ) α + ω − Ωα

или

E (ˆz zˆ)−1 E (ˆz xˆ) = α + M 0 + Ω −1 (ω	−	Ωα) .
	−

Левая часть приближенно равна E(a).

Действительно, a = M −1 ационные матрицы M и сходятся по вероятности к

, где 1 ˆ ˆ и 1 ˆ . Выборочные ковари- m M = N Z Z m = N Z xˆ

m по закону больших чисел с ростом числа наблюдений своим теоретическим аналогам:

M −→E (ˆz zˆ)

и m −→E (ˆz xˆ) .

По свойствам сходимости по вероятности предел функции равен функции от предела, если функция непрерывна. Поэтому

a = M −1m −→ E (ˆz zˆ)−1 E (ˆz xˆ) = (M 0 + Ω)−1(M 0α + ω).

Существуют разные подходы к оценке параметров регрессии в случае наличия ошибок измерения независимых факторов. Здесь приводятся два из них.

3Они смещены даже асимптотически, т.е. при стремлении количества наблюдений к бесконечности смещение не стремится к нулю.

272 Глава 8. Нарушение гипотез основной линейной модели

а) Простая регрессия. Если имеется оценка W ковариационной матрицы Ω и w — ковариационного вектора ω , то можно использовать следующий оператор оценивания:

a = (M − W )−1(m − w),

который обеспечивает состоятельность оценок и делает их менее смещенными.

Это формула следует из

E (ˆz xˆ) = E (ˆz zˆ) α + ω − Ωα

заменой теоретических моментов на их оценки.

Обычно предполагается, что W — диагональная матрица, а w = 0.

б) Ортогональная регрессия. Поскольку z теперь такие же случайные переменные, наблюдаемые с ошибками, как и x, имеет смысл вернуться к обозначениям 6-го раздела, где через x обозначался n-мерный вектор-строка всех переменных. Пусть ε — вектор их ошибок наблюдения, а x0 — вектор их истинных значений, то есть

x = x0 + ε, X = X0 + ε.

Предположения (8.5) записываются следующим образом:

E(ˆx0 , ε) = 0, E(ˆx0 , xˆ0) = M 0, E(ε , ε) = σ2Ω.

Теперь через M 0 обозначается матрица, которую в обозначениях, используемых в этом пункте выше, можно записать следующим образом:

σx20 m0

m0 M 0

а через σ2Ω матрица

σ2	ω
	.
ω	Ω

Поскольку речь идет о линейной регрессии, предполагается, что между истинными значениями переменных существует линейная зависимость:

x0α = 0.

<<< < Предыдущая 15 16 17 18 19 20 21 22 23 24 25 2627 / 7427 28 29 30 31 32 33 34 35 36 37 38 39 > Следующая >>>

Соседние файлы в предмете Политология