Скачиваний:
111
Добавлен:
20.04.2015
Размер:
419.45 Кб
Скачать

Материалы по курсу эконометрика-1. Подготовил Выдумкин Платон

Тема 5. Нарушения предпосылок теоремы Гаусса-Маркова о структуре ковариационной матрицы случайной ошибки в модели регрессии.

Их последствия и способы их устранения.

Обобщенный метод наименьших квадратов GLS и доступный обобщенный метод

наименьших квадратов FGLS...........................................................................................

1

Гетероскедастичность. ..................................................................................................................

4

Определение гетероскедастичности. Причины ее возникновения. Последствия. ..

4

Выявление гетероскедастичности................................................................................

5

Тесты для проверки гетероскедастичности произвольной формы.......................

6

Тесты для проверки гетероскедастичности по конкретной переменной.............

9

Устранение последствий гетероскедастичности. .....................................................

11

GLS в случае гетероскедастичности – метод взвешенных наименьших

квадратов (weighted least square) WLS...............................................................................

11

FGLS при гетероскедастичности............................................................................

13

Устойчивая к гетероскедастичности оценка ковариационной матрицы МНК

оценок White 1980. ..............................................................................................................

15

Список рекомендуемой литературы по GLS и по гетероскедастичности. ............................

16

Обобщенный метод наименьших квадратов GLS и доступный

обобщенный метод наименьших квадратов FGLS.

Согласно теореме Гаусса-Маркова оценка β = (X T X )1 X TY будет линейной, несмещенной и эффективной оценкой параметра β для модели Y = X β +ε , в случае если

(1) матрица X состоит из неслучайных чисел (2) rang (X )= k (3) E (ε)= 0

(4) cov(ε)= Inσ2. В предыдущей главе мы рассматривали ситуацию, когда не

выполняется условие (2). В этой главе мы выясним, каковы будут последствия не выполнения условия (4). Мы начнем с теоретического анализа, а потом разберемся, в каких случаях это условие чаще всего нарушается на практике и как можно проверить его выполнение.

Пусть cov(ε)= Σn×n , где Σn×n - это произвольная ковариационная матрица. В этом случае МНК оценка β = (X T X )1 X TY по-прежнему останется линейной и несмещенной. Однако, мы сталкиваемся с двумя проблемами.

Во-первых, МНК оценки теряют свойство эффективности, так как его доказательство основывалось на том, что cov(ε)= Inσ2 и соответственно cov(β)=(X T X )σ2 .

Во-вторых, формула вычисления ковариационной матрицы β : cov(β)= (X T X )σ2 -

теряет смысл, так как она выводилась, используя предположение о том, что cov(ε) = Inσ 2 . В новых условиях просто не понятно, что такое σ2 , ведь дисперсия у

всех ошибок может быть разная. Поэтому, неверными становятся используемые нами для проверки гипотез t и F статистики, потому что при их вычислении используются оценки элементов ковариационной матрицы.

В теореме 3.1 (в 3 части нашего пособия) было показано, что с помощью линейного преобразования можно из вектора с произвольной ковариационной матрицей получить вектор с единичной ковариационной матрицей. Поэтому с точки зрения теории решение очевидно: нужно применить это линейное преобразование, и в результате мы получим

1

Материалы по курсу эконометрика-1. Подготовил Выдумкин Платон

модель с новыми переменными, которая будет удовлетворять всем условиям теоремы Гаусса-Маркова. В этом и заключается идея обобщенного метода наименьших квадратов или по-английски Generalized Least Squares, в дальнейшем будем его кратко называть

GLS.

Рассмотрим, как работает GLS, более подробно. В теореме 3.1 мы использовали следующие разложение ковариационной матрицы:

(5.01) Σu =CΛCT =CΛ0.5 (Λ0.5 )T CT = C Λ0.5 (C Λ0.5 )T = F FT

где C - это матрица собственных векторов Σu , Λ- диагональная матрица из собственных чисел матрицы Σu . Используя это разложение, мы показывали, что, если cov(u)u и w = F 1u , то cov(w)= I .

Обозначим буквой Ψn×n матрицу, которая позволяет от произвольного вектора

перейти к вектору

с единичной ковариационной матрицей. Для

того чтобы Ψn×n

действительно была такой матрицей должно выполняться условие

 

(5.02)

Σ1 = ΨT Ψ

 

В теореме 3.1 она вычисляется по формуле Ψ = F 1 , но это не единственный способ. Как

мы узнаем дальше,

в некоторых приложениях в качестве Ψn×n

удобнее брать не

симметричную, а треугольную матрицу. Важно, что если ковариационная матрица не вырождена (то есть rang (Σ)= n ), то матрица Ψn×n существует и есть алгоритмы, которые

позволяют ее найти.

Алгоритм нахождения GLS оценок. Пусть наши данные удовлетворяют модели

Y = X β +ε , для которой выполняются все предпосылки т.

Гаусса-Маркова, кроме

cov(ε)= Inσ2 , вместо этого cov(ε)n×n . Найдем матрицу Ψn×n

такую, что Σ1 = Ψ ΨT .

Преобразуем наши данные по формулам:

 

(5.03)

Y = Ψ Y X = Ψ X

 

это преобразование эквивалентно умножению исходной модели на Ψn×n

(5.04)

Ψ Y = Ψ X β ε Y = X β +u

по построению Ψn×n

cov(u)= Ψ cov(ε) ΨT = Ψ Σ ΨT = Ψ (ΨT Ψ)1 ΨT = I

E (u)= Ψ E (ε)=0 . Для преобразованной модели (5.04) выполняются все предпосылки

т. Гаусса-Маркова. Поэтому мы можем найти линейные, несмещенные и эффективные оценки по стандартной формуле МНК оценок

βGLS = (X T X )1 X T Y = ((ΨX )T ΨX )1 (ΨX )T ΨY = (X T ΨT ΨX )1 X T ΨT ΨY = (X T Σ1 X )1 X T Σ1Y

(5.05)

βGLS =(X T Σ1 X )1 X T Σ1Y

Для ковариационной матрицы βGLS также будет справедлива стандартная формула

ковариационной матрицы МНК оценок

cov (βGLS )= (X T X )1 = ((ΨX )T ΨX )1 = (X T ΨT ΨX )1 = (X T Σ1 X )1 ,

(5.06)

cov (βGLS )= (X T Σ1 X )1

При выводе (5.06) мы воспользовались тем, что cov(u)= I , а не I σ2 , поэтому в отличие

от обычной формулы МНК оценок σ2 тут отсутствует. В практических приложениях будут возникать ситуации, когда ковариационная матрица известна с точностью до константы. А именно:

2

Материалы по курсу эконометрика-1. Подготовил Выдумкин Платон

 

 

(5.07)

 

 

 

 

 

 

Σn×n = Ωn×n σ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где Ωn×n -известна,

 

а

σ2

 

нужно

 

оценить. Рассмотрим, как в этом случае изменятся

формулы

 

(5.05)

 

и

(5.06),

 

для

 

этого

 

просто

подставим

 

в

них (5.07).

βGLS

=(X T Σ1 X )1 X T Σ1Y =(X T (Ωσ2 )1 X )1

X T (Ωσ2 )1 Y =

 

 

 

 

 

 

 

 

 

 

T

 

1

 

1 1

T

 

1

1

=(X

T

 

1

X )

1

 

2

 

T

 

1

 

1

 

=(X

T

 

1

X )

1

 

T

 

1

= X

 

Ω

 

X

 

 

X

 

Ω

Y

 

 

 

Ω

 

 

σ

 

X

 

Ω

Y

 

 

 

 

 

Ω

 

 

X

 

Ω

Y

 

 

σ

2

 

σ

2

 

 

 

 

 

σ

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(5.08)

 

 

 

 

 

 

βGLS =(X T Ω1 X )1 X T Ω1Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Аналогично получаем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(5.09)

 

 

 

 

 

 

cov (βGLS )= (X T Ω1 X )1 σ2

 

 

 

 

 

 

 

 

 

 

 

 

 

Вместо σ2 нужно будет использовать ее несмещенную оценку, которая будет вычисляться по стандартной формуле σ2 = nRSSk , где RSS берется из модели (5.04).

Преимущества GLS. Этот метод дает линейные, несмещенные, эффективные и состоятельные оценки. (Состоятельность в теореме Гаусса-Маркова не упоминается, но она тоже будет присутствовать).

Недостатки GLS. «Although it is easy to write down the GLS estimator, it is not always easy to compute it» (R. Davidson and J.G. MacKinnon p.255). Во-первых, ковариационную

матрицу Σn×n нужно где-то хранить, так как она симметричная в ней будет n (n 1)2

разных элементов, если n - составляет несколько тысяч наблюдений, то это уже немало. Кроме того, чтобы применить формулы (5.05) и (5.06), нужно будет считать обратную матрицу, что даже для современных компьютеров может быть проблематично. Во-вторых, откуда мы вообще можем знать матрицу Σn×n , в большинстве случаев у нас могут быть

только некоторые предположения о том, как она выглядит.

Поэтому, чтобы сделать GLS практически применимым, мы должны сделать следующее. Во-первых, нужно сформулировать конкретные предположения о структуре ковариационной матрицы ошибок Σn×n . Эта структура должна быть такой, чтобы матрица

зависела от небольшого числа параметров и легко вычислялись матрицы Σ1 и Ψ . В нашем курсе мы рассмотрим два примера: это ковариационная матрица при гетероскедастичности для данных типа cross-section и ковариационная матрица при автокорреляции для временных рядов. Во-вторых, нужно разработать алгоритм оценки параметров, от которых ковариационная матрица будет зависеть, согласно нашим предположениям.

Доступный обобщенный метод наименьших квадратов (Feasible Generalized Least Squares он же FGLS). Метод заключается в том, что в формулах (5.06) и (5.07) ковариационная матрица ошибок Σ заменяется на ее оценку.

Пусть мы предполагаем, что элементы матрицы Σ зависят от некоторых известных нам детерминированных переменных, то есть

(5.10)

Σij = fij (γ, Z )

где Z - это вектор переменных, от которых зависят элементы ковариационной матрицы (это могут быть либо объясняющие переменные из нашей модели, либо другие

переменные), γ - это вектор параметров. Функции fij (γ, Z )- должны удовлетворять ряду

ограничений, а именно ковариационная матрица должна быть положительно определена, и дисперсии должны быть не отрицательны. Уравнение (5.10) может быть оценено, в

результате мы получим вектор оценок γ и оценку ковариационной матрицы Σ(γ Z ). Тогда оценки FGLS будут вычисляться по формулам:

3

Материалы по курсу эконометрика-1. Подготовил Выдумкин Платон

(5.11) βFGLS = (X T Σ(γ Z )1 X )1 X T Σ(γ Z )1 Y

Примечание. Во многих приложениях мы можем оценить ковариационную матрицу только с точностью до константы, то есть получить оценку Ω, а не Σ (смотри

формулу 5.07). Для получения βFGLS в этом случае, нужно Ω(γ Z ) подставит в формулу

(5.08).

Свойства оценок FGLS. Главное преимущество FGLS указано в его названии –

доступность. Что касается остальных свойств, тут дело обстоит хуже. Посмотрев на

формулу (5.11), мы видим, что βFGLS линейна по Y , но не линейна по другой случайной

величине

γ .

Поэтому

надеяться на то, что мы сможем вычислить

E (βFGLS ) или

cov(βFGLS )

и

потом

показать несмещенность или эффективность

не приходится.

Единственное, что при некоторых предположениях можно сделать – это показать, что p lim(βFGLS )= β , то есть оценка состоятельна. Она также асимптотически (при большой

выборке) эквивалентна βGLS и асимптотически более эффективна чем βOLS . R. Davidson

and J.G. MacKinnon оценивают целесообразность использования этого метода следующим образом: «Whether or not feasible GLS is a desirable estimation method in practice depends on

how good an estimate of Σ can be obtained. If Σ(γ Z ) is a very good estimate, then feasible GLS will have essentially the same properties as GLS itself, and inferences based on the GLS covariance matrix (5.09), with Σ(γ Z ) replacing Σ , should be reasonably reliable, even though they will not be exact in finite samples» (R. Davidson and J.G. MacKinnon p.264).

Гетероскедастичность.

Определение гетероскедастичности. Причины ее возникновения. Последствия.

В модели регрессии имеет место гетероскедастичность, если вопреки

предпосылкам теоремы Гаусса-Маркова дисперсия случайной ошибки различна для

разных наблюдений, то есть i, j

D (εi )D (εj

).

Обозначим D(εi )=σi2 , тогда

ковариационная матрица ε

Σn×n

для модели Y = X β +ε

с гетероскедастичностью будет

иметь вид:

 

 

 

 

 

 

 

 

 

σ12

0

 

 

 

(5.12)

 

 

 

 

 

 

 

Σ =

 

 

 

 

 

 

 

 

 

0

2

 

 

 

 

 

 

σn

 

 

 

Отличие от классического случая, где ков. матрица была Inσ2 , состоит в том, что

диагональные элементы стали разными.

Причины возникновения гетероскедастичности могут отличаться в зависимости от типа данных.

В данных типа cross section1 и в панельных данных2 гетероскедастичность возникает в силу того, что объекты обладают разными характеристиками, и поэтому дисперсия ошибок для них будет разная.

1 Cross section данные – данные, представляющие собой набор характеристик разных объектов, собранных в одно время.

2Панельные данные – cross section данные за несколько временных периодов

4