Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Эконометрика (лабораторные)

.pdf
Скачиваний:
177
Добавлен:
01.03.2016
Размер:
1.96 Mб
Скачать
ДАННЫЕ Анализ

Далее введите формулы согласно таблице:

Ячейка

Формула

J37

= C28+C29*F37+C30*H37

J39

= C29*F39+C30*H39

J41

= C29*F41+C30*H41

Итак, по первому варианту, прогнозируемое накопление составит 5,591544 усл. ед., по второму – накопление возрастет на величину 0,86004 усл.ед., по третьему варианту – накопление возрастет на 0,378644 усл. ед.

Внимание! Сводную таблицу основных статистических характеристик можно получить с помощью инструмента Описательная статистика из пакета Анализ данных. Для его использования, позиционируясь в ячейке А43, выполните команды меню данныхОписательная статистика ОК. Заполните поля в диалоговом окне следующим образом:

Нажмите ОК.

91

ДАННЫЕ Анализ

С помощью инструмента Корреляция можно получить матрицу парных коэффициентов корреляции. Для этого, позиционируясь в ячейке Н43, выполните действия:

данных Корреляция ОК. В качестве Входного интервала укажите А2:С13, поставьте галочку в поле Метки в первой строке, в качестве

Выходного интервала укажите ячейку Н43.

Вычисление параметров линейного уравнения множественной регрессии аналогично случаю парной регрессии и возможно с помощью инструмента Регрессия из пакета Анализ данных. Находясь в ячейке Н48,

выполните действия: ДАННЫЕ Анализ данных Регрессия ОК.

Заполните необходимые поля (надеемся, вы самостоятельно справитесь с этой задачей). Оцените возможности данного инструмента Excel.

Замечание. Осуществить прогнозирование при линейной множественной регрессии можно также с помощью функции ТЕНДЕНЦИЯ.

Вопросы для самопроверки

1.Каков содержательный смысл параметров множественной линейной регрессии 1 , 2 , , p ?

2.Что показывают коэффициенты множественной корреляции и детерминации?

3.Какие гипотезы проверяются с помощью критерия Фишера?

4.Каким образом производится оценка параметров в уравнении множественной линейной регрессии?

5.Почему при рассмотрении множественной линейной регрессии желательно пользоваться векторно–матричной записью?

6.Как определяется статистическая значимость коэффициентов регрессии?

7.Чем отличается скорректированный коэффициент детерминации от обычного?

8.Опишите «грубое» правило анализа статистической зависимости коэффициентов регрессии.

Лабораторная работа № 9

Тема: Нарушение предпосылок метода наименьших квадратов Оценки коэффициентов регрессии напрямую зависят от свойств

случайного члена в уравнении регрессии. Для получения качественных оценок и возможности применения стандартных методов для проверки

92

гипотез необходимо выполнение предпосылок МНК (условий Гаусса– Маркова). В связи с этим возникает ряд вопросов:

Каковы последствия нарушения допущений классической модели?

Каким образом можно обнаружить, что допущения нарушены?

Что можно предпринять, чтобы устранить нарушение допущений?

Что будет, если допущения нарушены, но этот факт проигнорирован исследователем?

На последний вопрос ответ состоит в том, что все результаты моделирования в этом случае потеряют свою легитимность. Это означает, что неверными окажутся оценки коэффициентов регрессии, стандартных ошибок; реальные формы распределений оценок не будут соответствовать теоретическим, – тем, на которых базируются статистические тесты.

Рассмотрим нарушения каждого из предпосылок Гаусса–Маркова в отдельности.

9.1. Последствия нарушения допущения М( i) = 0

Если регрессионное уравнение имеет вид

yi = 0 + 1xi + i,

то предпосылка М( i) = 0 никогда не нарушается.

Если же в уравнении регрессии отсутствует свободный член 0, то допущение М( i) может быть нарушено.

Таким образом, чтобы избежать подобных проблем, следует включить в модель свободный член 0.

9.2. Гетероскедастичность

Одной из ключевых предпосылок МНК является условие постоянства дисперсий случайных отклонений. Для линейной парной регрессии оно означает, что D( i) = D( j) = 2 для любых наблюдений i и j, а для линейной множественной модели – ковариационная матрица вектора ошибок имеет вид:

ε 2 Εn

Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсий отклонений), а нарушение – гетероскедастичностью.

При гетероскедастичности последствия применения МНК будут следующими:

93

оценки коэффициентов по–прежнему останутся несмещенными и линейными;

оценки коэффициентов не будут эффективными (даже асимптотически эффективными);дисперсии оценок будут рассчитываться со смещением;

дисперсии и стандартные ошибки коэффициентов, связанные с дисперсией оценок, также будут смещенными;

все выводы, получаемые на основе соответствующих t– и F– статистик, а также интервальные оценки будут ненадежными.

Не существует какого–либо однозначного метода определения гетероскедастичности. Однако для такой проверки разработано довольно большое число тестов и критериев, среди которых наиболее популярными и наглядными являются: графический метод остатков, тест Уайта, тест ранговой корреляции Спирмена, тест Парка, тест Глейзера, тест Голдфелда–Квандта и др. Во всех этих тестах проверяется нулевая гипотеза H0 : 12 22 n2 (наличие гомоскедастичности) против

альтернативной H1 : не Н0 .

Графический метод остатков.

Наличие гетероскедастичности в случае парной регрессии можно проследить из графика зависимости остатков еi (или еi2) ( i 1,n ) от значений хi объясняющей переменной Х.

При множественной регрессии графический анализ возможен для каждой из объясняющих переменных Хj ( j 1,p ) отдельно. Чаще всего вместо объясняющих переменных Хj по оси абсцисс откладывают значения yˆi (i=1,2,…,n), полученные из эмпирического уравнения

регрессии yˆi = b0 +b1 x1 + + bp xp.

Тест ранговой корреляции Спирмена.

При использовании данного теста предполагается, что дисперсия случайного отклонения будет либо увеличиваться, либо уменьшаться с увеличением значений Х. Поэтому для регрессии, построенной по МНК, значения хi случайной величины Х и ei будут коррелированы. Значения хi

и еi ранжируются (упорядочиваются по величинам), и находится разность di между рангами значений переменной хi и ei (ранг – это порядковый

номер значений переменной в ранжированном ряду). Затем определяется коэффициент ранговой корреляции:

94

r 1

6 di2

 

, ,

n n2

1

xe

 

 

 

 

 

где n – число наблюдений.

Высказывается нулевая гипотеза о том, что коэффициент корреляции

xe для генеральной

совокупности равен нулю (H0: xe =0)

против

альтернативной (H1:

xe 0). При

xe =0 коэффициент

ранговой

корреляции имеет нормальное распределение с нулевым математическим

ожиданием и дисперсией 1/(n-1)

в больших выборках, а соответствующая

 

 

 

 

 

 

 

 

тестовая статистика t

rxe n

2

 

имеет распределение Стьюдента с числом

 

 

 

 

 

 

1 r 2

 

степеней свободы n – 2.

 

Если tнабл > tкр = t /2, n-2, то гипотеза Н0 отклоняется, а следовательно, и об отсутствии гетероскедастичности. В противном случае гипотеза об

отсутствии гетероскедастичности принимается.

В модели регрессии, содержащей несколько факторов, проверка гипотезы об отсутствии гетероскедастичности проводится с помощью статистики t для каждого из них отдельно.

Задача 9.1. По данным задачи 2.1 лабораторной работы №2 проверить гипотезу о наличии гетероскедастичности с помощью теста ранговой корреляции Спирмена при доверительной вероятности р = 0,99

и n = 8.

Решение.

Откроем новый файл и сохраним его под именем файл «лаб9». В ячейке В1 жирным шрифтом введем заголовок «Тест ранговой корреляции Спирмена». Затем откроем файл «лаб2», «Лист 1». Скопируем из него ячейки В2:С11 в буфер, перейдем в «лаб9» и вставим фрагмент из буфера в тот же диапазон. Снова перейдем в «лаб2», скопируем ячейки G2:G11. Перейдем в файл «лаб9», выделив ячейку D2, щелкнем правой кнопкой мыши. В ниспадающем меню выберем пункт Специальная вставка, в появившемся меню отметим флажком строку Значения, нажмем ОК. Описанная выше процедура позволяет скопировать только необходимые значения, в противном случае будут копироваться сами формулы, находящиеся в этих ячейках.

Для заполнения таблицы сначала введем названия столбцов. В ячейках E2, F2, G2, H2, I2, J2 введем соответственно ei yi yˆi , ei , d1 ,

95

d2 , d d1 d2 , d 2 . В ячейке Е3 введем формулу «=С3–D3», а в ячейке F3 – формулу «=ABS(E3)». Формулы диапазона E3:F3 продлите на диапазон ячеек E3:F10. Далее в столбцах с названиями d1 , d2 требуется ранжировать по убыванию элементы столбцов x и ei соответственно. Для этого

напротив большего числа надо поставить 1, следующего – 2, наименьшего

– 8. (Предоставляем вам сделать это самим!). После заполнения ячеек

G3:H10 следует заполнить ячейки I3:I10 как разность значений в двух предыдущих столбцах, а в ячейках J3:J10 найти квадраты этих чисел. В ячейке I11 напишем комментарий «Сумма», а в ячейке J11 найдем сумму значений, находящихся в ячейках J3:J10.

Получим следующие результаты:

Далее введем формулы-комментарии, как показано на рисунке:

В ячейках введем формулы: в ячейке N4 «=1–6*J11/8/(8*8–1)», в ячейке N7 «=(1–0,99)/2», в ячейке N13 «=N4*КОРЕНЬ(8–2)/КОРЕНЬ(1– N4*N4)». Для нахождения критического значения в ячейке N10 воспользуемся уже известной функцией СТЬЮДРАСПОБР, взяв в

96

качестве ее аргументов вероятность 0,01

и число степеней

 

свободы

8 2 6 . Получим, что tкр=3,707428 и tнабл

–1,41421. Так как

 

tнабл

 

tкр,

 

 

то мы признаем гипотезу об отсутствии гетероскедастичности на уровне

значимости 0,01. Соответствующий

комментарий «

 

tнабл

 

tкр, то

 

 

гипотезу об отсутствии гетероскедастичности принимаем» внесем в строке 17 под вычислениями.

Тест ГолдфелдаКвандта.

Данный тест используется для проверки следующего типа гетеро–

скедастичности: когда среднее квадратическое отклонение i

( i)

i

 

пропорционально значению хi в этом наблюдении признака-фактора Х, т.е.i2 2 xi2 (i 1,n) . При этом делается предположение, что случайная составляющая i имеет нормальное распределение и отсутствует авто– корреляция остатков.

Алгоритм-тест состоит в следующем:

1. Все n наблюдений в выборке упорядочиваются по значению хi (в порядке предполагаемого возрастания дисперсий случайных ошибок).

2. Вся упорядоченная выборка после этого разбивается на три подвыборки размерностей k, (n-2k), k соответственно. Отбрасывают центральные наблюдения для более надежного разделения групп с малыми и большими дисперсиями случайных ошибок.

3.

Оцениваются отдельные регрессии для первой и третьей

подвыборок:

i

 

,

 

i

 

.

 

 

 

 

 

 

yˆ1i b01 b11 xi

1,k

yˆ3i b03 b13 xi

n k 1,n

4.

Рассчитываются

суммы

квадратов отклонений фактических

значений признака-результата от его расчетных значений для обеих регрессий:

n

 

 

n

 

S1 ( yi

yˆ1i )2 ,

S3

( yi

yˆ3i )2 .

i 1

 

 

i n k 1

 

Если предположение о пропорциональности дисперсий отклонений значениям Х верно, то дисперсия регрессии по первой подвыборке (сумма квадратов отклонений S1), будет существенно меньше дисперсии регрессии по третьей подвыборке (суммы квадратов отклонений S3).

5. Рассматривается гипотеза об отсутствии гетероскедастичности:

97

Н0: D( i) = 2,

 

 

 

 

 

 

Н1: D( i) 2, i

 

.

i 1, n против альтернативной

1, n

Для проверки гипотезы Н0 строится статистика F:

 

 

F

S3 /(k p 1)

 

S3

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S1 /(k p 1)

S1

 

 

 

где (kp–1) – число степеней свободы соответствующих выборочных дисперсий, р – количество объясняющих переменных в уравнении регрессии.

При сделанных предположениях относительно случайных отклонений F–статистика имеет распределение Фишера с числами степеней свободы

1 = 2 = kp –1.

6.

Если Fнабл>Fкр= F ;

;

, то гипотеза Н0 об отсутствии

 

1

 

2

гетероскедастичности отклоняется, т.е. гетероскедастичность имеет место.

Замечание 1. Для парной регрессии авторы теста предлагают следующие пропорции: n = 30, k = 11; n = 60, k = 22.

Замечание 2. Для множественной регрессии данный тест обычно проводится для той объясняющей переменной, которая в наибольшей степени связана с i. При этом k должно быть больше, чем (р+1). Если нет уверенности относительно выбора переменной Xj, то тест может

осуществляться для каждой из объясняющих переменных.

Замечание3. Данный тест может быть использован при предположении об обратной пропорциональности между i и значениями объясняющей переменной. При этом статистика Фишера примет вид:

F=S1/S3.

Задача 9.2. По данным задачи 2.1 лабораторной работы №2 проверить

гипотезу об отсутствии

гетероскедастичности

с

помощью теста

Голдфелда–Квандта при доверительной вероятности

 

=0, 99 и n = 8.

Решение.

В файле «лаб9» на «Листе 1» скопируем в буфер ячейки В2:С10, перейдем на «Лист2» того же файла и вставим ячейки в тот же диапазон. В ячейке В1 жирным шрифтом введем заголовок «Тест Голдфелда–Квандта».

Наши данные будут разбиты на 3 подвыборки: 1–3, 4–5, 6–8. Для первой и третьей подвыборок мы должны построить уравнения регрессии. Для этого воспользуемся функцией ЛИНЕЙН. Находясь в ячейке В12, вызовите функцию ЛИНЕЙН и заполните поля следующим образом: в

98

качестве известных значений у используйте диапазон С3:С5, известных значений x – диапазон В3:В5, константа – 1, статистика – 1. Далее выведем значения этой функции в диапазон В12:С16.

Аналогично, в диапазон F12:G16 выведите коэффициенты регрессии, полученные с помощью функции ЛИНЕЙН для третьей подвыборки. Далее выведите комментарии и шаблоны для вывода уравнений регрессии, как показано на рисунке:

В ячейки В19, С19, G19, H19 выведите нужные коэффициенты регрессии. Далее в ячейке D2 введем заголовок yˆ , в ячейку Е2 ei yi yˆi ,

ав ячейку F2 заголовок ei 2 . В ячейку D3 введем формулу

«=$B$19+$D$19*B3» и продлим на диапазон D3:D5. Аналогично в ячейку D8 введем формулу «=$G$19+$I$19*B8» и продлим на диапазон D8:D10.

В ячейку Е3 введем формулу «=С3–D3» и скопируем ее в ячейки Е4, Е5, Е8, Е9, Е10. В ячейку F3 введем формулу «=Е3*Е3» и скопируем ее в ячейки F4, F5, F8, F9, F10. В ячейках G4 и G9 введем соответственно S1 и S2 , в ячейке Н4 найдем сумму элементов из диапазона F3:F5, а в ячейке Н9 – сумму элементов из диапазона F8:F10. Сравните найденные значения со значениями, полученными нами в ячейках С16 и G16. Как видно, гораздо проще находить данные суммы с помощью функции ЛИНЕЙН, чем мы воспользуемся в будущем.

В результате получим:

99

В ячейках J3 и J8 введем комментарии F

 

S3

 

и F =. Для

 

набл

 

S1

 

кр

 

 

 

 

нахождения соответствующих значений в ячейке L4 введем формулу «=Н9/Н4», а в ячейке К9 найдем критическое значение, воспользовавшись функцией F.ОБР при =0,01(p=0,99) и 1 =1 ( k p 1 3 1 1 1), 3 =1

( k p 1 3 1 1 1). Так как 9=Fнабл Fкр =4052,185, то гипотеза H 0 об отсутствии гетероскедастичности принимается, т.е. гетероскедастичность отсутствует, о чем можно записать соответствующий комментарий в ячейку G10.

Если наблюдается гетероскедастичность, то МНК–оценки будут, как было указано выше, неэффективными, несмотря на их несмещенность.

Метод взвешенных наименьших квадратов.

Метод применяется при известных для каждого наблюдения значениях i2 . Его суть заключается в уменьшении вклада данных

наблюдений, имеющих большую дисперсию в результате расчета. Для этого каждое наблюдаемое значение делится на соответствующее ему значение дисперсии.

Для простоты изложения опишем ВНК на примере парной линейной регрессии yi= 0+ 1xi + i, где случайные члены гетероскедастичны, т.е.

М( i) = 0, D( i) = σ i2 ( i 1,n ).

Разделив правую и левую части уравнения на известное значение i,

100