Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

econometrika / Оформление / Лабараторная работа № 4

.doc
Скачиваний:
13
Добавлен:
27.03.2016
Размер:
153.6 Кб
Скачать

Лабораторная работа № 4

Вариант № 3

Тема: Анализ статистической зависимости

Цели: Построение множественной регрессии

п.п.

Страна

Площадь, тыс.км кв.

К-во населения, млн. чел.

К-во мужчин на 100 женщин

% населения в возрасте от 0 до 14 лет

% населения в возрасте от 60 лети более

ВВП на душу населения дол. США

Природный прирост, чел./1000 жителей

x1

x2

x3

x4

х5

y

1

Канада

9976

30

98

20

16

20082

7

2

Китай

9596

1254

106

26

9

745

12

3

Респубшлика Корея

98

46

102

22

10

9677

9

4

Демократическая республика Конго

2345

49

98

48

4

52

32

5

Мексика

1973

95

98

32

7

4265

22

6

Молдова

34

4

92

25

13

428

2

7

Нигерия

924

121

98

45

4

13

31

8

Нидерланды

42

15

98

18

17

23270

0

9

Германия

357

82

96

16

21

25468

0

Значения экономических переменных определяются обычно влиянием не одного, а нескольких объясняющих факторов. В таком случае зависимость y=f(x) означает, что х - вектор, содержащий т компонентов: х = 1, х2, ... , хm). Задача оценки статистической взаимосвязи переменных у и х = 1, х2, ... , хm) формулируется аналогично случаю парной регрессии. Записывается функция у = f(,х)+, где  - вектор параметров,  - случайная ошибка. Предполагается, что эта функция связывает переменную у с вектором независимых переменных х для данных генеральной совокупности. Как и в случае парной регрессии, предполагается, что ошибки i являются случайными величинами с нулевым математическим ожиданием и постоянной дисперсией; i и j статистически независимы при ij. Кроме того, для проверки статистической значимости оценок  обычно предполагается, что ошибки i нормально распределены. По данным наблюдений выборки размерности n требуется оценить значения параметров , то есть провести параметризацию выбранной формулы (спецификации) зависимости.

Мы будем говорить о линейной зависимости у от х, то есть о множественной линейной регрессии. Теоретическое уравнение регрессии имеет вид:

у = 0+1х1 +2х2 + ... +mхm + .

Здесь  - вектор неизвестных параметров размерности + 1). Пусть имеется п наблюдений вектора х и зависимой переменной у. Для того, чтобы формально можно было решить задачу, то есть найти некоторый наилучший вектор параметров, должно быть п т+1. Если это условие не выполняется, то можно найти бесконечно много разных векторов коэффициентов, при которых линейная формула связывает между собой х и у для имеющихся наблюдений абсолютно точно. Если, в частном случае, п = т+1 (например, при двух объясняющих переменных в уравнении у = 0+1х1 +2х2 и трех наблюдениях), то оценки коэффициентов  рассчитываются един­ственным образом - путем решения системы линейных уравнений {yj=0+1х1j +2х2j+… +mхmj; j=1,2, ...,п - индекс наблюдения}. Так, через три точки-наблюдения в трехмерном пространстве можно про­вести единственную плоскость, определяемую параметрами 0, 1, 2. Если число наблюдений больше минимально необходимого, то есть п > т+1, то уже нельзя подобрать линейную формулу, в точности удовлетворяющую всем наблюдениям, и возникает необходимость оптимизации, то есть выбора наилучшей формулы-приближения для имеющихся наблюдений. Положительная разность (п-т-1) в этом случае называется числом степеней свободы. Если число степеней свободы мало, то статистическая надежность оцениваемой формулы невысока. Так, если проведена плоскость "в точности" через имеющиеся три точки наблюдений, любая четвертая точка-наблюдение из той же генеральной совокупности будет практически наверняка лежать вне этой плоскости, возможно - достаточно далеко от нее. Обычно при оценке множественной регрессии для обеспечения ста­тистической надежности требуется, чтобы число наблюдений, по крайней мере, в 3 раза превосходило число оцениваемых параметров.

Задача построения множественной линейной регрессии состоит в нахождении (m+1)-мерного вектора а, элементы которого есть оценки соответствующих элементов вектора . Критерии оценивания, как и в случае парной регрессии, могут быть различными; мы будем вновь использовать метод наименьших квадратов (МНК). Уравнение регрессии с оцененными параметрами имеет вид

у = a0+a1х1 +a2х2 + ... +amхm + e,

и критерием для нахождения вектора (а) является .

Оцененное уравнение должно описать как общий тренд (тенденцию) изменения зависимой переменной у, так и отклонения от этого тренда. Проблема здесь состоит не только в том, чтобы объяснить возможно большую долю колебаний переменной у, но и отделить влияние каждого из факторов, рассматриваемых как объясняющие переменные.

При выполнении предпосылок 1)-4) относительно ошибок еi (см.3.3) оценки параметров множественной линейной регрессии являются несмещенными, состоятельными и эффективными. Отклонение зависимой переменной у в j-м наблюдении от линии регрессии, еj, записывается следующим образом:

еj= уj - a0-a1хj1 -a2хj2 - ... -ajmхm

Обозначим сумму квадратов этих величин, которую нужно минимизировать в соответствии с методом наименьших квадратов, через Q:

Минимизируемая функция Q является квадратичной относительно неизвестных величин ai. Необходимым условием ее минимума является равенство нулю всех ее частных производных по ai. Частные производные квадратичной функции являются линейными функциями, и, приравнивая их всех к нулю, мы получим систему из (m+1) линейных уравнений с (т+1) неизвестными. Такая система имеет обычно единственное решение (за исключением особого случая, когда столбцы ее линейно зависимы и решения нет или их бесконечно много; однако данные реальных статистических наблюдений к такому особому случаю, вообще говоря, никогда не приводят). Данная система называется системой нормальных уравнений. Ее решение в явном виде удобнее всего выписать в векторно-матричной форме, иначе оно становится слишком громоздким. Векторно-матричная запись и вывод решения системы нормальных уравнений приведены в 4.1.2; при начальном ознакомлении с проблемой оно может быть опущено.

Для анализа статистической значимости полученных коэффициентов множественной линейной регрессии необходимо, как и в случае парной регрессии, оценить дисперсию и стандартные отклонения коэффициентов aj.

В случае парной регрессии

В общем случае (где Zjj - диагональный элемент

матрицы (XTX)-1 - см. 4.1.2). Соответственно, стандартное отклонение , и для проверки нулевой гипотезы для каждого из коэффициентов aj рассчитываются, как и в случае парной регрессии, t-статистики: , имеющие распределение Стьюдента с (п-т-1) степенями свободы.

Если (п-т-1), то есть число степеней свободы, достаточно велико (не менее 8 - 10), то при 5%-ном уровне значимости и двусторонней альтернативной гипотезе критическое значение t-статистики приблизительно равно двум. Здесь, как и в случае парной регрессии, можно приближенно считать оценку незначимой, если t-статистика по модулю меньше единицы, и весьма надежной, если модуль t-статистики больше трех. Другие критерии качества полученного уравнения регрессии будут рассмотрены ниже.

Расчет вектора коэффициентов множественной линейной регрессии

Пусть еi= уi - a0-a1хi1 -a2хi2 - ... -aimхm , где ; i- индекс наблюде­ния. Сумма квадратов отклонений еi может быть записана как про­изведение вектор-строки {еi}= еT на вектор-столбец {еi}= е T - вектор-столбец, транспо­нированный в строку). Вектор-столбец е, в свою очередь, может быть записан как е = у - Ха, где у - вектор-столбец наблюдений зависимой переменной, Х- матрица п (т+1), в которой каждая из п строк представляет наблюдение вектора значений независимых пе­ременных хi:

;

а - вектор-столбец (a1,a2,…,am).

О тсюда

Мы воспользовались здесь тем, что ; .

Все эти свойства легко проверить, расписав поэлементно все матрицы и выполнив с ними нужные действия.

Теперь нужно записать необходимые условия экстремума выражения Q. Оно состоит в равенстве нулю всех частных производных . Вектор - можно записать компактно как . Это можно показать следующим образом: пусть (XTX) = X/ – матрица (m+1) (m+1);

.

Отсюда легко видно, что , то есть .

Ясно также, что если обозначить вектор , то и

.

Поскольку , и (так как - константа), , откуда

Здесь - матрица, обратная к (), то есть такая, которая при умножении на матрицу () дает единичную матрицу. Таким образом, мы получили формулу расчета вектора коэффициентов регрессии в векторно-матричной записи.

Выполнение работы:

Данные – анализ данных – регрессия

Входной интервал у – указываем столбец у, входной интервал х – указываем по данным столбец х.

Ставим саичку – остатки, таим образом получаем регрессию данных.

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,989018754

R-квадрат

0,978158097

Нормированный R-квадрат

0,923553338

Стандартная ошибка

3,679942946

Наблюдения

8

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

5

1212,91604

242,583208

17,91342229

0,05371352

Остаток

2

27,08396018

13,54198009

Итого

7

1240

 

 

 

6.050103.4157ТЗ.ЛР4

Лист

Изм

Лист

№ докум

Подпись

Дата