Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Эконометрика. Учебное пособие

.pdf
Скачиваний:
136
Добавлен:
18.03.2016
Размер:
1.49 Mб
Скачать

Рис. 4.1. Трехмерная корреляционная диаграмма

Из этого примера видно, что визуальный анализ даже в случае двух факторных переменных становится очень сложным. В случае большего числа переменных он практически неосуществим.

4.1. Оценка коэффициентов регрессии по МНК для двух независимых переменных

Рассмотрим случай, когда имеются две независимые переменные x(1) и

x(2) (два регрессора), и будем рассматривать линейную регрессионную модель вида:

y 0 1 x(1) 2 x(2) ,

для которой попытаемся построить уравнение регрессии:

yb0 b1 x(1) b2 x(2) e.

Вэтом случае для каждого наблюдения должны быть известны значения

каждого регрессора x(1) , x(2) и значения зависимой переменной y. Следовательно, множество значений регрессоров будет представлять матрицу с двумя столбцами и n строками, при этом нижний индекс изменяеться от 1 до n и определять номер измерения, а верхний индекс принимает два значения 1 или 2, в зависимости от номера регрессора. В этом случае матрица значений будет иметь вид

51

x1(1)

x1(2)

 

x(1)

x(2)

 

2

2

 

X

 

.

x(1)

x(2)

n

n

Аналогичным образом значения переменной y будут задаваться векто- ром-столбцом

y1

y2

Y

.

yn

Обозначим через yi* прогнозируемое значение по уравнению регрессии

yi* b0 b1xi(1) b2xi(2) , i 1,n,

а остаток в i-м наблюдении будет:

ei yi yi* yi b0 b1xi(1) b2xi(2) , i 1,n.

Как и для случая парной регрессии будем минимизировать сумму квадратов остатков:

n

Se12 e22 ... en2 ei2. i 1

Необходимым условием первого порядка для минимума есть равенство нулю всех частных производных по всем параметрам

 

 

 

 

 

 

 

S

0,

S

0,

S

0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b0

 

b1

 

b2

 

 

Данные условия имеют следующий вид:

 

 

 

 

 

S

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

2 (yi (b0 b1 xi(1) b2 xi(2) )) 0,

 

 

 

b0

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

2 xi1

(yi

(b0

b1 xi(1)

b2

xi(2) )) 0,

 

 

 

 

 

b1

i 1

 

 

 

 

 

 

 

 

 

 

 

 

S

 

n

 

 

 

 

 

 

 

 

 

 

 

 

2 xi2

(yi

(b0

b1 xi(1)

b2

xi(2) )) 0.

 

 

 

 

b2

i 1

 

 

 

 

 

 

 

 

 

 

52

Эти уравнения также называются нормальными уравнениями для коэффициентов регрессии и, в данном случае, имеется три уравнения с тремя неизвестными значениями b0 , b1 и b2 .

Применяя обозначения для средних значений, подобные парной регрессии, из первого уравнение можно легко выразить значение величины b0 через

b1 и b2 , тогда

b0 y b1 x(1) b2 x(2) .

Используя это выражение и два других уравнения, путем преобразований можно получить следующее выражение для других элементов регрессии:

b

Cov(x(1),y)D(x(2)) Cov(x(2),y)Cov(x(1)

,x(2))

 

 

 

,

 

D(x(1) )D(x(2)) Cov(x(1),x(2)) 2

 

1

 

 

 

b

 

Cov(x(2),y)D(x(1) ) Cov(x(1), y)Cov(x(1)

,x(2))

 

 

 

.

 

D(x(1) )D(x(2) ) Cov(x(1),x(2) ) 2

 

2

 

 

 

4.2. Оценка коэффициентов по МНК для множественной регрессии Модель множественной линейной регрессии это линейная модель за-

висимости между переменными, содержащая более двух независимых переменных (регрессоров):

y 0 1x(1) 2x(2) ... k x(k) .

Парная регрессии, а также случай двух независимых переменных являются частным случаем множественной регрессии, а следовательно, все результаты, которые будут получены нами далее распространятся и на эти частные случаи.

В модели множественной регрессии за изменение зависимой переменной регрессии y отвечают некоторые экономические факторы – объясняющие пере-

менные (регрессоры) x(1) , x(2), …,x(k) . Параметры множественной регрессии1, 2,..., k показывают степень влияния на зависимую переменную экономи-

ческих факторов, обозначенных соответствующими регрессорами. Как и в случае парной линейной регрессии, основная задача заключается в оценке неизвестных значений, то есть получении b0,b1,b2,...,bk , при этом эмпирическое уравнение регрессии будет иметь вид:

y * b0 b1x(1) b2x(2) ... bk x(k) .

В общем случае, если имеется k различных регрессоров, то матрица наблюдений будет иметь вид:

53

x1(1)

x1(2)

x(1)

x(2)

X

2

2

 

 

 

x(1)

x(2)

 

n

n

x1(k) x2(k)

xn(k)

,

где x( j)

 

 

 

 

 

 

– значение j-го регрессора в i-м испытании, i 1,n,

j 1,k .

i

 

 

 

 

 

 

Множество полученных значений зависимой переменной также как и для случая двух независимых переменных можно записать в виде вектора-столбца.

Оценим уравнение для данного множества наблюдений по методу наименьших квадратов. Это означает минимизацию суммы квадратов остатков, которые в данном случае имеют вид:

ei yi yi* yi b0 b1xi(1) b2xi(2) ... bk xi(k) .

Данное выражение в векторном виде будет:

e

 

 

y

 

b

 

x(1)

x(2)

 

1

 

 

1

 

 

0

 

 

1

1

e

y

 

b

x(1)

x(2)

 

2

 

 

2

 

0

 

2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

e

 

y

 

 

b

 

x(1)

x(2)

 

n

 

 

 

n

 

 

0

 

 

n

n

x1(k) x2(k)

xn(k)

 

b1

 

 

b

 

 

2

.

 

 

 

 

 

 

 

bk

 

Если добавить в матрице X столбец, состоящий из единиц, тем самым,

расширив её до размера n k 1

1

x1(1)

 

1

x(1)

X

 

2

 

 

 

 

1

x(1)

 

 

n

x1(k) x2(k)

xn(k)

,

то значения остатков в векторном виде будут иметь вид:

e

 

y

 

1

x(1)

 

1

 

1

 

 

 

1

e

 

y

 

 

1

x(1)

 

2

 

 

2

 

 

 

2

 

 

 

 

 

 

 

 

 

e

 

y

n

 

 

1

x(1)

 

n

 

 

 

 

 

n

x1(k) x2(k)

xn(k)

b1 .

bkb

Последнее выражение можно записать в матричном виде:

e Y X b,

Сумма квадратов отклонений может быть записана в матричном виде, как

произведение вектора строки eT на вектор столбец e

S eT e y X b T y X b .

54

Используя известные правила матричных операций, преобразуем значения суммы

S y X b T y X b yT bT X y X b

yT y bT XT y yT X b bT XT X byT y 2 bT XT y bT XT X b.

Здесь воспользовались соотношениями

X b T bT X , y X b T yT X b T , bT XT y yT X b.

Теперь, чтобы минимизировать сумму квадратов отклонений, необходимо найти все частные производные и приравнять их нулю, то есть решить систему уравнений

 

 

 

 

 

 

S

0,

S

0,

S

0,...,

S

0.

 

 

 

 

 

 

b0

 

 

 

bk

 

 

 

 

 

 

 

 

b1

b2

 

В векторной форме система будет иметь вид

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S 0,

 

 

 

S

 

S

 

 

S

 

 

S

 

 

 

 

 

где S

,

,

 

,...,

- градиент функции S.

 

 

b2

 

 

b0

b1

 

bk

 

 

 

 

Из этих уравнений можно легко найти свободный член:

b0 y b1x(1) b2x(2) ... bk x(k) .

Найдем вектор коэффициентов b. Очевидно, что:

S yT y 2 bT XT y bT XT X b

yT y 2 . bT XT y bT XT X b .

Далее, вводя для удобства обозначения XT y p и XT X H , полу-

чаем

yT y 0,

n

 

n

bT p bj pj bj pj p XT y,

j 0

 

j 0

bT H b 2H b.

Следовательно,

S 2 XT y 2 XT X b.

Таким образом, уравнение S 0 равносильно уравнению

XT y XT X b.

Откуда

55

b XT X 1 XT y.

Здесь XT X 1 – матрица, обратная к матрице XT X .

Пример 11. В таблице Ошибка! Источник ссылки не найден.4.1 приведены макроэкономические показатели некоторых регионов РФ за 2013г. Необходимо построить уравнение линейной регрессии валового регионального продукта на остальные показатели.

Таблица 4.1

 

км.тыс,тории

-на ьЧисленност -ян 1 населения .тыс ,.г2013варя человек

-заЧисленность -экономи внятых человек .тыс ,ке

душевыеСредне доходыденежные .руб ),месяц в(

тельскиеПотреби душу нарасходы -ме в(населения .руб ),сяц

-региоВаловой ,продукт ныйналь .руб .млн

 

Площадь-терри 2

Обозначение

Площадь,

ЧислНас,

ЧислЗан,

Доходы,

Расходы,

ВРП, Y

 

X1

X2

X3

X4

X5

 

Белгородская об-

 

 

 

 

 

 

ласть

27,1

1541

700,1

21562,9

14149

511663

Брянская область

34,9

1253,6

559,6

17421,6

13193,7

179920,9

Владимирская об-

 

 

 

 

 

 

ласть

29,1

1421,7

698,6

16136

12023,8

256409,2

Воронежская об-

 

 

 

 

 

 

ласть

52,2

2330,4

1057,9

18885,1

14809,8

447155,4

Ивановская об-

 

 

 

 

 

 

ласть

21,4

1049

492,1

15930,1

11863,1

127218,6

Калужская область

29,8

1005,6

489,6

20621,2

14403,7

234278,6

Костромская об-

 

 

 

 

 

 

ласть

60,2

658,9

310,5

15808,2

10708,9

111462,3

Курская область

30

1119,3

580

18807,8

12802,9

233362,4

Липецкая область

24

1162,2

543,8

19777,4

14504,1

285884,3

Орловская область

24,7

775,8

393,3

16762,2

11598,5

130951,4

Рязанская область

39,6

1144,7

501,9

17664,4

12244,8

210435,5

Смоленская об-

 

 

 

 

 

 

ласть

49,8

975,2

490,8

18250,4

12990,4

183201,3

Тамбовская об-

 

 

 

 

 

 

ласть

34,5

1075,7

507

17469,8

13110,3

182305,1

Тверская область

84,2

1334,1

580,9

17247,3

12972,8

253757,1

Тульская область

25,7

1532,4

766,3

19291,1

13502,2

272462,8

Ярославская об-

 

 

 

 

 

 

ласть

36,2

1271,7

639,9

18512,5

12693,9

285159,8

56

Для построения уравнения регрессии введем данные в Microsoft Excel (рис. 4.2) и воспользуемся инструментом Регрессия (см. пример 7). В данном случае диалоговое окно заполняется так, как показано на рисунке 4.3.

Рис. 4.2. Исходные данные (строки 7-15 скрыты)

Рис. 4.3. Заполнение диалогового окна Регрессия

Обратите внимание, что в качестве входного интервала X мы берем все столбцы с факторными переменными X1 ,…, X5. Причем, как эти столбцы, так и столбец Y выделяем вместе с заголовками (чтобы это было возможно ставим флажок Метки). Результат применения инструмента Регрессия представлен на рисунке 4.4.

57

Рис. 4.4. Результаты регрессионного анализа

Коэффициенты уравнения регрессии содержатся в ячейках J18-J23. Следовательно, уравнение имеет вид

Y* 405622 76,8 X1 454,1 X2 498,6 X3 59,4 X4 53,9 X5

Уравнение можно также записать с использованием смысловых обозначений.1

ПрогнозВРП 405622 76,8 Площадь 454,1 ЧислНас 498,6 ЧислЗан 59,4 Доходы 53,9 Расходы.

Замечание. В данном примере мы не обсуждаем качество полученного уравнения, а только выясняем, как его получить. Как будет показано в дальнейших примерах, данная модель не является адекватной и нуждается в улучшении.

4.3. Условия применения МНК

Рассмотрим теоретическое уравнение линейной множественной регрес-

сии

y 0 1x(1) 2x(2) ... k x(k) .

Для индивидуальных наблюдений это уравнение будет иметь вид

 

 

 

 

x(1)

 

x(2) ...

 

x(k)

 

 

 

 

y

j

 

0

 

k

j

, j 1,n.

 

 

1 j

2

j

j

 

 

 

В предыдущем пункте мы получили формулы для эмпирических коэффи-

циентов b0,b1,b2,...,bk

при помощи МНК:

 

 

 

 

 

 

1 Для значений, получаемых по эмпирическому уравнению мы здесь используем переменную под названием ПрогнозВРП в отличии от переменной ВРП, значения которой получены в результате наблюдений.

58

b XT X 1 XT y.

Однако, возникает вопрос: насколько «хорошими» являются полученные оценки? Прежде всего, уточним, что понимать под «хорошей» оценкой.

Оценка называется несмещенной, если ее математическое ожидание равно нулю.

Оценка называется эффективной, если она имеет наименьшую дисперсию по сравнению с любыми другими оценками данных параметров.

Оценка называется состоятельной, если ее дисперсия стремиться к нулю, когда число наблюдений стремится к бесконечности.

Теперь, после уточнения понятия «хорошей» оценки, можно дать ответ на поставленный выше вопрос.

Оценки b0,b1,b2,...,bk параметров модели множественной регрессии, по-

лученные по МНК, является несмещенными, эффективными и состоятельными оценками, если выполнены следующие условия применения МНК:

Математическое ожидание случайного отклонения равно нулю, т.е. M i 0 для любого i;

Дисперсия 2 ( i ) не зависит от номера наблюдения i (гомоскедастич-

ность);

cov( i, j ) 0, если i j (отсутствие автокорреляции случайных откло-

нений); Случайное отклонение должно быть независимо от объясняющих пере-

менных, т.е. cov xi(k), i 0 для любых i и k;

Между объясняющими переменными отсутствует строгая (сильная) линейная зависимость ( отсутствие мультиколлинеарности);

Случайное отклонение имеет нормальное распределение.

Таким образом, использование МНК является целесообразным только в том случае, когда случайная составляющая удовлетворяет вышеуказанным условиям. При этом надо иметь ввиду, что мы не можем осуществить непосредственную проверку этих условий, поскольку теоретическая случайная составляющая нам недоступна. В нашем распоряжении имеются только лишь остатки ei, которые сами являются реализацией для . О том, как по величине остатков проверять выполнимость предпосылок МНК, будет рассказано ниже.

4.4. Спецификация модели

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя c другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

Быть количественно измеримы;

59

Факторы не должны быть коррелированы между собой и тем более находиться в точной функциональной связи.

Отметим, что в случае нарушения второго требования обратная матрица (XT X) 1 не существует.

Включение в модель факторов с высокой интеркорреляцией может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной, что повлечет за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель, и параметры уравнения регрессии оказываются неинтерпретируемыми.

Несмотря на то, что теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов проводится на основе качественного теоретико-экономического анализа. Однако качественный анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно проводится в две стадии: на первой отбираются факторы исходя из сути проблемы; на второй

– на основе матрицы показателей корреляции и оценок их статистической значимости.

Коэффициенты интеркорреляции (т.е. корреляции между объясняю-

щими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменных явно коллинеарны, т. е. находятся между со-

бой в линейной зависимости, если rxixj

0,7.

Для выявления коллинеарных

факторов строят корреляционную матрицу

 

 

1

r12

...

r1k

 

r

1

...

r

 

21

 

 

2k

,

... ... ... ...

 

 

rk2

...

1

 

rk1

 

где rij парные коэффициенты корреляции между регрессорами xi и xj .

Поскольку одним из условий построения уравнения множественной регрессии является независимость действия факторов, то коллинеарность факторов нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга и один из них необходимо исключить из регрессии. Исключению подлежит фактор, который менее коррелирован с зависимой переменной y.

Включение в модель мультиколлинеарных факторов нежелательно по следующим причинам:

Затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;

60