Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Эконометрика (лабораторные)

.pdf
Скачиваний:
177
Добавлен:
01.03.2016
Размер:
1.96 Mб
Скачать
называются регрессионными остатками (или просто

Величины 0 и 1 называются теоретическими параметрами

(коэффициентами) регрессии. Они неизвестны и поиск их оптимальных числовых оценок составляет одну из задач регрессионного анализа.

Параметр 1 показывает, на сколько единиц в среднем изменится

зависимая переменная Y, если независимая переменная X увеличится на одну единицу.

Величины i

остатками), возмущениями, ошибками измерений и являются случайными величинами. При доказательстве основных теоретических положений предполагается, что распределение остатка подчинено нормальному закону распределения.

 

 

 

Наша задача состоит в том, чтобы по наблюдениям

(xi , yi ), i 1, n

~

 

~

 

 

найти оценки b0 0

, b1

1 эмпирического уравнения регрессии

 

 

yˆ b0 b1 x .

(2.1)

Эмпирическая линия регрессии отражает основную тенденцию корреляционной связи.

Перечислим все явные и неявные предположения, принимаемые в рамках модели наблюдений, от выполнения которых зависит качество получаемых оценок и возможность применения к ним процедур регрессионного анализа.

1.Значения X задаются или измеряются без ошибок.

2.Регрессия Y по (на) X линейна, т.е. M x (Y) 0 1 x .

3.Отклонения yi M (Y xi ) взаимно независимы.

4.Эти отклонения имеют одну и ту же дисперсию 2 , точное

значение которой неизвестно при всех X . Это свойство называется гомоскедастичностью, а сами дисперсии – гомоскедастичными.

5.Данные действительно были взяты из совокупности, относительно которой должны быть сделаны определенные выводы.

6.Не было посторонних переменных, существенно уменьшающих

значения связи между величинами X

и Y .

7. Отклонения распределены по нормальному закону.

Оценки параметров линейной регрессии b0

и b1 могут быть найдены

разными методами. Наиболее распространенным является метод наименьших квадратов (МНК), разработанный А. Лежандром (1806) и К. Гауссом (1821).

21

Если вместо

X

в эмпирическое уравнение регрессии поставить

значения

x1 , x2 , , xn , то будут получены значения

yˆ1 , yˆ2 , , yˆn , которые,

вообще

говоря,

будут

отличаться от опытных

значений y1 , y2 , , yn .

Разница yi yˆi ei называется ошибкой (остатком, отклонением).

Суть метода наименьших квадратов заключается в минимизации суммы квадратов остатков (суммы квадратов отклонений фактических ординат точек корреляционного поля от ординат, вычисленных по уравнению (2.1)):

Q(b0 ,b1 ) ei2 (yi yˆi )2 (yi b0 b1 xi )2 min .

С геометрической точки зрения минимизация суммы квадратов отклонений означает выбор одной прямой с параметрами 0 и 1 из всех

прямых, которая ближе всего «прилегает» по ординатам к системе выборочных точек (xi , yi ), i 1,n .

Решение задачи минимизации функционала Q Q(b0 , b1 ) сводится к вычислению частных производных Q по b0 и b1 с последующим решением системы уравнений:

Q 0,i 0,1.

bi

Решая ее, найдем искомые МНК–оценки параметров регрессии:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov( x, y)

 

 

xy x y

 

 

var( y)

 

 

Sy

 

b

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

 

 

 

r

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

var( x)

 

 

x2 (x)2

xy

var( x)

 

xy

Sx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b0

y b1 x.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Знак коэффициента регрессии b1

указывает направление связи (если

b1 >0, то связь прямая; если b1 <0, то связь обратная). Тогда уравнение линия регрессии имеет вид:

 

 

 

 

 

yˆ y b1

(x x) .

(2.2)

Для того чтобы МНК–оценки

b0 и

b1 обладали желательными

свойствами, отклонения i должны удовлетворять определенным предпосылкам (условиям) Гаусса–Маркова:

иметь нулевые математические ожидания: M ( i ) 0 i 1,n ;

иметь постоянную дисперсию:

var(

) var(

j

) 2

i, j 1, n ;

 

 

i

 

 

 

быть некоррелированными (независимыми) между собой: cov( i , j ) 0 i j ;

22

быть некоррелированными с объясняющей переменной:

cov( i , xi ) 0 i, j 1,n .

Если данные условия выполняются, то МНК–оценки b0 и b1 являются

несмещенными ( M (b0 ) 0 ;

M (b1 ) 1 ),

состоятельными ( lim var(b0 ) 0

;

 

 

n

 

lim var(b1 ) 0 ), эффективными (имеют

наименьшую дисперсию по

n

 

 

 

сравнению с любыми другими оценками параметров 0 , 1 ). Оценка

параметров регрессии является лишь отдельным этапом длительного и сложного процесса построения эконометрической модели. Далее идет проверка качества оцененной зависимости, состоящая из следующих этапов:

проверка статистической значимости каждого коэффициента уравнения регрессии;

проверка общего качества уравнения регрессии;

проверка предпосылок Гаусса–Маркова.

При проверке статистической значимости коэффициентов регрессии выдвигают нулевую и альтернативную гипотезы. В качестве основной

гипотезы

H 0 выдвигают гипотезу

о

незначимом

отличии

от

нуля

«истинного» параметра регрессии 1

(величина

Y

не зависит от

X ).

Альтернативной гипотезой H1

 

при этом является гипотеза обратная, т.е. о

неравенстве нулю «истинного» параметра (значение

X влияет на вели–

чину Y ):

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H0 : 1 0,

 

 

 

 

 

 

 

 

 

 

 

 

 

H1 : 1 0.

 

 

 

 

 

 

 

 

 

 

Для

проверки гипотезы

 

 

используется t–статистика,

имеющая

распределение Стьюдента:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

b1

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

S (b1 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где S (b1 )

( yi yˆi )2

 

 

 

 

 

 

Se

 

 

 

 

стандартная

ошибка

(n 2) (xi x)2

 

 

 

 

 

 

 

 

 

 

 

 

(xi

 

 

 

 

 

 

 

 

 

 

x)2

 

 

 

 

коэффициента регрессии b1 , зависящая от:

рассеяния остатков. Чем больше доля вариации значений переменной Y , необъясненной ее зависимостью от X , найденной

МНК, тем больше стандартная ошибка коэффициента регрессии и тем менее точной является оценка b1 параметра регрессии 1 ;

23

рассеяния значений объясняющей переменной X . Чем сильнее это рассеяние, тем меньше стандартная ошибка коэффициента регрессии. Отсюда следует, что при вытянутом облаке точек в корреляционном поле получаем более надежную оценку функции регрессии, чем при небольшом скоплении точек, близко расположенных друг к другу;

объема выборки. Чем больше объем выборки n, тем меньше

стандартная ошибка коэффициента регрессии.

Гипотеза в такой постановке обычно называется гипотезой о статистической значимости коэффициента регрессии.

Найденное по данным наблюдениям значение t–статистики (его еще называют наблюдаемым или фактическим) сравнивается с критическим значением t –статистики, определяемым по таблицам распределения Стьюдента. Критическое значение находится в зависимости от уровня

значимости

и числа

степеней свободы , которое равно n–2. Если

 

tíàáë

 

> têð , то гипотезу H 0

отвергают; если же

 

tíàáë

 

<têð , то ее принимают.

 

 

 

 

 

 

 

 

 

Если H 0

принимается, то есть основание считать, что величина

Y

не

 

зависит

от

X . В

этом случае говорят, что коэффициент

1

статистически незначим (он слишком близок к нулю). При отклонении

H 0

в пользу H1

коэффициент 1 считается статистически значимым, что

указывает на наличие определенной зависимости между переменными

Y

и X . В данном случае рассматривается двусторонняя критическая область, так как важным является именно отличие от нуля коэффициента регрессии, и он может быть как положительным, так и отрицательным.

По аналогичной схеме на основе t –статистики проверяется гипотеза о статистической значимости коэффициента регрессии 0 .

При оценке значимости коэффициента линейной регрессии 1 на

начальном этапе можно использовать следующее «грубое» правило, позволяющее не прибегать к таблицам:

если стандартная ошибка S(b1 ) коэффициента b1 больше его модуля ( t 1), то коэффициент 1 не может быть признан значимым, так как

доверительная вероятность при двусторонней альтернативной гипотезе составит менее, чем 0,7;

если 1 t 2 , то 1 может рассматриваться как относительно (слабо)

значимая. Доверительная вероятность в этом случае лежит между 0,7 и

0,95;

24

если 2

 

t

 

3, то это свидетельствует о значимой линейной связи

 

 

 

 

 

 

 

между X

 

 

и Y . В этом случае доверительная вероятность колеблется от

0,95 до 0,99;

 

 

 

 

 

 

 

 

 

 

 

если

 

t

 

3, то это почти гарантия наличия линейной связи.

 

 

При

n 10 предложенное «грубое»

правило практически всегда

работает.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Любое значение 1, совместимое с оценкой b1, удовлетворяет условию

 

 

 

 

 

 

 

b1 1

 

t

 

или t

 

 

b1

1

t

 

.

 

 

 

 

 

 

 

 

кр

кр

 

 

кр

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S(b1)

 

 

 

 

S (b1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Разрешив это неравенство относительно 1, получим для него

доверительный интервал:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b1 tкр

S(b1) < 1 b1 + tкр S(b1),

покрывающий его с заданной вероятностью (1– ). Серединой интервала является величина b1. Границы интервала одинаково отстоят от b1, зависят от выбора уровня значимости и являются случайными числами.

В эконометрике проверку гипотез осуществляют при 5%-м, реже на 10%-м уровне значимости . В первом случае стандартная ошибка коэффициента регрессии составляет примерно до половины величины коэффициента по модулю.

Чем ниже критическая вероятность, тем меньше риск получения ошибок 1-го рода. В то же время, если нулевая гипотеза ложна, то чем выше уровень значимости , тем шире область принятия гипотезы и тем выше вероятность того, что гипотеза не отвергается, и тем выше риск допущения ошибки 2-го рода.

Под качеством уравнения регрессии понимается степень близости (соответствия) рассчитанных по данному уравнению (2.2) значений

признака-результата

ˆ

к фактическим (наблюдаемым) значениям Y . При

Y

этом качество модели регрессии связывают с адекватностью модели наблюдаемым эмпирическим данным. Проверка адекватности (соответствия) модели регрессии наблюдаемым данным проводится на основе остатков ei : ei yi yˆi . Остатки ei , как и ошибки i , являются

случайными величинами, однако они, в отличие от i , наблюдаемы. Если ei 0 (i 1, n) , то для всех наблюдений yi yˆi . Графически это означает,

что теоретическая линия регрессии проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак Y полностью обусловлен

25

влиянием фактора X . Если ei 0 (i 1, n) , то величина этих отклонений

лежит в основе расчета показателей качества (адекватности) уравнения. Для этого используют теорему о разложении дисперсии, согласно которой общая дисперсия результативного признака Y может быть разложена на две составляющие – объясненную и необъясненную уравнением регрессии дисперсии:

var(y) var(yˆ) var(e) ,

где

 

 

 

 

 

 

 

 

 

 

 

 

var( y)

( yi y)2

,

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

var( y)

( yi y)2

,

 

 

 

n

 

 

 

 

 

 

 

 

 

var(e)

 

( yi yˆi )

2

 

ei2

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

На

основе теоремы

о разложении

дисперсии рассчитываются

показатели качества модели регрессии:

 

 

 

1.

Коэффициент корреляции rxy . Чем ближе rxy к единице, тем ближе

все точки к прямой регрессии.

2. Средняя квадратическая ошибка уравнения регрессии Se ,

являющаяся несмещенной оценкой остаточного среднего квадратического отклонения = :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Se

 

 

( yi yˆi )2

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

n

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если S 2 var(y) , то использование модели регрессии является целе–

 

e

 

 

 

 

 

 

 

 

 

 

 

 

 

 

сообразным.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.

Коэффициент детерминации R2 :

 

 

 

 

R 2

 

var( yˆ)

 

1

var(e)

, причем 0 R2

1.

 

 

 

 

 

 

 

 

 

 

var( y)

 

 

 

var( y)

 

 

 

Коэффициент

детерминации

характеризует

долю вариации

(дисперсии) результативного признака, объясняемую

регрессией

ˆ

в

Y

общей

вариации

(дисперсии) Y .

Соответственно

величина

1– R 2

характеризует долю вариации (дисперсии) Y , необъясненную уравнением регрессии, а значит, вызванную влиянием прочих неучтенных в модели факторов.

26

В качестве нулевой гипотезы H0 : R2 0 выдвигается предположение о статистической незначимости уравнения регрессии при конкурирую-

щей гипотезе H

1

: R2

0 .

 

 

 

 

 

 

 

 

 

 

 

Осуществляется сравнение фактического (наблюдаемого) Fнабл :

 

 

 

Fнабл

 

 

R2

(n 2)

 

 

 

 

R2

 

 

 

 

1

 

и критического (табличного) Fкр значения F–критерия Фишера.

Вслучае справедливости гипотезы H 0 статистика F имеет

распределение Фишера с числами степеней свободы числителя и знаменателя, соответственно равными 1 =1 и 2 =n–2.

Если F

< F

, то H

 

принимается, т.е. R 2

статистически незначим;

 

набл

 

кр

 

0

 

если же

F

 

> F , то

R2 статистически значим, т.е. между X и Y

 

набл

 

кр

 

 

 

существует линейная связь (с вероятностью ошибиться, равной ). Замечание. При парной линейной регрессии коэффициент

детерминации равен квадрату парного линейного коэффициента

корреляции: R 2 r

2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Замечание. В парном регрессионном анализе эквивалентны t

критерий для H0: 1

0;

t–критерий для H0: = 0 и F–критерий для R2:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 2

 

tb

 

b

,

tr

r

 

n 2

,

F

R2

.

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

S (b )

 

 

 

1 r 2

 

 

 

1 R2

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Связь между критериями выражается равенством

 

 

 

 

 

 

 

tr

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tb

 

 

F ,

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

причем для критических значений критериев при любом уровне

значимости

tb1 кр tr кр

 

 

 

 

 

 

 

 

 

 

,

 

 

Fкр

 

и эти критерии дают один и тот же результат.

 

Замечание. Вычисление R 2

корректно, если константа b

включена в

 

 

 

 

 

 

 

 

 

0

уравнение регрессии.

 

 

 

 

 

 

 

 

 

 

 

 

 

4. Средняя ошибка аппроксимации A :

 

 

1

 

 

 

y

yˆ

i

 

 

 

 

 

 

 

 

 

 

 

 

A

 

 

 

 

i

 

.

 

 

n

 

yi

 

 

Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Ошибка аппроксимации меньше 7% свидетельствует о хорошем качестве модели.

27

Под прогнозированием в эконометрике понимается построение оценки зависимой переменной для некоторого набора независимых переменных, которых нет в исходных наблюдениях.

Различают точечное и интервальное прогнозирование. В первом случае оценка – некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем значимости .

Выделяют также безусловное и условное прогнозирование в зависимости от того, известны ли объясняющие переменные точно или приближенно. Кроме того, для временных рядов при нахождении прогноза существенно наличие или отсутствие корреляции во времени между ошибками.

Для регрессионной модели y 0 1 x действительное значение

зависимой переменной при х = хр имеет вид: yp 0 1 xp p ,

где М( p) = 0, D( p) = 2; значения 0 , 1 , p неизвестны. Предсказанным значением (безусловным прогнозированием) является

оценка yˆ p (точечный прогноз), равный yˆ p a bxp .

Тогда доверительный интервал для действительного значения ур определяется выражением

yˆ p tкр S p yp yˆ p tкр S p ,

 

 

 

 

 

 

 

 

 

где tкр– критическое значение

t–статистики

при

 

заданном

уровне

 

 

 

 

 

 

 

 

 

 

 

значимости и числе степеней

свободы , S

S

 

1

1

 

xp

x 2

 

 

n var x

 

 

p

e

 

 

n

 

 

 

 

 

 

 

 

 

 

стандартная ошибка предсказания (среднеквадратическая оценка прогноза).

28

На рисунке в общем виде показано соотношение между доверительным интервалом предсказания и значением объясняющей переменной. Отрезок, отмеченный на рисунке стрелками, определяет

доверительный интервал предсказания в точке хр.

Задача 2.1. Имеются данные о среднедушевых расходах на питание

 

Y (усл. ед.) и личном доходе

X (усл. ед.) граждан некоторой страны за 8

лет:

 

 

 

 

 

 

 

 

 

 

 

 

 

Год

1998

1999

2000

 

2001

 

2002

2003

2004

2005

 

 

X

2

5

 

8

 

11

 

14

17

20

23

 

 

Y

8

9

 

11

 

18

 

20

23

25

30

 

 

Построить регрессионные зависимости:

 

 

 

 

 

а) расходов на питание

Y

и личного дохода

X ;

 

 

 

 

б) расходов на питание

Y и времени

t ;

 

 

 

 

в) оценить качество построенной модели.

Решение.

1.Модель парной линейной регрессии. Метод наименьших квадратов. Анализ вариации зависимой переменной.

а) Пусть истинная модель описывается уравнением Y 0 1 X .

По имеющимся выборочным наблюдениям можно получить уравнение yˆ b0 b1 x , где b0 , b1 – оценки неизвестных параметров 0 , 1 . Поскольку

таблица похожа на таблицу из примера 1.1 лабораторной работы №1, можно проделать следующее: загрузить Excel, открыть файл с именем лаб1.xls, выполнить команду меню Файл Сохранить как, в поле Имя файла ввести лаб2, нажать Сохранить. Теперь мы имеем файл, который можем изменять соответственно новым данным и не набирать многие формулы заново.

Итак, у нас имеется готовый шаблон. Для начала выделим ячейки А3:А5,далее выполним команды меню: Главная Удалить Удалить строки с листа ОК. Получили для работы таблицу нужного размера, причем столбец «Год» заполнен правильно.

Изменим данные во втором и третьем столбцах. Для этого выделим диапазон ячеек B3:C10 и нажмем на клавиатуре кнопку Delete. Ячейки стали пустыми, и мы видим, что все другие вычисленные значения обнулились. Это связано с тем, что Excel автоматически пересчитывает значения в клетках с формулами, если исходные данные изменяются.

Введем данные рассматриваемой задачи в ячейки B3:C13. Все значения автоматически изменились в соответствии с новыми данными.

29

Однако следует обратить внимание на то, что теперь формула в ячейках B12:F12 является неверной, поскольку в ней сумма значений по столбцу делится на 11, в то время как в текущей задаче количество лет и соответственно объем выборки равны 8. Поэтому желательно не использовать в данных ячейках константу «число лет», так как при удалении или добавлении числа строк можно забыть изменить формулу. Вместо этого щелкните по ячейке B12, очистите ее, затем воспользуйтесь

Мастером

функций:

ФОРМУЛЫ fx

Вставить

функцию Статистические СРЗНАЧ

ОК.

В появившемся

диалоговом окне в поле «Число1» уже имеется некоторый интервал, для которого предлагается найти среднее значение. Однако поскольку он нам не подходит, мы левой клавишей мыши выделяем диапазон B3:B10 и нажимаем ОК. Теперь можно не беспокоиться при удалении или добавлении строк – среднее значение будет пересчитываться автоматически. Пользуясь автозаполнением, размножьте формулу из ячейки В12 на диапазон ячеек B12:F12.

Можно оставить формулы для вычисления вариации X , вариации Y и ковариации X и Y .

Выделите диапазон ячеек A25:F47 и очистите их (нажмите Delete).

Выделите щелчком

мыши все формулы в данном диапазоне и удалите их.

В ячейках В25

и В29 введите формулы-комментарии для вычисления

 

cov(x, y)

 

 

 

 

 

 

 

параметров уравнения регрессии: b

 

и b

y b x

 

 

1

var(x)

0

1

 

 

 

 

 

 

 

 

 

 

соответственно. Выполните действия для расчета согласно таблице:

 

 

Ячейка

 

 

Формула

 

 

 

D25

 

 

=D22/D17

 

 

 

D29

 

 

=C12-D25*B12

 

В ячейке Е26 введите комментарий «Линейное уравнение регрессии», в

ячейке E27 –

y , в ячейке F27 –

«=D29», в ячейке G27 – , в ячейке H27

– «=D25», в ячейке I27 – x .

 

 

 

 

Получим

линейное уравнение

регрессии yˆ 4,507937 1,079365x.

Коэффициент b1 1,079365 показывает, что с увеличением личного дохода

на 1 усл. ед. расходы на питание в среднем возрастают на 1,08 усл. ед. Замечание. Параметры линейной парной регрессии можно рассчитать

по отдельности. Для этого в Excel существуют функции НАКЛОН и

30