Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
УМК Эконометрика.pdf
Скачиваний:
67
Добавлен:
02.04.2015
Размер:
1.69 Mб
Скачать

45

Раздел 2. Множественная регрессия

Вразделе рассматриваются четыре темы:

1.Линейная модель множественной регрессии.

2.Оценка качества модели.

3.Модели регрессии с переменной структурой.

4.Нелинейные модели регрессии.

После проработки теоретического материала раздела следует выполнить практические работы № 2 и 3.

После изучения данного раздела необходимо ответить на вопросы теста № 2. Более подробная информация по данной теме содержится в учебнике [1].

2.1. Линейная модель множественной регрессии

Изучаемые вопросы:

классическая линейная модель множественной регрессии;

метод наименьших квадратов; cтатистические свойства оценок.

При работе с теоретическим материалом следует разобрать примеры решения задач и ответить на контрольные вопросы, приведенные в конце темы.

Классическая линейная модель множественной регрессии

Значения экономических показателей определяются, как правило, влиянием нескольких факторов. В этом случае возникает задача исследования зависимости одной зависимой переменной (результативного признака) y от нескольких независимых переменных (объясняющих факторов, регрессоров) x1, x2 , …, xm , т. е. задача множественной регрессии. Наиболее простой и самой употребляемой является модель множественной линейной регрессии:

y = a0 + a1 x1 + a2 x2 +K+ am xm + u ,

или для конкретных наблюдений i, i =1, n ,

yi = a0 + a1 xi1 + a2 xi2 +K+ am xim + ui ,

(2.1.1)

46

где (xi1 , xi2 ,..., xim , yi ) – выборка объема n , a0 , a1 ,Kam – неизвестные параметры модели, подлежащие оцениванию, ui – значение случайного возмущения (ошибки) в наблюдении i .

Модель (2.1.1) называется классической (нормальной) линейной моделью множественной регрессии (КЛММР), если для нее выполняются условия Гаусса-Маркова 1-5 (п. 1.1) и 6 предпосылка об отсутствии между объясняющими переменными строгой линейной зависимости.

Представим выборочные данные в виде вектора-столбца Y значений зависимой переменной и матрицы X значений объясняющих переменных (первый столбец является единичным, так как в уравнении регрессии параметр

a0

умножается на 1):

 

 

 

 

 

 

 

 

 

y

 

 

1 x

x

Kx

 

 

 

1

 

 

 

11

12

1m

 

 

 

Y = y2 ,

X

= 1 x21 x22 Kx2m .

 

 

K

 

 

K K K K

 

 

 

 

 

 

 

 

xn2 K xnm

 

 

 

yn

 

 

1 xn1

 

 

 

Один столбец матрицы X – это вектор значений одной из независимых

переменных.

 

 

 

 

 

 

 

 

 

Тогда в матричной форме модель (2.1.1) примет вид:

 

 

 

 

 

Y = XA +U ,

 

(2.1.2)

где

A = (a0 , a1 ,K, am )Т

вектор-столбец

параметров

регрессии;

U = (u1, u2 ,K, un )Т – вектор-столбец случайных возмущений.

 

 

Поскольку истинные

значения

 

параметров по выборке

получить

невозможно, то задача состоит в нахождении оценок (приближенных значений) b0 , b1, ..., bm неизвестных параметров модели a0 , a1 , ..., am по исходным данным (xi1 , xi2 ,..., xim , yi ) , i =1, n . Это означает построение уравнения

y = b0 + b1 x1 + b2 x2 +K+ bm xm ,

47

которое называется уравнением линейной регрессии. При подстановке в это уравнение значений факторных переменных i-го наблюдения получим величину yˆi :

yi = b0 +b1xi1 +b2 xi2 +K+bm xim ,

(2.1.3)

которая не будет совпадать с наблюдаемым значением

yi . Разность между

наблюдаемым значением yi и значением, рассчитанным по уравнению

регрессии, называется остатком в наблюдении i и обозначается ei :

 

ei = yi yˆi .

 

(2.1.4)

Используя соотношение

(2.1.4), наблюдаемые

значения yi

можно

представить как

 

 

 

yi = yˆi + ei = b0 + b1 xi1 + b2 xi2 +K+ bm xim + ei .

(2.1.5)

Представим коэффициенты уравнения регрессии

в виде вектора-столбца

B , а остатки наблюдений –

в виде вектора-столбца E: B = (b0 ,

b1 ,K, bm )Т ;

E = (e0 , e1 ,K, em )Т .

 

 

 

Используя введенные обозначения, соотношение (2.1.5) можно записать в

матричной форме:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Y = XB + E .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(2.1.6)

Предпосылки – условия Гаусса – Маркова – также можно записать в

матричной форме.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Математическое ожидание вектора возмущения равно нулю:

 

 

 

 

 

 

 

 

 

 

M (U )= 0n .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Условия 2 и 3 можно объединить в одно, определяющее вид

ковариационной матрицы возмущений:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

cov(u

 

,u )cov(u

 

,u

2

)Kcov(u

 

,u

n

)

 

 

σ 2

0

K 0

 

 

 

 

 

 

 

 

1

 

1

1

 

 

 

 

1,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

= M (UU T )=

cov(u

2

,u

)cov(u

2

,u

2

)Kcov(u

2

,u

n

)

=

0

σ 2 K 0

 

=

σ 2 I

 

,

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

U

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

KKKKK

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

KKKK

 

 

 

 

 

 

 

 

cov(u

n

,u

)cov(u

n

,u

2

)Kcov(u

n

,u

n

)

 

 

 

K σ

2

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

0 0

 

 

 

 

 

 

48

где In – единичная матрица размером n ×n .

4.X – детерминированная матрица.

5.U ~ N(0,σ 2 In ) – нормально распределенный случайный вектор с нулевым математическим ожиданием и ковариационной матрицей CU .

6.Векторы объясняющих переменных (столбцы матрицы X) линейно независимы (ни один из них не может быть представлен в виде линейной комбинации других). Другими словами, ранг матрицы X равен числу ее столбцов m+1.

Метод наименьших квадратов. Статистические свойства оценок

Для определения коэффициентов регрессии b0 , b1, ..., bm используется метод наименьших квадратов (МНК). В соответствии с МНК минимизируется сумма квадратов остатков:

n 2

n

2

n

 

 

m

 

2

 

Q = ei

= ∑(yi yˆi )

=

 

 

 

 

min .

(2.1.7)

 

 

 

yi b0

+ b j xij

i=1

i=1

 

i=1

 

 

j=1

 

 

 

Учитывая, что произведение

 

 

 

 

 

 

e

 

 

 

 

 

 

1

 

 

 

 

 

e

 

 

= e12

+ e22

+Ken2

n

eT e = (e1e2 Ken )

2

 

= ei2 ,

K

 

 

 

i=1

 

 

 

 

 

 

 

en

 

 

 

 

 

условие (2.1.7) может быть записано в виде:

Q = ET E = (Y XB)T (Y XB)=Y T Y 2BT X T Y + BT X T XB min .

(2.1.8)

Необходимым условием минимума функции Q является равенство нулю

всех ее частных производных

по b0 ,

b1,

..., bm , т. е. равенство нулю вектора

Q

 

Q Q

Q

T

 

 

 

 

частных производных B

 

 

 

 

 

 

 

 

b

 

 

b K

b

 

 

=

 

 

 

:

 

 

 

 

0

1

 

 

m

 

 

 

49

 

Q

= −2X T Y T

+ 2X T XB = 0 ,

(2.1.9)

B

 

 

 

откуда получаем систему нормальных уравнений в матричной форме для определения вектора B:

X T XB = X T Y .

(2.1.10)

Если предпосылка 6 регрессионного анализа выполнена, то ранг матрицы

X T X равен m+1, т. е. матрица является невырожденной (ее определитель не

равен нулю), и существует обратная матрица

(X T X )1 . Поэтому решением

системы (2.1.10) является вектор МНК-оценок коэффициентов регрессии

B = (X T X )1 X T Y .

(2.1.11)

Пример 2.1.1

Имеются следующие данные по темпам прироста заработной платы y

(%), производительности труда x1 (%), а также уровню инфляции x2 (%):

x1

3,5

2,8

6,3

4,50

3,1

1,5

x2

4,5

3

3,1

3,8

3,8

1,1

 

 

 

 

 

 

 

y

9

6

8,9

9

7,1

3,2

 

 

 

 

 

 

 

Оценить по МНК уравнение регрессии y = a0 + a1x1 + a2 x2 + u .

Решение. МНК-оценку вектора параметров модели вычислим по формуле

(2.1.11):

B = (X T X )1 X T Y ,

где Y = (9;6;8,9;9;7,1;3,2)Т – вектор-столбец результативной переменной,

 

 

50

1

3,5 4,5

 

 

2,8

3

 

1

 

 

6,3

3,1

 

X = 1

 

1 4,5

3,8

1

3,1

3,8

 

 

1,5

1,1

 

1

 

– матрица значений факторных переменных. Вычислим последовательно

1,901 0,147

0,374

 

 

43,2

 

(X T X )1 = − 0,147

0,095

0,061

,

X T Y = 171,68

.

 

 

 

 

 

 

 

 

0,061

0,185

 

 

 

 

0,374

 

 

150,79

 

Таким образом, вектор коэффициентов равен

 

 

 

 

 

 

0,508

 

 

 

 

 

 

 

 

 

 

B = (X

T

1

 

T

 

0,741

 

 

X )

X

 

Y =

 

 

,

 

 

 

 

 

 

1,246

 

 

 

 

 

 

 

 

 

 

 

и следовательно, уравнение регрессии имеет вид

 

 

yˆ = 0,508 + 0,741x1 +1,246x2 .

 

 

(2.1.12)

Выражение (2.1.11) для вектора оценок параметров регрессии можно представить в эквивалентном виде:

B = A + (X T X )1 X T U ,

(2.1.13)

откуда получаем статистические характеристики коэффициентов регрессии.

1. Математическое ожидание:

 

M [B]= A .

(2.1.14)

2. Ковариационная матрица

 

CB =σ 2 (X T X )1 .

(2.1.15)

Теорема Гаусса-Маркова. Если регрессионная модель (2.1.1) удовлетворяет условиям 1-4, 6, то оценка метода наименьших квадратов

51

B = (X T X )1 X T Y является наиболее эффективной, т. е. имеет наименьшую дисперсию в классе линейных несмещенных оценок.

Несмещенная оценка S 2 дисперсии ошибки σ 2 случайного члена u (или остаточная дисперсия) определяется выражением

n

ei 2

S 2 = i=1 . (2.1.16) n m 1

Несмещенная оценка матрицы ковариации вектора коэффициентов B получается путем замены в (2.1.15) неизвестного значения дисперсии ошибки его оценкой (2.1.16):

CB = S 2 (X T X )1 ,

откуда следует, что несмещенные оценки дисперсий коэффициентов b0 , b1, ..., bm находятся по формуле

 

Sb2j = S 2 (X т X )jj1.

(2.1.17)

Здесь

(X т X )jj1 j-й диагональный элемент матрицы (X т X )1 .

 

S =

S 2 называется стандартным отклонением регрессии, S

= S 2

 

b j

b j

называется средним квадратическим отклонением (стандартной ошибкой)

коэффициента регрессии b j .

Пример 2.1.2

По данным примера 2.1.1 оценить стандартные ошибки регрессии и коэффициентов регрессии.

Решение. Несмещенная оценка дисперсии возмущений для множественной регрессии вычисляется по формуле (2.1.16). Поэтому необходимо вычислить значения остатков для всех наблюдений. Расчетные значения yˆi определим по уравнению регрессии (2.1.12). Результаты разместим в третьем столбце табл. 2.1.1.

52

В четвертом и пятом столбцах размещены значения остатков и квадратов остатков.

Таблица 2.1.1

№ п.п.

yi

yˆi

ei = yi yˆi

e2

 

 

 

 

i

 

 

 

 

 

1

9

8,713

0,287

0,082

 

 

 

 

 

2

6

6,324

-0,324

0,105

 

 

 

 

 

3

8,9

9,045

-0,145

0,021

 

 

 

 

 

4

9

8,582

0,418

0,175

 

 

 

 

 

5

7,1

7,544

-0,444

0,197

 

 

 

 

 

6

3,2

2,992

0,208

0,043

 

 

 

 

 

 

 

Сумма

 

0,623

 

 

 

 

 

Оценка дисперсии возмущения будет равна

 

 

 

S

2

=

 

 

ei2

 

 

=

0,623

 

= 0,2078 ,

 

 

 

 

n

m

1

6 2

1

 

 

 

 

 

 

 

 

 

 

 

 

а оценка стандартной ошибки возмущения равна

 

 

 

 

 

 

 

S =

 

0,2078 = 0,4558 .

 

 

 

Вычислим дисперсии коэффициентов регрессии через диагональные

элементы ковариационной матрицы (2.1.15):

 

 

 

 

 

 

 

(X

 

 

 

 

 

 

 

 

 

1,901 0,147

0,374

 

CB = S

2

т

 

1

 

 

 

 

0,095

 

 

 

 

X )

 

 

 

= 0,2078 0,147

0,061 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,061

0,185

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,374

 

Таким образом,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sb

=

 

0,2078 1,901 = 0,6284 ,

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sb

=

 

 

0,2078 0,095 = 0,1401,

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sb2 = 0,2078 0,185 = 0,1958 .

53

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

1.Как определяется модель множественной линейной регрессии?

2.Сформулируйте задачу регрессионного анализа в матричном виде.

3.Перечислите условия Гаусса-Маркова для классической линейной модели множественной регрессии.

4.Какая матрица называется ковариационной матрицей возмущений?

5.В чем суть МНК-оценки параметров множественной линейной регрессии?

6.Приведите формулу расчета коэффициентов уравнения множественной регрессии в методе наименьших квадратов.

7.Опишите алгоритм определения коэффициентов множественной линейной регрессии по МНК в матричной форме.

8.Какими свойствами обладают МНК-оценки?

9.Сформулируйте теорему Гаусса-Маркова.

10.Приведите формулы расчета дисперсий и стандартных ошибок коэффициентов регрессии.

2.2. Оценка качества модели

Изучаемые вопросы:

проверка гипотез о параметрах регрессии;

интервальные оценки параметров регрессии;

проверка общего качества уравнения регрессии.

При работе с теоретическим материалом следует разобрать примеры решения задач и ответить на контрольные вопросы, приведенные в конце темы.

Поскольку уравнение регрессии определяется на основе выборочных данных, то коэффициенты этого уравнения являются точечными оценками (случайными величинами), значения которых изменяются от выборки к выборке. А значит, необходима проверка значимости этих коэффициентов.

Для оценки статистической значимости коэффициентов регрессии рассчитывают доверительные интервалы и t-критерии.

54

Проверка гипотез о параметрах регрессии

Анализ статистической значимости коэффициента регрессии b j

осуществляется по схеме статистической проверки гипотез. Проверяют гипотезу H0 : a j = 0 (j-я независимая переменная не влияет на результат) при альтернативной гипотезе H1 : a j 0 (j-я независимая переменная влияет на

результат).

Для проверки гипотезы используется t-статистика

 

 

 

 

 

 

 

 

 

 

t =

b j

,

 

 

 

 

 

 

 

 

 

 

 

 

 

Sb j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

которая при справедливости H 0

имеет распределение Стьюдента с числом

степеней

свободы ν = n m 1.

При

требуемом

уровне

значимости

α

наблюдаемое

значение t-статистики сравнивается

с критической точкой

tкр = tα,nm1

распределения Стьюдента.

 

 

 

 

Если

 

tнабл

 

> tкр , то коэффициент b j считается статистически значимым,

 

 

т. е. гипотеза

H0 : a j = 0 отклоняется.

 

 

 

 

 

В противном случае (

 

tнабл

 

tкр) коэффициент b j

считается статистически

 

 

незначимым (статистически близким к нулю). Это означает,

что фактор

x j

линейно не связан с зависимой переменной y .

Поэтому после установления

того факта, что коэффициент

b j

статистически незначим,

рекомендуется

исключить из уравнения регрессии переменную x j .

 

 

 

Пример 2.2.1

 

 

Проверить

статистическую

значимость

каждого

коэффициента

множественной регрессии (2.1.12).

 

 

 

Решение.

Для проверки

статистической

значимости

коэффициентов

воспользуемся t-статистикой:

 

 

 

 

55

 

 

 

 

 

 

 

 

t =

 

bj

 

~ t(n m 1),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sbj

 

 

 

 

 

 

 

t

0

=

b0

=

0,508

0,81,

t

=

b1

 

=

0,741

5,29 ,

t

2

=

b2

=

1,246

6,36 .

 

 

 

 

 

 

 

 

 

Sb

0,6284

 

1

Sb

0,1401

 

 

Sb

0,1958

 

 

 

0

 

 

 

 

 

1

 

 

 

 

 

 

2

 

 

 

 

 

Сравним вычисленные значения с критическим,

выбранным из таблицы

t-распределения по числу степеней свободы n-m-1=6-2-1=3 и уровню значимости α = 0,05, tкр (0,95;3)=3,18 :

 

t0

 

 

= 0,81<tкр

– оценка параметра a0 статистически незначима;

 

 

 

 

 

 

 

 

 

t1

 

 

 

 

=5,29 >tкр

– оценка параметра a1 статистически значима;

 

 

 

 

 

 

 

 

 

 

 

 

t2

 

 

= 6,36 >tкр

– оценка параметра a2 статистически значима.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Интервальные оценки параметров регрессии

 

 

 

После определения

точечных

оценок

b j коэффициентов

a j

теоретического уравнения

регрессии

могут

быть

рассчитаны интервальные

оценки

 

 

коэффициентов. Если a j 0 , то

статистика

t =

b j

a j

 

имеет

 

 

 

Sb j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

распределение Стьюдента с

ν = n m 1 степенью свободы.

 

 

 

 

 

 

По таблице критических точек распределения Стьюдента по требуемому

уровню значимости α и числу степеней свободы ν

можно найти критическую

точку tкр = tα,nm1 , удовлетворяющую условию

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P(

 

t

 

< tкр )= P(tкр < t < tкр )= β =1 α .

t =

b j

a j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Подставив в это соотношение вместо

t статистику

 

,

после

 

 

 

 

Sb j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

преобразований получим

P b j tкрSb j < a j < b j + tкрSb j =1 α .

56

Таким образом, доверительный интервал, накрывающий с доверительной вероятностью β =1 α неизвестное значение параметра a j , определяется неравенством

b j tкрSb j < a j < b j + tкрSb j .

(2.2.1)

Если в границы доверительного интервала попадает ноль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый коэффициент принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.

Пример 2.2.2

Построить доверительный интервал, который с доверительной вероятностью 0,95 накроет истинные значения параметров a j , j=0,1,2, модели

(2.1.12).

Решение. Критическое значение t-статистики равно tкр (0,95;3)=3,18 . По формуле (2.2.1) вычислим границы доверительных интервалов для параметров модели:

для параметра a0 :

b0 tкр Sb0 = 0,508 3,18 0,6284 ≈ −1,490 ,

b0 + tкр Sb0 = 0,508 + 3,18 0,6284 2,506,

для параметра a1 :

b1 tкр Sb1 = 0,741 3,18 0,1401 0,295, b1 + tкр Sb1 = 0,741 + 3,18 0,1401 1,187 ,

для параметра a2 :

b2 tкр Sb2 =1,246 3,18 0,1958 0,623,

b2 + tкр Sb2 =1,246 + 3,18 0,1958 1,869 .

Проверка общего качества уравнения регрессии

Наиболее часто в практических расчетах для оценки качества всего уравнения в целом применяется коэффициент детерминации R2 , который рассчитывается по формуле

57

 

 

 

 

R

2

=1

 

ei2

 

 

 

 

 

 

 

 

 

,

(2.2.2)

 

 

 

 

(yi

 

)2

 

 

 

 

y

 

 

 

1 n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где y =

 

yi . Коэффициент

детерминации

характеризует долю общего

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

разброса

значений зависимой

переменной

y , объясненного уравнением

регрессии. Считается, что чем больше эта доля, тем лучше уравнение регрессии описывает исследуемую зависимость. В общем случае 0 R 2 1.

Коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Это значит, что при добавлении новых объясняющих переменных значение коэффициента детерминации будет расти, хотя это и не обязательно означает улучшение качества регрессионной модели. Поэтому предпочтительнее использовать скорректированный коэффициент

детерминации

 

2 , определяемый по формуле

 

R

 

 

 

 

 

 

2

 

ei2 /(n m 1)

 

 

 

 

R

=1

 

 

 

 

 

 

 

 

.

(2.2.3)

 

 

 

 

(yi

 

)2 /(n 1)

 

 

 

 

y

Соотношение (2.4.2) может быть представлено в следующем виде:

 

2 =1 (1 R2 )

n 1

 

.

(2.2.4)

R

n m 1

 

 

 

 

Обычно приводятся данные как по R2 , так и по R2 . Доказано, что R2 увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы.

Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о статистической значимости коэффициента детерминации:

H0 : R2 = 0 , H1 : R 2 > 0.

Для проверки гипотезы используется следующая F-статистика:

F =

 

R 2

 

n m 1

.

(2.2.5)

 

R 2

m

 

1

 

 

 

58

Проверка данной гипотезы равносильна проверке гипотезы о статистической незначимости уравнения регрессии:

H0 : a1 = a2 =K= am = 0

(все коэффициенты линейной регрессии, за исключением свободного члена, равны нулю). Ведь если коэффициенты равны нулю для генеральной совокупности, то уравнение регрессии должно иметь вид yˆ = y , а коэффициент

детерминации R2 и F-статистика Фишера также равны нулю. При этом их оценки для случайной выборки, конечно, отличаются от нуля.

Величина F при выполнении предпосылок МНК и при справедливости H 0

имеет распределение Фишера. При заданном уровне значимости α по таблицам критических точек распределения Фишера находится критическое значение Fкр = Fα;m;nm1. Если Fнабл > Fкр, то основную гипотезу отвергают и принимают альтернативную гипотезу о статистической значимости уравнения регрессии. Если Fнабл < Fкр , то основную гипотезу о незначимости уравнения регрессии не отвергают (уравнение модели признается незначимым).

Пример 2.2.3

Проверить качество оцененной модели (2.1.12) с помощью коэффициента детерминации.

Решение. Значение коэффициента детерминации рассчитаем по формуле

(2.2.2):

R

2

=1

ei2

=1

ESS

 

 

 

 

 

.

 

(yi

 

)2

TSS

 

y

Значение остаточной суммы квадратов отклонений вычислено в примере 2.1.2: ESS=0,623. Вычисление TSS (общей суммы квадратов отклонений зависимой переменной от ее среднего выборочного значения) оформим в виде табл. 2.2.1.

 

 

 

 

 

 

 

 

 

 

59

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 2.2.1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

 

 

 

 

 

yi

y

 

 

(yi

y

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

 

 

 

 

1,8

 

 

 

3,24

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

-1,2

 

 

1,44

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8,9

 

 

 

 

 

1,7

 

 

 

2,89

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

 

 

 

 

 

1,8

 

 

 

3,24

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7,1

 

 

 

 

 

-0,1

 

 

0,01

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3,2

 

 

 

 

 

-4

 

 

 

16

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 7,2

 

 

 

 

Сумма

 

26,28

 

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R2 =1

0,623 =1 0,0237 = 0,977.

 

 

 

 

 

 

 

 

 

 

 

 

 

26,28

 

 

 

 

 

 

 

 

 

Анализ статистической

значимости коэффициента детерминации R2

осуществляется на основе F-статистики (2.2.5):

 

 

 

 

 

 

 

 

 

 

F =

 

 

0,977

6 2 1 63,72 .

 

 

 

 

 

 

 

 

1

0,977

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

Критическое

значение

для

доверительной

вероятности

0,95

равно

F0,95 (2,3)=9,55 .

Так как

 

 

Fнабл = 63,72 > Fкр =9,55,

то

 

коэффициент

детерминации признается статистически значимым. Таким образом, построенное уравнение регрессии объясняет 97,7 % разброса зависимой переменной.

По формуле (2.2.4) скорректируем значение коэффициента детерминации с учетом числа факторных переменных:

R2 =1 (1 0,977)6 6 2 11 = 0,962,

что несколько меньше, чем обычный коэффициент детерминации.

60

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

1.В чем заключается нулевая гипотеза при проверке значимости коэффициентов регрессии?

2.Как проверяется значимость коэффициентов регрессии?

3.Как строятся интервальные оценки коэффициентов регрессии и в чем их суть?

4.В чем суть коэффициента детерминации R2 ?

5.Чем скорректированный коэффициент детерминации отличается от обычного?

6.Как осуществляется анализ статистической значимости коэффициента детерминации?

2.3. Модели регрессии с переменной структурой

Изучаемый вопрос:

модели регрессии с переменной структурой.

При работе с теоретическим материалом следует разобрать пример решения задачи и ответить на контрольные вопросы, приведенные в конце темы.

Как правило, в регрессионных моделях в качестве объясняющих рассматривают количественные переменные. Однако в некоторых случаях возникает необходимость учесть влияние качественных признаков на результативную переменную. К качественным переменным можно отнести пол (мужской, женский), образование (начальное, среднее, высшее), фактор сезонности (зима, весна, лето, осень) и т. д.

Для учета влияния качественных признаков необходимо исследовать регрессионные модели с переменной структурой. В таких моделях влияние качественных факторов учитывается путем введения так называемых фиктивных переменных.

Фиктивные переменные – это переменные с дискретным множеством значений, которые количественным образом описывают качественные

61

признаки. Как правило, фиктивные переменные принимают два значения: единица, если данный признак присутствует, и ноль при его отсутствии.

Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то используют несколько фиктивных переменных, число которых должно быть на единицу меньше числа значений признака.

Парная регрессионная модель с фиктивной переменной имеет вид yi = a0 + a1 xi + dzi + ui ,

где a0 , a1 , d – параметры модели, xi – значение факторной переменной в наблюдении i, z – фиктивная переменная:

0, еслипризнакотсутствуетвнаблюденииi , zi = 1, еслипризнакимеетсявнаблюденииi.

Значение фиктивной переменной zi = 0 называется базовым.

Для того чтобы дать интерпретацию параметру d, определим условное математическое ожидание зависимой переменной:

M (yi zi = 0)= a0 + a1 xi , M (yi zi =1)= a0 + a1 xi + d .

Таким образом, величина d представляет собой среднее изменение изучаемого признака при переходе из одной категории в другую при неизменных значениях остальных параметров.

Проверка статистической значимости параметра d показывает, влияет ли данный качественный признак на зависимую переменную или нет.

Из модели, включающей фиктивные переменные, можно вывести частные уравнения регрессии для различных частей полной выборочной совокупности.

Введение в регрессию фиктивных переменных существенно улучшает качество ее оценки.

Пример 2.3.1

Имеются следующие данные о заработной плате 12 сотрудников фирмы y

(тыс. руб.) в зависимости от их стажа работы x (лет).

62

№ п/п

y

x

z

 

 

 

 

1

35

20

1

 

 

 

 

2

15

19

0

 

 

 

 

3

28

18

1

 

 

 

 

4

16

16

0

 

 

 

 

5

24

10

1

 

 

 

 

6

24

8

1

 

 

 

 

№ п/п

y

x

z

7

 

 

 

16

7

0

8

 

 

 

18

8

0

9

 

 

 

20

6

1

10

 

 

 

15

5

1

11

 

 

 

10

4

0

12

 

 

 

11

6

0

 

 

 

 

Есть основание полагать, что на размер заработной платы влияет не только стаж работы, но и фактор наличия (z=1) или отсутствия (z=0) высшего образования.

Требуется построить уравнение парной регрессии y от x, а также уравнение множественной регрессии с использованием фиктивной переменной для фактора “образование”. Для каждого уравнения регрессии рассчитать выборочный коэффициент детерминации и проверить его значимость. Оценить статистическую значимость параметра регрессии при фиктивной переменной.

Решение. Результат оценивания парной регрессии y от x с использованием функции ЛИНЕЙН MS Excel:

yˆ =11,711 + 0,720224 x,

R 2

= 0,344 ,

F=5,25.

(3,77)

(0,314)

 

 

 

Под коэффициентами в скобках указаны их стандартные отклонения. Величина коэффициента детерминации показывает, что лишь 34,4 %

вариации зависимой переменной объясняется факторной переменной. Спецификация модели с фиктивной переменной z, учитывающей наличие

высшего образования, имеет вид:

yˆ = a0 + a1 x + d z + u .

Величина d имеет смысл среднего изменения зарплаты при переходе из одной категории (без высшего образования) в другую (с высшим образованием).

63

Оцененная модель принимает вид:

yˆ = 7,97 + 0,636

x + 9,26

z,

R 2

= 0,78 ,

F=35,45.

(2,46)

(0,19)

(2,19)

 

 

 

 

 

При уровне значимости α = 0,05 Fкр=F(0,05; k1=m=2; k2=n-m-1=9)=4,26.

Поскольку F>Fкр, то коэффициент детерминации признается статистически значимым.

Для проверки гипотезы о несущественном различии в зарплате между

категориями H0: d=0 вычислим t-статистику td =

d

=

9,26

= 4,23 . Значение

sd

2,19

 

 

 

критической точки найдем с помощью функции СТЬЮДРАСПОБР: tкр =tкр(α = 0,05; k = n 2 =10)= 2,23.

Поскольку td = 4,23 > tкр = 2,23 , то нулевая гипотеза отвергается и наличие высшего образования оказывает существенное влияние на уровень зарплаты сотрудника фирмы.

Из оцененного уравнения регрессии можно получить частные уравнения регрессии, для каждой из категорий сотрудников:

при z=0 yˆ1 = 7,97 + 0,636 x (для сотрудников без высшего образования);

при z=1 yˆ 2 =17,23 + 0,636 x (для сотрудников с высшим образованием).

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

1.При каких условиях строится уравнение множественной регрессии с фиктивными переменными?

2.Что представляет собой фиктивная переменная?

3.Каков смысл значения параметра модели при фиктивной переменной?

4.Сколько фиктивных переменных следует ввести в спецификацию модели, если качественная переменная имеет k альтернативных значений?

64

2.4. Нелинейные модели регрессии

Изучаемые вопросы:

виды нелинейных моделей;

показатели качества нелинейной регрессии;

производственные функции.

После проработки теоретического материала следует ответить на контрольные вопросы, приведенные в конце темы. Затем следует выполнить практическую работу № 3 в соответствии со своим вариантом, ознакомившись предварительно с приведенным решением контрольного примера.

Виды нелинейных моделей

Наиболее привлекательными с точки зрения простоты построения и экономической интерпретации являются линейные регрессионные модели. Однако для некоторых зависимостей представление их в линейной форме приводит к большим ошибкам. В этом случае при моделировании используют нелинейные регрессионные функции.

Различают два класса нелинейных моделей: модели, нелинейные по факторным переменным (но линейные по оцениваемым параметрам), и

модели, нелинейные по оцениваемым параметрам.

К моделям регрессии, нелинейным по факторным переменным, относятся,

например,

полиномиальная y = a

0

+ a x + a

2

x2

... + a

m

xm + u , гиперболическая

 

 

 

 

 

 

 

 

 

 

1

 

 

 

y = a0 +

a1

+

a2

+... +

am

+ u .

 

 

 

 

 

 

 

 

x1

x2

 

 

 

 

 

 

 

 

 

 

 

 

 

xm

 

 

 

 

 

 

 

 

 

К моделям регрессии, нелинейным по параметрам, относятся:

степенная

y = a

0

xa1

xa2

... xam u ,

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

m

 

 

 

 

 

показательная y = a

a x1

a x2

... a xm

u ,

 

 

 

 

 

 

 

 

 

 

 

0 1

2

m

 

 

 

 

 

экспоненциальная y = ea0 +a1x1+...+amxm u и другие.

Большинство нелинейных моделей можно в результате математических преобразований (путем перехода к новым переменным или посредством

65

логарифмирования) привести к линейному виду. Параметры таких моделей оцениваются на основе метода наименьших квадратов, который применяется не к исходным, а к преобразованным данным.

Показатели качества нелинейной регрессии

Показатель корреляции оценивает тесноту связи всего набора факторов с результативным признаком. Для нелинейных моделей регрессии показатель корреляции называется индексом множественной корреляции и рассчитывается по формуле

 

 

 

 

 

n

ˆ

 

 

n

 

 

 

 

 

2

 

 

(yi

2

 

 

2

 

 

 

S

 

 

yi )

 

 

ei

 

 

R = 1

 

=

1

i=1

 

 

= 1

i=1

 

,

(2.4.1)

S y2

n (yi y)2

n (yi y)2

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

i=1

 

 

 

где S 2 , S y2 – остаточная и общая дисперсии результативной переменной.

Значение индекса множественной корреляции лежит в пределах от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

Качество построенной модели в целом оценивает индекс детерминации.

Индекс множественной детерминации рассчитывается как квадрат индекса множественной корреляции: R2 .

Значимость уравнения множественной регрессии в целом оценивается с помощью F-критерия Фишера аналогично случаю линейной регрессии.

Качество построенной модели определяет также средняя ошибка аппроксимации – средняя арифметическая относительных отклонений по каждому наблюдению, которая рассчитывается по следующей формуле:

 

 

1

 

 

yi

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

A =

 

 

 

 

 

 

100 % .

(2.4.2)

 

 

yi

 

 

 

n i=1

 

 

 

 

 

 

Чем меньше рассеяние эмпирических точек вокруг теоретической линии регрессии, тем меньше средняя ошибка аппроксимации. Для того чтобы модель

66

можно было считать адекватной реальным данным, средняя ошибка аппроксимации не должна превышать 10-12 %.

Эластичностью экономического показателя называется его способность реагировать в большей или меньшей степени на изменение другого показателя. Показателем силы связи факторной переменной x и результативной переменной y является коэффициент эластичности, который рассчитывается как относительное изменение y на единицу относительного изменения x :

E = dyy : dxx = dydx xy .

Только для степенной функции ( y = a xb ) коэффициент эластичности представляет собой постоянную, не зависящую от x величину, равную параметру b. Поскольку для других функций коэффициент эластичности

зависит от

 

x , то обычно

 

рассчитывают средние и точечные коэффициенты

эластичности.

 

 

 

 

 

 

 

 

 

 

 

Средний коэффициент эластичности рассчитывается для среднего

 

 

 

 

 

: E(

 

 

)=

dy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

значения

x

 

 

 

 

, точечный – для конкретного значения x = x0 :

x

 

 

 

 

 

 

 

 

 

 

dx

y(x)

 

 

 

 

 

 

 

 

 

 

 

 

E(x0 )=

dy

 

 

 

x0

 

.

 

 

 

 

 

 

 

 

 

dx

 

y(x0 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При рассмотрении множественной регрессии вводится понятие частной эластичности. Частные коэффициенты эластичности рассчитываются по формуле

E j =

y

 

x j

 

 

 

 

 

 

 

 

,

j =1, m .

(2.4.3)

x j

 

 

 

 

 

y

 

 

 

 

 

 

 

 

 

Частный коэффициент эластичности показывает, на сколько процентов в

среднем изменяется результативный признак y

при увеличении факторного

признака x j на 1 % от своего среднего уровня при фиксированном положении других факторов модели.

x1,..., xm

67

Производственные функции

Нелинейные регрессии широко используются при эконометрическом анализе производства. Производственная функция – это функция, независимые

переменные которой принимают значения объемов используемых

ресурсов (число переменных m равно числу ресурсов), а зависимая переменная – значения объемов выпускаемой продукции. Конкретное толкование переменных, выбор единиц их измерения, число включенных факторов зависят от характера производственной системы.

Рассмотрим в качестве примера производственную двухфакторную функцию Кобба-Дугласа, которая записывается в следующем виде, часто

используемом в литературе:

 

Y = AK α Lβ u ,

(2.4.4)

где Y – объем выпуска, K – затраты капитала, L – затраты труда,

A, α,

β – параметры функции, причем A > 0, 0 <α <1, 0 < β <1.

 

Для производственной функции Кобба-Дугласа эластичность выпуска продукции по капиталу и труду равна соответственно α и β . Действительно,

частный коэффициент эластичности по факторной переменной K :

EK (Y )=

Y

 

 

K

=αAK α1Lβ

K

 

=α ;

 

K

 

 

AK α Lβ

 

 

 

 

Y

 

 

 

частный коэффициент эластичности по факторной переменной L:

 

EL (Y )= Y

 

L

= βAK α Lβ1

 

L

= β .

(2.4.5)

 

 

 

 

L

Y

AK α Lβ

 

 

Это означает, что увеличение затрат капитала на 1 % приведет к росту выпуска продукции на α %, а увеличение затрат труда на 1 % приведет к росту выпуска на β %.

Линеаризация модели достигается путем логарифмирования обеих частей

равенства (2.4.4):

 

ln Y = ln A +α ln K + β ln L + ln u .

(2.4.6)

68

 

После замен переменных

 

lnY = y , ln A = b0 , ln K = x1, ln L = x2 , ln u = e

(2.4.7)

соотношение (2.4.6) примет вид

 

y = b0 +α x1 + β x2 + e .

(2.4.8)

Для определения неизвестных коэффициентов b0 , α, β можно применить МНК. Заметим, что в данном случае минимизируется сумма квадратов отклонений логарифмов:

Q = (ln Y ln Y))2 min .

Поскольку при логарифмировании правой части меняются свойства ошибок, для простоты будем считать, что ошибки ln u обладают свойствами, необходимыми для оценивания линейной регрессионной модели.

ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ

1.Перечислите основные математические функции, используемые в качестве моделей регрессии.

2.Как регрессия нелинейная по факторным переменным может быть приведена к линейному виду?

3.Как регрессия нелинейная по параметрам может быть приведена к линейному виду?

4.Поясните экономический смысл коэффициента эластичности.