Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика.pdf
Скачиваний:
111
Добавлен:
28.02.2016
Размер:
1.4 Mб
Скачать

При du < DW < 4 – du гипотеза об отсутствии автокорреляции остатков принимается.

Если d1 < DW < du или 4 – du < DW < 4 – d1, то гипотеза об отсутствии автокорреляции не может быть ни принята, ни отклонена.

Тема 4. Модели парной нелинейной регрессии

Различают два класса нелинейных регрессий:

регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;

регрессии, нелинейные по оцениваемым параметрам.

Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции:

полиномы разных степеней: y = a + bx + cx2 + ε, y = a + b х + с х2 + d х3 + ε;

равносторонняя гипербола: у = а + bx + ε.

К нелинейным регрессиям по оцениваемым параметрам относятся функции:

степенная: у = а хb ε;

показательная: у = а bxε;

экспоненциальная: у = еa+bx ε.

Нелинейность по переменным устраняется путем замены переменной. Например, нелинейное уравнение y =a+b 1x +ε после замены переменной z = 1x

становится линейным: y = a +b z +ε .

Нелинейность по параметру часто устраняется путем логарифмического преобразования уравнения. Например, следующие нелинейные уравнения после логарифмирования сводятся к линейным:

степенная функция y = a хbε после логарифмирования становится ли-

нейной: ln y = ln a + b ln x + ln ε ;

экспоненциальная функция y = a ebxε после логарифмирования становится линейной: ln y =lna+b x +lnε.

В экономике функции вида y = a хbε применяются при моделировании кривых спроса, а вида y = a ebxε – при моделировании временных рядов.

4.1. Нелинейные однофакторные регрессионные модели. Линеаризация

Как было сказано выше, если факторный признак увеличивается в арифметической прогрессии, а результирующий значительно быстрее, то целесообразно использовать однофакторную параболическую модель второй степени – параболическую регрессию. В этом случае уравнение регрессии будет иметь вид:

Yx = a0 + a1x + a2 x2

(4.1)

В данном случае задача сводится к определению неизвестных параметров:

а0, а1, а2 .

Значения величин х и Y представлены двумя рядами данных:

Y1, Y2, Y3, ..., Yn,

х1, х2, х3, ..., хл.

32

Если бы все значения, полученные по данным наблюдения, лежали строго на кривой, описываемой уравнением параболы, то для каждой из точек было бы справедливо равенство:

Yi a0 a1x1i a2 x2i =0

(4.2)

Однако на практике получается другое:

 

Yi a0 a1x1i a2 x22i =∆i ,

(4.3)

где ∆i – разность между данными наблюдения и данными, полученными по уравнению связи.

Эта разность появляется в силу наличия ошибок в результатах опыта, поэтому возникает проблема нахождения таких коэффициентов регрессии, при которых ошибка была бы минимальной. Можно минимизировать сумму абсолютных отклонений (ошибок):

n

 

S = i min,

(4.4)

i=1

или минимизировать сумму кубических ошибок, получив сумму наименьших кубов:

n

 

S =

3i

min,

(4.5)

i=1

 

 

 

или, наконец, минимизировать наибольшую абсолютную ошибку:

min maxi

 

i

 

(4.6)

 

 

Однако наиболее оптимальным вариантом является оценка ошибки по методу наименьших квадратов:

n

 

S = 2i min

(4.7)

i=1

Метод наименьших квадратов обладает тем замечательным свойством, что делает число нормальных уравнений равным числу неизвестных коэффициентов. Приведенное уравнение параболы второго порядка имеет три неизвестных

коэффициента: α0, α1, α2.

Следовательно, применяя метод наименьших квадратов, мы получим уравнение:

n

n

 

S = 2i

= (Yi a0 a1 x a2 x2 )2 min

(4.8)

i=1

i=1

 

Для нахождения значений неизвестных коэффициентов а0, о1, а2, при которых функция S (α0, α1, α2) была бы минимальной, необходимо приравнять частные производные по этим величинам к нулю:

dS

 

= −2(Y a

0

a x a

2

x 2 ) = 0;

 

 

 

 

da 0

1

 

 

 

 

 

 

 

dS

 

= −2(Y a0 a1 x a2 x 2 ) x = 0; (4.9)

 

da1

 

 

 

 

 

dS

= −2(Y a

0

a x a

2

x 2 ) x 2

= 0.

 

 

 

 

 

1

 

 

da 2

Проведя соответствующие преобразования, получим систему нормальных уравнений:

33

na0 +a1 x +a2 x2 = Y;

 

a0 x +a1 x2 +a2 x3 = Yx;

(4.10)

a0 x2 +a1 x3 +a2 x4 = Yx2

 

Решив систему, найдем значения неизвестных коэффициентов:

а0 = а0 ;а1 = а1 ;а2 = а2 ,

где определитель системы; а0 ,а1 ,а2 частные определители системы.

Получили уравнение регрессии. Вычислим по уравнению регрессии теоретические значения Yx и сравним с данными наблюдения, т.е. рассчитаем так называемую остаточную сумму квадратов, которая совпадает с минимальной возможной величиной по методу наименьших квадратов.

Пример 1. По семи территориям Волжского региона за 2002 г. известны значения двух признаков (табл. 2.2.4).

 

 

Таблица 2.2.4

Зависимость расходов от среднедневной заработной платы

 

 

 

 

Расходы на покупку

Среднедневная заработная

Район

продовольственных товаров в

плата одного работающего,

 

общих расходах, %, у

руб., х

 

 

 

Нижегородская обл.

68,8

45,1

 

 

 

Кировская обл.

61,2

59,0

 

 

 

Владимирская обл.

59,9

57,2

 

 

 

Ивановская обл.

56,7

61,8

 

 

 

Самарская обл.

55,0

58,8

 

 

 

Ярославская обл.

54,3

47,2

 

 

 

Саратовская обл.

49,3

55,2

 

 

 

Требуется:

1.Для характеристики зависимости у от х рассчитать параметры следующих функций:

а) линейной; б) степенной;

в) показательной; г) равносторонней гиперболы.

2.Оценить каждую модель через среднюю ошибку аппроксимации Ā и F- критерия Фишера.

Решение:

1а) для расчета параметров а0 и а1 линейной регрессии y = a0+ а1 × x решаем систему нормальных уравнений относительно а0 и а1:

34

 

 

 

n ×a0

+а

1 x = y

 

 

 

 

 

 

 

 

 

 

 

 

 

a0

x +а

1 x2 = y ×x

 

 

 

 

 

 

 

 

По исходным данным рассчитываем: y,x,y x,x2 ,y2 (табл. 2.2.5).

 

 

 

Расчет параметров уравнения регрессии

Таблица 2.2.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

x

 

 

 

yx

 

 

 

 

x2

 

 

y2

 

 

 

 

ŷx

y-ŷx

 

Ai

1

68,8

45,1

 

 

3102,88

 

 

2034,01

4733,44

 

 

 

61,3

7,5

 

10,9

2

61,2

59,0

 

 

3610,80

 

 

3481,00

3745,44

 

 

 

56,5

4,7

 

7,7

3

59,9

57,2

 

 

3426,28

 

 

3271,84

3588,01

 

 

 

57,1

2,8

 

4,7

4

56,7

61,8

 

 

3504,06

 

 

3819,24

3214,89

 

 

 

55,5

1,2

 

2,1

5

55,0

58,8

 

 

3234,00

 

 

3457,44

3025,00

 

 

 

56,5

-1,5

 

2,7

6

54,3

47,2

 

 

2562,96

 

 

2227,84

2948,49

 

 

 

60,5

-6,2

 

11,4

7

49,3

55,2

 

 

2721,36

 

 

3047,04

2430,49

 

 

 

57,8

-8,5

 

17,2

Итого

405,2

384,4

 

 

22162,34

 

 

21338,41

23685,76

 

 

 

405,2

0,0

 

56,7

значениеСреднее

57,89

54,90

 

 

3166,05

 

 

3048,34

3383,68

 

 

 

x

x

 

8,1

σ

5,74

5,86

 

 

 

х

 

 

 

 

х

 

 

х

 

 

 

 

 

х

х

 

х

σ2

32,92

34,34

 

 

 

х

 

 

 

 

х

 

 

х

 

 

 

 

 

х

х

 

х

 

 

 

 

 

 

n xi y i xi y i

 

 

 

 

 

 

 

 

 

 

 

 

r =

 

 

 

 

i

 

 

 

i

 

i

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

x 2

(

 

x

 

 

 

 

y 2

(

 

y

 

) 2

 

 

 

 

 

 

n

 

) 2

n

 

 

 

 

 

 

 

 

i

 

 

i

 

 

i

 

 

i

 

 

 

 

 

 

 

 

 

i

 

 

i

 

 

 

 

i

 

 

i

 

 

 

 

 

 

 

 

Уравнение регрессии: ŷ = 76,88 - 0,35 × х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35%.

Рассчитаем линейный коэффициент парной корреляции:

rxy = а1 σx = −0,35× 5,86 = −0,357 σy 5,74

Связь умеренная, обратная. Определим коэффициент детерминации: rxy2 =(0,35)2 =0,127

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим тео-

ретические (расчетные) значения ŷх. Найдем величину средней ошибки аппроксимации А:

А =

1

Ai =

1

 

y y)

 

×100% =

56,7 ×100%

= 8,1%

 

 

 

n

 

n

 

 

 

 

 

7

 

В среднем, расчетные значения отклоняются от фактических на 8,1%. Рассчитаем F-критерий:

Fфакт= 00,,127873 ×5 = 0,7 поскольку 1 ≤ F , следует рассмотреть F -1

35

Полученное значение указывает на необходимость принять гипотезу Н0 о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.

1б) для построения степенной модели y=a0·x а1 нужно провести линеаризацию переменных. Линеаризация производится путем логарифмирования обеих частей уравнения:

lg y = lg a + а1 × lg x;

Y=C+ а1× X,

где Y= lg y, X= lg x, C= lg a.

Для расчетов будем использовать данные из таблицы 2.2.6.

Таблица 2.2.6

Расчет параметров уравнения регрессии

 

Y

X

YX

Y2

X2

ŷx

y-ŷx

(y-ŷx)2

Ai

1

1,8376

1,6542

3,0398

3,3768

2,7364

61,0

7,8

60,8

11,3

2

1,7868

1,7709

3,1642

3,1927

3,1361

56,3

4,9

24,0

8,0

3

1,7774

1,7574

3,1236

3,1592

3,0885

56,8

3,1

9,6

5,2

4

1,7536

1,7910

3,1407

3,0751

3,2077

55,5

1,2

1,4

2,1

5

1,7404

1,7694

3,0795

3,0290

3,1308

56,3

-1,3

1,7

2,4

6

1,7348

1,6739

2,9039

3,0095

2,8019

60,2

-5,9

34,8

10,9

7

1,6928

1,7419

2,9487

2,8656

3,0342

57,4

-8,1

65,6

16,4

Итого

12,3234

12,1587

21,4003

21,7078

21,1355

403,5

1,7

197,9

56,3

Сред. знач.

1,7605

1,7370

3,0572

3,1011

3,0194

x

x

28,27

8,0

σ

0,0425

0,0484

х

х

х

х

х

х

х

σ2

0,0018

0,0023

х

х

х

х

х

х

х

Рассчитаем C и а1:

а1

=

Y ×X

Y

×

X

 

=

3,0572 1,7605×1,7370

= −0,2984;

σX2

0,04842

 

 

 

 

C = Y а1 ×X =1,7605 + 0,298×1,7370 = 2,278

Получим линейное уравнение: Ŷ = 2,278 – 0,298 × Х . Выполним его потенцирование, получим:

ŷ=102,278 × x -0,298 =189,7× x -0,298.

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата ŷx . По ним рассчитаем показатели тесноты связи (индекс корреляции ρху ) и среднюю ошибку аппроксимации Āi :

ρ

 

= 1

(y y)x )2

=

1

28,27

= 0,3758;

A = 8,0%.

 

xy

 

(y y)2

 

 

32,92

 

 

Характеристики степенной модели показывают, что она несколько лучше описывает взаимосвязь, чем линейная функция.

36

Задания 1в) и 1г) предлагается сделать самостоятельно, используя уравнение показательной функции y = a × bх и уравнение равносторонней гиперболы

y=a + b 1х .

Вопросы для самопроверки

1.Назовите основные причины наличия в регрессионной модели случайного отклонения.

2.Суть МНК состоит в:

а) минимизации суммы квадратов коэффициентов регрессии; б) минимизации суммы квадратов значений зависимой переменной;

в) минимизации суммы квадратов отклонений точек наблюдений от уравнения регрессии;

г) минимизации суммы квадратов отклонений точек эмпирического уравнения регрессии от точек теоретического уравнения регрессии.

3.Как вы считаете, если по одной и той же выборке рассчитаны регрессии Υ на Χ и Χ на Υ, то совпадут ли в этом случае линии регрессии?

4.Какое из следующих утверждений истинно, ложно, неопределенно? Почему? а) линейное уравнение регрессии является линейной функцией относитель-

но входящих в него переменных; б) коэффициент а1 эмпирического парного линейного уравнения регрессии

показывает процентное изменение зависимой переменной Υ при однопроцентном изменении Χ;

в) включение в уравнение незначимой объясняющей переменной не увеличивает коэффициент детерминации R2.

Задачи для самостоятельной работы

№1. Получены функции:

5. ya = b + cx2 + ε;

1.

y = a + bx3 + ε;

2.

y = a + b ln x + ε;

6. y = 1 + a(1 - xb) + ε;

3.

ln y = a + b ln x + ε;

7. y = a + b

х

+ ε.

 

4.

y = a + bxc + ε;

10

 

 

 

 

Определите, какие из этих функций линейны по переменным; линейны по параметрам; нелинейные ни по переменным, ни по параметрам.

№2. По территориям региона приводятся данные за один год (табл. 2.2.7):

Таблица 2.2.7

Средняя заработная плата и среднедушевой прожиточный минимум

Номер

Среднедушевой прожиточный минимум в день

Среднедневная зара-

региона

одного трудоспособного, руб., х

ботная плата, руб., у

 

 

 

1

78

133

2

82

148

3

87

134

4

79

154

5

89

162

37

6

106

195

7

67

139

8

88

158

9

73

152

10

87

162

11

76

159

12

115

173

Требуется:

1.Построить линейное уравнение парной регрессии у от х.

2.Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

3.Оценить статистическую значимость параметров регрессии и корреляции.

4.Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.

5.Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

№3. Имеется информация за 7 лет относительно среднего дохода и среднего потребления (млн. руб.) (табл. 2.2.8).

Таблица 2.2.8

Зависимость среднего потребления от среднего дохода

Годы

91

92

93

94

95

96

97

 

 

 

 

 

 

 

 

Доход (I)

14,56

15,70

16,30

18,50

20,34

21,70

23,50

 

 

 

 

 

 

 

 

Потребление (С)

12,00

12,70

13,00

15,50

16,70

17,30

20,00

 

 

 

 

 

 

 

 

1.Оцените коэффициенты линейной регрессии С = a + b× I + ε по МНК.

2.Проинтерпретируйте найденные коэффициенты.

3.Проверьте статистическую значимость коэффициентов при уровне значимости α = 0,05.

4.Рассчитайте 95%-е доверительные интервалы для теоретических коэффициентов регрессии.

5.Спрогнозируйте потребление при доходе I = 25,00, постройте доверительный интервал для данного прогноза.

№4. По 10 наблюдениям за СВ Х и Y получены следующие данные:

хi

=1700; yi =1100; xi yi = 204400;

xi2

= 316000; yi2 =135000.

Предполагая, что предпосылки МНК выполнены, рассчитайте:

1.Коэффициенты линейного уравнения регрессии.

2.Стандартные ошибки коэффициентов.

3.90 и 99%-е доверительные интервалы.

4.Коэффициент детерминации.

38

5. Можно ли на основе построенных доверительных интервалов принять гипотезу Н0: β1=0 ?

№5. Даны две регрессии, рассчитанные по 25-годовым наблюдениям: а) уt = - 30 + 0,18 хt t – расходы на оплату жилья, хt – доход );

б) уt = 50 + 4,5 t (уt – расходы на оплату жилья, t – время ).

Дайте экономическую интерпретацию построенных регрессий. Согласуются ли они друг с другом?

№6. По 15 регионам страны изучается зависимость уровня безработицы y

(%) от индекса потребительских цен х (% к предыдущему году). Информация о логарифмах исходных показателей представлена в табл. 2.2.9.

Таблица 2.2.9

Зависимость уровня безработицы от индекса потребительских цен

Показатель

ln x

ln y

 

 

 

Среднее значение

0,6

1,0

 

 

 

Среднее квадратическое отклонение

0,4

0,2

 

 

 

Известно также, что коэффициент корреляции между логарифмами исходных показателей составил rln x ln y = 0,8

Требуется:

1.Построить уравнение регрессии зависимости уровня безработицы от индекса потребительских цен в степенной форме.

2.Дать интерпретацию коэффициента эластичности данной модели регрессии.

3.Определить значение коэффициента детерминации и пояснить его смысл.

РАЗДЕЛ III. МОДЕЛИ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Тема 5. Множественная регрессия

5.1. Уравнения множественной регрессии

Значения экономических переменных определяются влиянием не одного, а нескольких факторов. Например, рассматривая уровень фондоотдачи на различных предприятиях одной отрасли, мы можем установить, что величина его зависит от размеров предприятия, удельного веса активной части фондов, степени изношенности фондов, их обновления и ряда других факторов; урожайность зависит от количества внесенных удобрений, сроков уборки, количества осадков; вес человека – от его роста, объема груди и т.п.

Таким образом, модель множественной регрессии – это модель зависимости результирующей переменной более чем от одной независимой переменной.

39

Выше была рассмотрена зависимость между двумя признаками, т.е. речь шла о так называемой парной корреляции. На практике же чаще изменение рассматриваемого признака зависит от нескольких причин. В таких случаях изучение корреляционной связи не может ограничиться парными зависимостями, и в анализ необходимо включить другие признаки-факторы, существенно влияющие на изучаемую зависимую переменную. Построение моделей множественной регрессии включает несколько этапов:

1)выбор формы связи (уравнения регрессии);

2)отбор факторных признаков;

3)обеспечение достаточного объема совокупности для получения несмещенных оценок.

Выбор формы связи затрудняется тем, что при использовании математического аппарата теоретически зависимость между признаками может быть выражена большим числом различных функций.

Выбор типа уравнения осложнен тем, что для любой формы зависимости существует целый ряд уравнений, которые в определенной степени будут описывать эти связи. Некоторые предпосылки для выбора определенного уравнения регрессии появляются на базе анализа предшествующих аналогичных исследований или на базе подобных работ в смежных отраслях знаний. Поскольку уравнение регрессии строится, главным образом, для объяснения и количественного выражения взаимосвязей, оно должно хорошо отражать фактические связи, сложившиеся между исследуемыми факторами.

Наиболее приемлемым способом определения вида исходного уравнения регрессии является метод перебора различных уравнений.

Сущность данного метода заключается в том, что большое число уравнений (моделей) регрессии, отобранных для описания связей какого-либо социальноэкономического явления или процесса, реализуется на ЭВМ с помощью специально разработанного алгоритма перебора с последующей статистической проверкой, главным образом, на основе t-критерия Стьюдента и F-критерия Фишера. Способ перебора является достаточно трудоемким и связан с большим объемом вычислительных работ.

Практика построения многофакторных моделей взаимосвязи показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей:

1)линейная: Y1,2,...,k = a 0 + a1x1 + a 2 x 2 +... + a k x k ;

2)степенная: Y1,2,...,k = a0 x1a1 ×xa22 ×K×xakk ;

3)

показательная: Y1,2,..., k

= e a 0 + a1 x1 + a 2 x 2 +K + a k x k ;

4)

параболическая: Y1,2,...,k = a0 + a1 x12 + a2 x22 +K+ ak xk2 ;

5)

гиперболическая: Y1,2,...,k

= a0 +

a1

+

a2

+L+

ak

.

x1

x2

 

 

 

 

 

 

xk

40

Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации. Нелинейные формы зависимости приводятся к линейным путем линеаризации.

Аналитическая форма выражения связи результативного признака и ряда факторных признаков называется многофакторной моделью регрессии, или моделью связи.

Уравнение линейной множественной модели имеет вид:

Y1,2,...,k = a 0 + a1x1 + a 2 x 2 +... + a k x k ,

(5.1)

где Y1,2,...,k – теоретические значения результативного признака, полученные под-

становкой соответствующих значений факторных признаков в уравнение регрессии;

x1 ,x2...,xk факторные признаки;

a1, a2, ..., ak параметры модели (коэффициенты регрессии).

Параметры уравнения могут быть определены методом наименьших квадратов, который минимизирует выражение:

k

 

S =(Y a0 a1x1 a2 x2 −K−ak xk )2 min

(5.2)

i=1

Изучение связи между тремя и более связанными между собой признаками проводят методами множественной (многофакторной) регрессии. При исследовании зависимостей методами множественной регрессии задача формулируется так же, как и при использовании парной регрессии, т.е. требуется определить аналитическое выражение связи между результативным признаком Y и факторными признаками x1,x2,...,Xk , найти функцию:

Y1,2,K,k = f (x1, x2 ,K, xk )

(5.3)

Рассчитав параметры уравнения множественной зависимости, определим

множественный коэффициент корреляции, являющийся характеристикой тесноты связи между результативным и несколькими факторными признаками, по формуле:

R =

1

σост2

,

(5.4)

 

 

σ2

 

 

где σ2– общая дисперсия фактических данных результативного признака (дисперсия Y);

σост2 остаточная дисперсия, характеризующая вариацию Y за счет факто-

ров, не включенных в уравнение регрессии.

Множественный коэффициент корреляции может принимать значения в пределах от 0 до 1 и по определению положителен, т.е.: 0 R 1. Приближение R к единице свидетельствует о сильной зависимости между признаками. Если R 0,3 , то можно утверждать, что не все важнейшие факторы взаимосвязи учтены или выбрана неподходящая форма уравнения.

41

r0 m ,1,2,..., m 1

Для решения поставленной задачи определяют так называемые коэффициенты частной корреляции, которые являются характеристиками тесноты связи между двумя признаками при фиксированном значении остальных факторных признаков. Для расчета частных коэффициентов корреляции могут быть использованы парные коэффициенты корреляции.

Для случая зависимости Y от двух признаков можно будет вычислить два коэффициента частной корреляции:

1) частный коэффициент корреляции r01,2 между результативным признаком Y и фактором x1 при исключении фактора х2 показывает, какую часть разброса Y, вызванного фактором x1, составляет в разбросе Y под действием всех факторов, кроме фактора х2:

r01,2

= r10 r20 ×r12

 

;

(5.5)

 

(1

r2

)(1

r

2

)

 

 

 

12

 

20

 

 

2) частный коэффициент корреляции r02,1 характеризует зависимость результативного признака Y от фактора х2 при исключении влияния фактора x1:

r02,1

= r20 r10 ×r12

 

.

(5.6)

 

(1

r2

)(1

r

2

)

 

 

 

10

 

12

 

 

Для общего случая частные коэффициенты корреляции можно определить таким образом:

 

r0m,1,2,...,m1 =

R m2 R m2

1 ,

(5.7)

 

 

1R m2

 

 

где Rm2

коэффициент детерминации результативного признака Y с комплексом

признаков x1, x2, ..., xm-1 , xm;

 

 

 

Rm2

1 – коэффициент детерминации результативного признака Y с комплек-

сом признаков x1, x2, ..., xm-1;

– частный коэффициент корреляции Y с факторным признаком

хт при исключении влияния факторных признаков x1, x2, ..., xm-1.

Значения парного и частного коэффициентов отличаются друг от друга, так как парный коэффициент характеризует связь между двумя признаками без учета влияния других признаков, а частный – учитывает наличие и влияние других факторов.

Построение многофакторных регрессионных моделей позволяет дать количественное описание основных закономерностей изучаемых явлений, выделить существенные факторы, обусловливающие изменение экономических показателей и оценить их влияние.

Полученные модели, в основном, используются в двух направлениях: для сравнительного анализа и в прогнозировании. Например, для выявления внутриотраслевых резервов повышения эффективности производства рассчитывается уравнение множественной регрессии, рассматриваемое в качестве экономикостатистической модели анализируемого показателя эффективности и характеризующее основные закономерности в формировании этого показателя для совокупности предприятий отрасли. На основе такого уравнения можно проанализи-

42

ровать и сравнить влияние каждого фактора на повышение эффективности в среднем по отрасли.

Построенные регрессионные модели можно использовать не только для анализа экономических явлений и процессов, но и для прогнозирования основанных на экстраполяции заданных признаков. Однако следует помнить, что при практическом использовании уравнений регрессии экстраполяция допускается только тогда, когда существенно не изменяются условия формирования уровней признаков, которые лежали в основе определения параметров уравнения регрессии. В противном случае использование уравнений для составления прогнозов должно быть отвергнуто. Необходим новый эмпирический материал, который отразит взаимосвязь между признаками в новых условиях с определенными качественными сдвигами.

Выше было сказано, что для использования регрессионной модели с целью прогнозирования необходимы ее адекватность по F-критерию Фишера, значимость коэффициентов регрессии и отсутствие превышения относительной ошибки аппроксимации более чем на 12-15%.

Экстраполяция дает возможность получить точечное значение прогноза. Точное совпадение фактических данных и прогностических точечных оценок, полученных путем экстраполяции кривых, характеризующих тенденцию, имеет малую вероятность. Возникновение таких отклонений объясняется следующими причинами:

1.Выбранная для прогнозирования кривая не является единственно возможной для описания тенденции. Можно подобрать такую кривую, которая дает более точный результат.

2.Составление прогноза осуществляется на основании ограниченного числа исходных данных. Кроме того, каждый исходный уровень обладает еще случайной компонентой. Поэтому и кривая, по которой осуществляется экстраполяция, будет содержать случайную компоненту.

Любой статистический прогноз носит приближенный характер, поэтому целесообразно определение доверительных интервалов прогноза.

Алгоритм определения величины доверительного интервала рассмотрим на примере.

Проведем прогноз результирующего фактора по заданному линейному уравнению множественной регрессии:

Yx1 , x2 = 81,03 0,41 x1 + 3,37 x2 ,

где Yx1 , x2 – дневная выработка рабочего;

x1 – квалификационный разряд рабочего;

x2 – продолжительность внутрисменных простоев.

Для этого определим дневную выработку рабочего, имеющего 6-й разряд, при увеличении внутрисменных простоев до 25 мин.:

Y25,6 = 81,03 0,41×25 +3,37 ×6 = 81,03 10,25 + 20,22 = 91,0 шт.

Величина доверительного интервала определяется соотношением:

91,0 ± 2,11×5,66 = 91,0 ±11,94.

43

Здесь величины 2,11 и 5,66 определяют соответственно табличное значение t-критерия Стьюдента при 5%-ном уровне значимости и 17 степенях свободы и среднее квадратическое отклонение σY.

Таким образом, прогнозное значение будет находиться в интервале:

79,09 у 102,94.

5.2. Проверка общего качества уравнения регрессии

После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации R2, который в общем случае рассчитывается по формуле:

R2

 

e2

 

=1

 

i

(5.8)

(y

y)2

i

Как отмечалось, в общем случае 0 < R2 < 1. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Поэтому естественно желание построить регрессию с наибольшим R2.

Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2. Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. Это уменьшает (в худшем случае не увеличивает) область неопределенности в поведении Y.

Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы. Вводится так называемый скор-

ректированный (исправленный) коэффициент детерминации:

 

 

 

 

e2

(n m 1)

 

R 2

 

 

=1

 

i

 

 

(5.9)

(y y)2

(n 1)

Можно заметить, что(yi y )2

i

 

 

 

(n 1) является несмещенной оценкой об-

щей дисперсии – дисперсии отклонений значений переменной Y от y . При

этом число ее степеней свободы равно (п – 1). Одна степень свободы теряется при вычислении y .

В свою очередь, ei2 (n m 1) является несмещенной оценкой остаточной

дисперсии – дисперсии случайных отклонений (отклонений точек наблюдений от линии регрессии). Ее число степеней свободы равно (п-m-1). Потеря (т + 1) степени свободы связана с необходимостью решения системы (т + 1) линейного уравнения при определении коэффициентов эмпирического уравнения регрессии. Попутно заметим, что несмещенная оценка объясненной дисперсии (дисперсии отклонений точек на линии регрессии от y ) имеет число степеней свободы,

44

равное разности степеней свободы общей дисперсии и остаточной дисперсии

(п - 1) - (n - т -1) = т.

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии.

Так, для уравнения y =a+b1 x1 +b2x2 +K+bk xk +ε система нормальных уравнений составит:

y = n a +b1 x1 +b2 x2 +K+bk xk ,

 

x1

= a x1 +b1 x12 +b2 x2 x1 +K+bk xk x1

y

 

 

 

KK

 

 

y xk = a xk +b1 x1 xk +b2 x2 xk +K+bk xk2

Ее решение может быть осуществлено методом определителей:

 

a =

a ,b =

b1

,L,b =

bk

,

 

 

 

 

 

 

a

1

b1

k

 

bk

 

 

 

 

 

где – определитель системы;

 

 

 

 

 

 

 

 

 

a,b1,K,bk – частные определители.

 

 

 

 

 

 

При этом

 

x1

x2

 

K xk

 

 

 

n

 

 

 

 

 

 

 

 

 

x1

 

x12

x2 x1

 

K xk x1

 

 

∆ =

x2

x1 x2

x22

 

K xk x2

 

,

 

K

 

K

 

K

 

K K

 

 

 

xk

x1 xk

x2 xk

 

K xk2

 

 

a,b1,K,bk получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

5.3. Мультиколлинеарность

Сложность и взаимное переплетение отдельных факторов, обусловливающих исследуемое экономическое явление (процесс), могут проявляться в так называемой мультиколлинеарности, под которой понимается тесная связь факторов между собой в экономических процессах, описываемых многофакторными зависимостями.

Мультиколлинеарность – явление, при котором нестрогая линейная зависимость между результирующей и объясняющими переменными в модели множественной регрессии может привести к получению недостаточно надежных оценок регрессии. Нестрогая линейная зависимость между переменными имеет место, если теоретический коэффициент корреляции ρ близок к 1 или -1. Мультиколлинеарность в модели множественной регрессии проявляется в различной степени. Если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайной величины мала, то оценки регрессии мо-

45

гут быть надежными. Если две и более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелировать (зависеть), что приведет к мультиколлинеарности.

Наличие мультиколлинеарности между признаками приводит к: а) слабой обусловленности системы нормальных уравнений;

б) искажению величины параметров модели, которые имеют тенденцию к завышению;

в) изменению смысла экономической интерпретации коэффициентов регрессии;

г) осложнению процессов определения наиболее существенных факторных признаков.

В решении проблемы мультиколлинеарности можно выделить несколько этапов:

а) установление наличия мультиколлинеарности; б) определение причин возникновения мультиколлинеарности; в) разработка мер по ее устранению.

Причинами возникновения мультиколлинеарности между признаками являются:

а) ситуации, когда изучаемые факторные признаки характеризуют одну и ту же сторону явления или процесса. Например, не рекомендуется включать одновременно в модель показатели объема производимой продукции и среднегодовой стоимости основных фондов, так как они оба характеризуют размер предприятия; б) использование в качестве факторных признаков таких показателей, сум-

марное значение которых представляет собой почти постоянную величину; в) факторные признаки, являющиеся составными элементами друг друга;

г) факторные признаки, по экономическому смыслу дублирующие друг друга.

5.4. Выбор уравнения множественной регрессии

При моделировании реального объекта мы не можем быть абсолютно уверены, что уравнение специфицировано, верно. Т.е. в уравнение регрессии могут быть включены переменные, которых там не должно быть (лишние переменные), и не включены другие переменные, которые в нем должны присутствовать. Выбор необходимых для регрессии переменных и отбрасывание лишних – это спецификация переменных. Одним из методов спецификации переменных является включение максимально возможных, с точки зрения здравого смысла, объясняющих переменных с последующим их исключением из уравнения регрессии, при помощи тестов Стьюдента или Фишера. Проверка адекватности моделей, построенных на основе уравнения регрессии, начинается с проверки значимости каждого коэффициента регрессии.

Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента:

46

tp =

ai

,

(5.10)

 

σ2

 

 

 

ai

 

где σ a2i – дисперсия коэффициента регрессии.

Параметр модели признается статистически значимым, если

t p > t кр (α; v = n k 1),

(5.11)

где а – уровень значимости критерия проверки гипотезы о равенстве нулю параметров, измеряющих связь. Статистическая существенность связи утверждается при исключении нулевой гипотезы об отсутствии связи;

v =nk 1 – число степеней свободы, которое характеризует число свободно варьирующих элементов совокупности;

k – число факторных признаков в уравнении; n – число наблюдений (объем выборки).

Наиболее сложным в этом выражении является определение дисперсии, которая может быть рассчитана двояким способом.

Наиболее простой способ, выработанный методикой экспериментирования, заключается в том, что величина дисперсии коэффициента регрессии может быть приближенно определена по выражению:

2

=

σ 2

,

 

Y

(5.12)

σa1

k

 

 

 

 

где σY2 – дисперсия результативного признака.

Более точную оценку величины дисперсии можно получить по формуле:

σai =

σ

Y

1 R 2

 

σ xi

n

,

(5.13)

 

 

1 Ri

 

где Ri величина множественного коэффициента корреляции по фактору хi с ос-

тальными факторами.

Проверка адекватности всей модели осуществляется с помощью расчета F- критерия Фишера и величины средней ошибки аппроксимации.

Значение F-критерия определяется по следующей формуле:

 

Fрасч. =

σ 2

(n k)

 

 

 

Y

 

 

 

 

(5.14)

 

σ

2

 

 

 

 

 

 

 

 

ост(k 1)

 

 

 

 

 

 

 

 

 

2

=

(Yi Y

)2

(5.15)

Дисперсия регрессии: σY

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

– характеристика отклонения расчетных значений результативного призна-

ка от его среднего значения;

 

 

(Yi

 

 

 

 

 

 

 

 

 

 

 

)2

 

Остаточная дисперсия: σ

2

=

Yi

(5.16)

ост

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

47

– характеристика отклонения фактических значений результативного показателя от расчетных, полученных с помощью уравнения регрессии;

Yi – экспериментальные (фактические) значения признаков; Y среднее значение;

Yi теоретические значения признаков, полученных по уравнению регрессии.

Величина Fрасч должна быть больше Fтабл при степенях свободы v1 =(k 1) и v2 =(n k). Величина Fтабл определяется по таблице Фишера-Снедекора (F-рас-

пределение) на основании величины α = 0,05 или α = 0,01. При оценке значимости коэффициентов регрессии с помощью критерия используются завершения отбора существенных факторов в процессе многошагового регрессионного анализа. Он заключается в том, что после оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее значение критерия. Затем уравнение регрессии строится без исключенного фактора, и снова проводится оценка адекватности уравнения и значимости коэффициентов регрессии. Такой процесс длится до тех пор, пока все коэффициенты регрессии не окажутся значимыми, что свидетельствует о наличии в регрессионной модели только существенных факторов. В некоторых случаях расчетное значение tрасч находится вблизи tтабл, поэтому с точки зрения содержательности модели такой фактор можно оставить для последующей проверки его значимости в сочетании с другим набором факторов.

Последовательный отсев несущественных факторов рассмотренным выше приемом (или последовательным включением новых факторов) составляет основу многошагового регрессионного анализа.

Таким образом, при выборе лучшей регрессионной модели следует руководствоваться тремя принципами:

1)коэффициенты регрессии должны быть статистически значимы (удовлетворять t-критерию Стьюдента);

2)модель должна быть адекватна по F-критерию Фишера;

3)выбранная математическая функция должна иметь минимальную ошибку аппроксимации среди всех рассматриваемых уравнений регрессии.

При этом возможны следующие варианты:

1. Построенная модель на основе ее проверки по F-критерию Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов.

2. Модель по F-критерию Фишера адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для составления прогнозов.

3. Модель по F-критерию Фишера адекватна, но все коэффициенты регрессии незначимы. Поэтому модель полностью считается неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.

Спецификация переменных модели окажет влияние на свойства оценок коэффициентов регрессии, например:

если в модели отсутствуют необходимые переменные, то оценки коэффициентов регрессии могут быть смещенными;

48