Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

черняк

.pdf
Скачиваний:
42
Добавлен:
19.03.2015
Размер:
4.29 Mб
Скачать

GDP _ NOMt 0 1 * INV _ ENTt 2 * INV _ FORt

 

 

3 *WAGEt 4 *UNEMt t

 

 

за допомогою звичайного методу найменших квадратів:

 

 

GDP _ NOM 273598.52 6.35 * INV _ ENT 16.30 * INV _ FOR

,

119.21*WAGE 49745.45 *UNEM

 

 

R2 0,98 .

 

 

Застосувавши формули нормалізації змінних і оцінивши нормалізовану регресію, отримаємо

STAND _GDP _ NOM 0.768 0.851*STAND _ INV _ ENT ,

0.181* STAND _ INV _ FOR 0.325 * STAND _WAGE

0.500 * STAND _UNEM

R2 0,98 .

Із цього робимо висновок, що найбільш впливовими для зміни величини ВВП в Україні є інвестиції коштом підприємств, далі за мірою значущості слід назвати рівень безробіття (обернений вплив), величину заробітної плати (обернений вплив), рівень закордонних інвестицій.

Використання методу коефіцієнтів еластичності приводить до інших висновків. Розрахуємо за формулою (3.5) значення коефіцієнтів еластичності:

E

E2

E

3

E

4

1

 

 

 

0,6

0,1

-

 

-

 

806

250

0,0026

157,9136

Очевидно, що тепер найбільший вплив на зростання ВВП має рівень безробіття, менший вплив має рівень інвестицій коштом підприємств, ще менший рівень закордонних інвестицій, і на останньому місці за впливом перебуває рівень середньої заробітної плати.

3.2. Фіктивні змінні

У всіх побудованих вище моделях було розглянуто змінні, які можна вимірювати за допомогою кількісних шкал, наприклад, рівень ВВП країни вимірюється у млрд грн, ставка відсотку у %, розмір заробітної плати у гривнях. Однак у багатьох випадках на поведінку залежної змінної можуть впливати фактори, які неможливо виміряти кількісно. Наприклад, на розмір ВВП країни може впливати стан світової кон'юнктури, який можна уявити лише за допомогою певної оцінки експерта, зокрема: сприятливий, постійний, несприятливий.

Для врахування дії таких чинників застосовують так звані фіктивні змінні. Фіктивні, або бінарні змінні можуть набувати лише двох значень: 0 і 1. Якщо певна якісна ознака спостерігається в деякий період часу, то значення фіктивної змінної дорівнює 1, у протилежному випадку – 0.

Слід зазначити, що, незважаючи на назву, фіктивні змінні є повноправними членами регресії і відрізняються від інших лише тим, що вони набувають обмеженої множини значень.

Розглянемо кілька прикладів використання фіктивних змінних.

Приклад 3.2. Наявність дискримінації в оплаті праці

Нехай треба здійснити дослідження на фірмі щодо наявності дискримінації в оплаті праці за гендерною ознакою. Проблема полягає в тому, що більшість співробітників фірми працюють на різних посадах, маючи різні функціональні обов'язки й отримуючи при цьому, зрозуміло, різну платню. За допомогою регресійного аналізу слід визначити, чи існує дискримінація на фірмі.

Очевидно, що факт дискримінації за гендерною ознакою виявляється в тому, що два спеціалісти однакової кваліфікації, з однаковим досвідом та іншими характеристиками,

61

але різної статі мають доходи різного рівня. Для визначення справедливого рівня заробітної плати слід розглянути регресію вигляду

yt 0 1x1,t k 1xk 1,t kqt t ,

1, якщо t-й робітник є чоловіком, qt 0, якщо t-й робітник є жінкою.

Після оцінювання такої моделі для формулювання кінцевого висновку слід перевірити гіпотезу

H0 : k 0 .

Якщо таку гіпотезу буде прийнято, то це означає, що фактор статі не має впливу на розмір зарплати робітника, а отже, на фірмі немає дискримінації за статевою ознакою.

Якщо гіпотезу буде відхилено, то дискримінація на фірмі існує. При ˆ k 0 чоловіки

отримують більшу зарплатню, маючи однакові з жінками характеристики. Якщо ж ˆ k 0 , то жінки за інших рівних умов отримують більшу зарплату, ніж чоловіки.

Приклад 3.3. Вартість житла

Нехай треба розглянути, як впливає розташування квартири на різних поверхах на ціну квадратного метра житла. При цьому можна розглянути модель вигляду

yt 0 1x1,t k 1xk 1,t kq1,t k 1q2,t t ,

де yt ціна квадратного метра житла, x1,t ,x2,t , ,xk 1,t чинники, що впливають на ціну

квартири, зокрема: її метраж, віддаленість від центру в метрах, віддаленість від найближчої станції метро в метрах, кількість кімнат, балконів тощо. Крім цього, слід зважити на поверх, на якому розташована квартира. Нехай

1, якщо квартира розташована на першому поверсі, q1 0, у інших випадках,

1, якщо квартира розташована на останньому поверсі, q2 0, у інших випадках.

За такого вибору фіктивних змінних середня ціна квадратного метра квартири, розташованої на "середньому" поверсі є базовою. За умови рівності чинників x1,x2, ,xk 1

середня ціна квадратного метра квартири, розташованої на першому поверсі відрізняється від базового рівня на величину ˆ k , а квартири, розташованої на

останньому поверсі на величину ˆ k 1 .

Для визначення впливу номера поверху на ціну квартири слід перевірити гіпотезу

H

 

 

0

 

.

0

:

k

 

 

0

 

 

1

 

 

 

 

k

 

 

 

Якщо таку гіпотезу буде прийнято, то номер поверху не впливає на ціну квадратного метра житла. Якщо ж гіпотезу буде відхилено, то перевіряють окремо гіпотези про значущість коефіцієнтів при фіктивних змінних:

H0 : k 0 , H0 : k 1 0.

Якщо першу гіпотезу буде прийнято, то це означатиме, що квартири, розташовані на першому поверсі, за ціною не відрізняються від квартир, розташованих на інших поверхах. Якщо її буде відхилено, значить, ціна квадратного метра житла квартири на першому поверсі відрізняється від ціни квадратного метра житла аналогічних квартир на

інших поверхах на величину ˆ k .

Якщо другу гіпотезу буде прийнято, то квартири, розташовані на останньому поверсі, за ціною не відрізняються від квартир, розташованих на інших поверхах. Якщо її буде відхилено, то ціна квадратного метра житла квартири на останньому поверсі відрізнятиметься від ціни квадратного метра житла аналогічних квартир на інших

поверхах на величину ˆ k 1 .

62

Приклад 3.4. Моделювання сезонності

Фіктивні змінні також використовують для врахування сезонного ефекту. Нехай треба побудувати сезонну регресію для прибутків підприємств України, використовуючи квартальні дані за 1998-2000 рр., а також зробити прогноз на перший квартал 2001 р. Підрахуємо похибку прогнозування, якщо справжнє значення прибутків становило

8935,5 млн грн.

 

 

 

(???)

 

 

 

Квартал

 

Прибуток

 

 

 

 

 

 

 

 

 

1998/Q1

 

4827,6

 

 

 

 

 

 

 

 

 

1998/Q2

 

4276,8

 

 

 

 

 

 

 

 

 

1998/Q3

 

4750,3

 

 

 

 

 

 

 

 

 

1998/Q4

 

5986,3

 

 

 

 

 

 

 

 

 

1999/Q1

 

5633,6

 

 

 

 

 

 

 

 

 

1999/Q2

 

5688,5

 

 

 

 

 

 

 

 

 

1999/Q3

 

7449,8

 

 

 

 

 

 

 

 

 

1999/Q4

 

9637,6

 

 

 

 

 

 

 

 

 

2000/Q1

 

7501,3

 

 

 

 

 

 

 

 

 

2000/Q2

 

7542,0

 

 

 

 

 

 

 

 

 

2000/Q3

 

8273,2

 

 

 

 

 

 

 

 

 

2000/Q4

 

12806,9

 

Побудуємо модель вигляду

 

 

 

 

 

 

 

 

 

 

yt 0 1qt1 2qt2 3qt3 4t t ,

де q1 фіктивна змінна, що набуває значення 1, якщо розглядати перший квартал року, 0 – в інших випадках; q2 фіктивна змінна, що набуває значення 1, якщо розглядати другий квартал року, 0 – в інших випадках; q3 фіктивна змінна, що набуває значення

1, якщо розглядати третій квартал року, 0 – в інших випадках; t тренд, що показує зростання прибутків протягом часу спостережень.

Побудуємо матрицю незалежних змінних:

Конста

q1

q2

q3

t

нта

1

1

0

0

1

1

0

1

0

2

1

0

0

1

3

1

0

0

0

4

1

1

0

0

5

1

0

1

0

6

1

0

0

1

7

1

0

0

0

8

1

1

0

0

9

1

0

1

0

10

1

0

0

1

11

1

0

0

0

12

Знаходимо оцінку коефіцієнтів регресії:

 

ˆ

T

X

1

X

T

y

5406,3

1963,0

2623,5

T

.

 

β X

 

 

 

2143,7 508,8

Таким чином

, вибіркова регресійна функція має вигляд

 

 

 

yt

5406,3 1963 qt1 2623,5 qt2 2143,7 qt3 508,8 t .

Знаходимо коефіцієнт детермінації R2 ESS 0,906 . Модель адекватна, оскільки

 

 

 

 

 

 

 

 

 

TSS

 

 

 

практичне значення Fpr

16,92

більше за теоретичнеFteor F(4;7;0,05) 4,12 .

63

У першому кварталі 2001 р. незалежні змінні набуватимуть таких значень: q1 1;

q2 q3

0 ; t 13 . Прогноз має такий вигляд:

 

 

 

 

 

yˆt 5406,3 1963 1 2623,5 0 2143,7 0 508,8 13 10058,1 млн грн.

Похибка прогнозування дорівнює

 

 

 

 

 

MAPE 100

 

 

yˆn 1 yn 1

 

 

100

 

10058,1 8935,5

 

12,56% .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8935,5

 

 

 

 

 

yn 1

 

 

Підсумовуючи, можна зробити висновок, що для відтворення в моделі впливу якісного чинника, який може мати m рівнів, до моделі слід ввести m – 1 фіктивну змінну. У прикл. 1 було розглянуто дві ознаки (чоловік і жінка), а тому до моделі вводили лише одну фіктивну змінну. У другому прикладі ознак було вже три (перший поверх, останній поверх, усі інші поверхи), що вимагало ввести дві фіктивні змінні. Нарешті, у третьому прикладі було розглянуто чотири ознаки (вони відповідали 4-м квартам року), а тому в моделі з'явилися три фіктивні змінні.

Не рекомендується уникати фіктивних змінних, записуючи рівняння у формі з кількісними змінними. Зокрема, деякі дослідники намагаються позбутися фіктивних змінних під час моделювання сезонності з місячними даними (зрозуміло, що при цьому слід розглянути 11 фіктивних змінних) за допомогою однієї змінної, значення якої відповідає номеру відповідного місяця року. Проте в цьому разі буде надзвичайно важко дати змістову інтерпретацію відповідному коефіцієнтові регресії.

3.3. Мультиколінеарність

На практиці дослідник нерідко зустрічається із ситуацією, коли регресія, що її він отримав, незадовільна в тому розумінні, що більша частина коефіцієнтів регресії незначущі, проте, сама регресія виявляється адекватною. Одна з можливих причин такого явища називається мультиколінеарністю і виникає за наявності високої кореляції між регресорами.

Для розрахунку рівня залежності між регресорами у множинній регресії використовують частковий коефіцієнт кореляції. Не можна використовувати звичайний вибірковий коефіцієнт кореляції, адже його високе значення можуть викликати різні причини, наприклад наявність кількох інших змінних у регресії, що при поліпшенні властивостей регресії може помилково вказати на сильний взаємозв'язок між залежною змінною й одним із чинників.

Значення часткового коефіцієнта кореляції розраховують за допомогою формули

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 R2y|x

,x

2

,...,x

,x

j

1

,...,x

k 1

 

 

 

 

 

 

 

 

 

 

r

 

 

 

 

 

 

1

 

 

 

 

 

1

 

 

 

j

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R2y|x ,x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y,x j|x1,x2,...,x j 1,x j 1,...,xk 1

 

 

1

2

,...,x

j 1

,x

j 1

,...,x

k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

де

 

Ry2|x , x

2

, , x

, ,x

k

1

коефіцієнт

 

 

 

детермінації

в

моделі

 

 

1

 

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

x

 

j

x

t, j

x

;

 

R2

, x

 

, , x

 

,x

 

 

 

, ,x

 

 

 

 

 

коефіцієнт детермінації

t

0

1 t,1

 

 

 

 

 

k 1 t,k 1

t

 

y|x

2

j 1

j 1

k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

вмоделі yt 0 1x1,t 2x2,t ... j 1x j 1,t j 1x j 1,t ... k 1xk 1,t t .

Для перевірки гіпотези про значущість часткового коефіцієнта кореляції

H0

: ry,x

|x ,x

,...,x

j 1

,x

j 1

,...,x

k 1

0 , або скорочено H0 : ry,x

j

0

 

j

1 2

 

 

 

 

 

обраховують практичне значення

tpr

 

 

ry,x j

 

r 2

 

1

 

 

 

y,x j

n k

і порівнюють із теоретичною статистикою Стьюдента з n k степенями свободи: tteor t n k,1 .

64

Якщо tpr tteor , то гіпотезу H0 можна прийняти, тобто залежність між змінними y та x j статистично незначуща.

Одна з умов класичної регресійної моделі передбачає лінійну незалежність екзогенних змінних, тобто лінійну незалежність стовпчиків матриці регресорів X, що еквівалентно

твердженню про повний ранг k матриці XT X . При порушенні цієї умови, тобто коли

один зі стовпчиків матриці X є лінійною комбінацією інших стовпчиків, говорять, що існує повна колінеарність. У такій ситуації не можна знайти МНК-оцінку коефіцієнтів регресії, оскільки неможливо однозначно розв'язати нормальні рівняння.

Розглянемо простий приклад регресії з наявною мультиколінеарністю:

Ct 0 1St 2Nt 3Tt t ,

де Ct споживання; St зарплата; Nt прибуток, отриманий поза роботою; Tt повний прибуток. Оскільки виконується рівність Tt St Nt , то вихідну регресію можна переписати у вигляді

Ct 0 1 3 St 2 3 Nt t .

Таким чином, одні і ті самі спостереження можна пояснити різноманітними наборами коефіцієнтів, оскільки оцінити можна лише три, а не чотири параметри. Загалом можна

показати, що якщо rank XT X l k , то оцінити можна лише l лінійних комбінацій

вихідних коефіцієнтів. Якщо є повна колінеарність, то можна виокремити в матриці X максимальну лінійно незалежну систему стовпчиків і, відкинувши інші стовпчики, побудувати нову регресію.

На практиці повна колінеарність зустрічається надзвичайно рідко. Набагато частіше матриця X має повний ранг, але між регресорами існує висока міра

кореляції, тобто матриця XT X близька до виродженої. Тоді говорять про наявність

мультиколінеарності. У цьому разі МНК-оцінка формально існує, але має незадовільні статистичні властивості.

Мультиколінеарність може виникати з різних причин.

По-перше, деякі економічні показники діють в унісон. Наприклад, на макроекономічні показники впливають однакові фактори. Це приводить до того, що вони відображають широкий спектр моделей однакової економічної ситуації. У період бумів або швидкого економічного зростання базові економічні показники також зростають, звичайно, з деяким лагом. Такі показники, як дохід, споживання, нагромадження, інвестиції, ціни, зайнятість мають тенденцію до зростання в період економічної експансії і до спаду у період рецесії. Сама наявність трендів у динамічних рядах є причиною мультиколінеарності. Якщо два колінеарні чинники змінюються в одному напрямі, то майже неможливо оцінити окремий вплив кожного з них на досліджуваний показник.

По-друге, широке використання в економетричних моделях лагових значень однієї змінної також призводить до виникнення мультиколінеарності. Наприклад, у функціях споживання витрати на споживання попередньому періоді вводять у модель поряд із величиною поточного рівня доходу.

Виокремимо деякі найбільш характерні ознаки мультиколінеарності:

1.Невелика зміна початкових даних (наприклад додавання нових спостережень) приводить до істотної зміни оцінок коефіцієнтів моделі.

2.Оцінки мають великі стандартні похибки, малу значущість, тоді як модель загалом є значущою (високе значення коефіцієнта детермінації та відповідної F- статистики).

3.Оцінки коефіцієнтів мають неправильні з погляду теорії знаки або незрозуміло великі значення.

При цьому варто зазначити, що при мультиколінеарності оцінки методу найменших квадратів залишаються незміщеними й ефективними. Проте через вкрай велике значення дисперсії оцінок регресії виявляється малоефективною процедура перевірки статистичних гіпотез та інтервального оцінювання.

65

Що ж робити, якщо за всіма ознаками в регресії є мультиколінеарність? Однозначної відповіді на це запитання немає, і серед економетристів існують різні думки.

Іноді за наявності мультиколінеарності намагаються відкинути "зайві" незалежні змінні, що, можливо, слугують її причиною. Проте відкидання яких-небудь незалежних змінних може негативно відбитися на економічному змісті моделі. Нарешті, можна показати, що відкидання так званих істотних змінних, тобто незалежних змінних, що реально впливають на досліджувану залежну змінну, призводить до зміщення МНК- оцінок.

Іноді явище мультиколінеарності виникає, якщо регресію оцінюють на основі малої кількості спостережень. У такому разі найкраще збільшити кількість спостережень.

Також одним зі способів боротьби з мільтиколінеарністю є правильна специфікація моделі (див. підрозд. 3.4).

На сьогодні не існує однозначного способу статистичного виявлення мультиколінеарності. У літературі зустрічаються кілька підходів. Найпростіший спосіб полягає в розрахунку VIF-індексу.

Нехай треба розглянути модель вигляду

yt 0 1x1,t 2x2,t ... k 1xk 1,t t .

Нехай є припущення про те, що найбільш домінантною, тобто найбільш впливовою на інші змінні є змінна xj . У такому разі будують регресію цієї змінної від усіх інших змінних

без константи:

x j,t 1x1,t 2x2,t ... j 1x j 1,t j 1x j 1,t ... k 1xk 1,t t .

Для цієї регресії слід знайти коефіцієнт детермінації R2j , на основі якого розрахувати VIF-індекс:

VIFj 1 1R2j .

Якщо значення VIFj перевищує 5, то це привід замислитися про наявність

мультиколінеарності. Водночас деякі дослідники визнають наявність мультиколінеарності при VIFj 10 .

Також існує можливість перевірити наявність мультиколінеарності за допомогою статистичного критерію Фарра Глаубера. Незважаючи на критичне ставлення вчених до цього критерію через його слабкі асимптотичні характеристики, значною його перевагою залишається чітка відповідь про наявність мультиколінеарності. Згідно з цим критерієм

розраховують практичне значення 2pr статистики

2pr

 

 

1

 

n 1

6

2 k 1 5 lnDet R ,

 

 

 

 

де

 

 

rx x

rx x

2

rx x

3

rx x

 

 

 

 

 

1 1

1

 

1

 

1 k 1

 

 

 

 

rx x

rx

x

2

rx

x

3

rx

x

k 1

 

 

det R det

 

2 1

2

 

2

 

2

 

 

визначник кореляційної матриці для

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r

 

 

r

 

 

r

 

 

 

 

 

r

 

 

 

 

 

 

 

 

 

 

xk 1x1

xk 1x2

xk 1x3

xk 1xk 1

 

 

чинників регресійної моделі.

 

 

 

 

Розраховане значення слід порівняти з теоретичним:

 

2

2

 

k 1 k 2 ;1

.

teor

 

 

2

 

 

 

 

 

Якщо 2pr teor2 , то критерій виявляє мультиколінеарність.

Приклад 3.5. Перевірка гіпотези про наявність мультиколінеарності

Відомо 16 спостережень чотирьох величин:

66

 

y

x1

x2

x3

 

7,49

2,25

9,9

6,09

 

10,6

4,42

11,5

7,49

4

 

 

4

8,46

 

11,4

6,08

13,7

4

 

 

3

8,59

 

13,2

8,65

14,2

4

 

 

6

10,4

 

16,9

10,6

14,9

9

4

 

1

3

 

18,5

13,2

17,0

10,5

7

9

 

2

2

 

21,0

15,9

18,8

11,6

7

5

 

4

5

 

23,2

18,2

20,0

13,5

3

5

 

6

5

 

27,3

21,1

21,7

13,6

7

0

 

1

7

 

27,1

22,6

22,3

14,3

2

7

 

1

3

 

29,4

24,9

22,3

13,9

2

9

 

9

5

 

32,4

26,0

24,5

16,3

3

0

 

 

4

 

31,7

27,3

24,7

14,8

4

4

 

6

1

 

35,1

29,7

24,9

15,1

6

5

 

9

3

 

37,0

31,8

25,9

15,4

7

7

 

4

6

 

38,7

33,5

27,3

16,9

4

5

 

5

6

Треба визначити наявність мультиколінеарності в регресії з рівнем надійності 95 %.

Розв'язання

Знаходимо матрицю парних кореляцій:

 

 

 

 

 

 

 

 

 

x1

 

x2

x3

 

 

 

 

 

 

 

x1

 

1,00

 

0,99

0,97

 

 

 

 

 

 

 

 

00

 

31

24

 

 

 

 

 

 

 

x2

 

0,99

 

1,00

0,98

 

 

 

 

 

 

 

 

31

 

00

60

 

 

 

 

 

 

 

x3

 

0,97

 

0,98

1,00

 

 

 

 

 

 

 

 

24

 

60

00

Її детермінант дорівнює det R 0,000337 ,

 

 

2pr

 

 

 

1

 

 

 

 

 

,

 

n 1

6

2 k 1 5 lnDetR 105,31

 

 

 

 

 

 

 

 

 

 

 

 

2

1

k 1 k 2 ;0,95

2 3;0,95

7,8 .

 

 

teor

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

Таким чином, мультиколінеарність існує.

3.4.Специфікація моделі

На сьогодні день існує дві позиції щодо побудови економетричної регресії. Представники першої школи вважають, що є сенс будувати лише такі регресії, які

узгоджуються з положеннями економічної теорії. Таким чином, головним завданням представників такої школи є створити моделі для перевірки положень економічної теорії, незважаючи на статистичні характеристики оцінених регресій.

Економетристи, які представляють другий напрям, уважають, що основне їхнє завдання полягає в побудуванні регресій, що відповідають усім необхідним статистичним властивостям. При цьому для поліпшення побудованих моделей залучають змінні, які не

67

мають прямого економічного зв'язку з досліджуваним процесом, і вилучають безпосередньо економічні змінні тощо.

Якщо розглядати підхід другої школи, то виникає природне запитання про доцільність перебування в регресії тієї чи іншої змінної. Іншими словами, слід навчитися обирати модель із правильною кількістю змінних. Процес добирання змінних для регресії називається специфікацією моделі.

На практиці дослідник завжди має робити детальний аналіз щодо доцільності того чи іншого набору змінних. Практично це завдання можна поділити на два. Перше завдання пов'язане з перевіркою гіпотези про доцільність залучення нової змінної до регресії. Друге завдання перевіряє гіпотезу про доцільність вилучення однієї зі змінних. Формалізуємо ці завдання.

Нехай X , Z матриці екзогенних змінних, y вектор спостережень, β, γ вектори

коефіцієнтів.

Завдання 1. Нехай реальна модель має вигляд y Xβ Zγ ε, а дослідник оцінює модель y Xβ ε. У такому разі до моделі не долучено кілька змінних, які насправді

мають у ній бути. Якщо залишити цю ситуацію без змін, то буде отримано за допомогою МНК незміщені оцінки коефіцієнтів регресії. Іншими словами, при вилученні значущих змінних МНК-оцінка, отримана в короткій регресії, загалом зміщена та має меншу коваріаційну матрицю, ніж оцінка, отримана в довгій регресії (правдивій моделі). Оцінка дисперсії в короткій регресії має невід'ємний зсув.

Завдання 2. Нехай реальна модель має вигляд y Xβ ε, а дослідник оцінює модель y Xβ Zγ ε. У такому разі до моделі залучено кілька зайвих змінних. Під час

оцінювання моделі за допомогою МНК буде отримано незміщені оцінки коефіцієнтів і оцінки дисперсії коефіцієнтів регресії. Іншими словами, при введенні незначущих змінних оцінка параметрів коефіцієнтів регресії є зміщеною, а її коваріаційна матриця більша, ніж у оцінки з істинної моделі, хоча оцінка дисперсії є незміщеною.

З короткого огляду двох задач може з'явитися думка, що краще перестрахуватися і ввести до моделі зайві змінні, адже при цьому зберігається їх незміщеність. Проте не слід забувати, що при залученні додаткових зайвих змінних швидко погіршується точність коефіцієнтів через зростання дисперсії оцінок коефіцієнтів регресії. Крім цього, збільшення кількості чинників у моделі може призвести до явища мультиколінеарності (див. підрозд. 3.3).

Для того, щоб зробити коректний вибір між двома регресіями, слід скористатися таким

способом. Нехай побудовано регресію yt

0xt0

1xt1 k 1xt,k 1 t ,t

1,n

, і

розглядають питання про доцільність введення

ще однієї додаткової змінної xk . Для

перевірки такої гіпотези слід підрахувати практичне значення F -статистики

 

 

R2

R

2

 

 

 

 

 

 

2

1

1

 

 

 

 

 

Fpr

 

 

 

,

 

 

 

 

1 R22

 

 

 

 

 

 

 

 

 

 

 

 

 

n k

 

 

 

 

 

де R2

коефіцієнт детермінації в початковій моделі;

R2 коефіцієнт детермінації в

1

 

 

 

 

 

 

2

 

 

моделі

з додатковою змінною. Обчислене значення

треба порівняти з теоретичним

Fteor F(1;n k; ). ЯкщоFpr Fteor , то змінну xk

вводити до регресії недоцільно.

3.4.1 Порівняння невкладених моделей

Розглянемо ситуацію, коли треба обирати між двома лінійними моделями, не вкладеними одна в одну. Така ситуація може виникнути, коли дві альтернативні теорії призводять до різних моделей того самого феномена. Нехай є дві моделі:

модель А :

y xT β

(3.6)

 

 

 

t

t

 

i

 

 

 

 

 

і модель В:

y

i

zT γ

.

(3.7)

 

 

 

t

i

 

 

68

Дві моделі є невкладеними, якщо zt містить принаймні одну змінну, яка не входить до xt , і навпаки. Оскільки обидві моделі пояснюють одну й ту саму залежну змінну,

можливо використати R2 , критерій Акайке або Шварца тощо. Альтернативний і більш формальний підхід до порівняння двох моделей ґрунтується на ідеї охоплювальної моделі. Якщо модель А вважати коректною, вона має охоплювати модель В, тобто бути здатною пояснити висновки моделі В. Ми розглянемо два критерії, побудовані на цьому підґрунті.

Перший із них називається невкладеним F-критерієм, або охоплювальним F-

критерієм. Запишемо xTt (x1Tt ,xT2t ) , де x1t фігурують у zt , а x2t ні. Модель В можна протестувати, будуючи так звану штучну охоплювальну модель:

y

t

zT γ xT

δ

A

 

.

(3.8)

 

t

2t

 

t

 

 

Ця модель не має економіко-теоретичного підґрунтя, однак, її можна звести до моделі

В при

δA 0

. Отже, обґрунтованість моделі В (модель В охоплює модель А)

можна

перевірити за допомогою F-критерію для

обмеження

δA 0

. Аналогічно

можна

дослідити обґрунтованість моделі А, перевіряючи гіпотезу

δB

0

у

моделі

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

t

xT β zT

δ

B

 

,

(3.9)

 

 

 

 

t

2t

 

t

 

 

де z2t складається з тих змінних з набору zt , які не входять до xt . Нульові гіпотези, що їх

перевіряють при цьому, означають, що одна модель охоплює іншу. Результат обох перевірок може полягати в тому, що слід відхилити обидві моделі. З іншого боку, існує можливість того, що жодну з моделей не буде відхилено. Зауважимо, що факт відхилення моделі А не слід інтерпретувати як свідчення на користь моделі В. Цей факт указує лише на те, що модель В здатна пояснити певні явища, які модель А не може адекватно відтворити.

Інший невкладений критерій називається J-критерієм [39]. Побудуємо модель, яка

містить як часткові випадки моделі А та В:

 

 

 

 

 

 

 

y (1 )xT β zT γ u .

(3.10)

 

t

t

t

t

 

При 0 модель (3.10) збігається з моделлю А, а при 1 – з моделлю В. Однак рівняння (3.10) неможливо оцінити, оскільки параметри β, γ та не можна

ідентифікувати одночасно. Р. Девідсон і Дж. Маккіннон запропонували оцінювати з

моделі В параметр

γ

і замінювати в рівнянні (3.10)

γ на знайдену оцінку

γˆ

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y xT β* yˆ

u

,

(3.11)

 

 

 

 

 

 

t

t

tB

t

 

 

 

 

 

 

 

 

 

 

де

yˆ

zT γˆ

прогнозні значення,

одержані за моделлю В, а

β* (1 )β

. З рівняння

 

tB

t

 

 

 

 

 

 

 

 

 

(3.11)

можна

оцінити . Як показали Р. Девідсон та Дж. Маккіннон, якщо нульова

 

 

 

 

 

 

 

 

, а звичайна t-статистика для параметра

гіпотеза (модель А) правильна, то p lim 0

має асимптотичний стандартний нормальний розподіл. Як завжди, нульову гіпотезу відхиляють, коли вибіркове значення t-статистики за абсолютною величиною перевищує критичне. Аналогічну процедуру можна здійснити, поклавши за нульову гіпотезу модель В. У двох із чотирьох можливих результатів перевірки, коли обидві моделі відхиляють або обидві моделі не відхиляють, ситуація лишається невизначеною.

Вибір між найбільш поширеними функціональними формами лінійною та лог- лінійною також спричиняє необхідність порівнювати дві невкладені моделі. Оскільки в

цих моделях різні залежні змінні (yi та ln yi ), то критерії якості припасування моделі,

наприклад коефіцієнт детермінації чи критерії Х. Акайке або Г. Шварца, застосовувати не можна. У роботі [59] запропоновано РЕ-критерій, який полягає ось у чому. Оцінимо обидві моделі, лінійну та лог-лінійну, методом найменших квадратів і одержимо відповідні прогнозні значення yˆt і lnˆ yt . Тепер можна формалізувати гіпотезу Н0, тобто

69

лінійну модель, проти альтернативної гіпотези H1, тобто лог-лінійної моделі, якLIN 0 у рівнянні

yt xTt β LIN (lnyˆt lnˆyt ) t .

Перевірка відбувається за допомогою звичайної t-статистики, яка за нульової гіпотези має асимптотичний стандартний нормальний розподіл.

Аналогічно, обмеження LOG 0 у рівнянні

yt (ln xt )T LIN (yˆt exp(lnˆ yt )) t

слід інтерпретувати як Н0: лог-линійна модель проти Н1: лінійна модель Н0 проти Н1, або лог-линійна модель проти лінійної моделі. Як і раніше, можливі чотири результати перевірки.

Зауважимо, що РЕ-критерій можна застосовувати в набагато загальнішій ситуації (детальніше див. [59]).

3.4.2. Нелінійність

Якщо справжня залежність між змінними є нелінійною, то оцінювання лінійної моделі призводить до зміщених оцінок. Найпопулярнішим критерієм правильності функціональної форми є критерій RESET.

Для перевірки лінійності в моделі

yt xTt β t ,

де через xTt позначено вектор регресорів в t-му спостереженні, слід оцінити вихідну модель звичайним методом найменших квадратів, а потім в допоміжній регресії

yi xTi β 2yˆi2 3yˆi3 ... aqyˆiq vi

перевірити гіпотезу 0 : 2 ... q 0. Прийняття Н0 означає коректність лінійної

моделі. Можна використати стандартний - F -критерій або загальний критерій Вальда зі статистикою W q 1 F, яка асимптотично має розподіл -квадрат з q 1 степенями

свободи. Якщо нульова гіпотеза відхиляється в модель, то слід ввести відповідні степені та добутки вихідних змінних. На практиці достатньо обмежитись вибором q 3 та q 2 .

Зауважимо, що існує велика кількість свідчень на користь того, що модель, у яку входять логарифми змінних, а також доданки другого порядку стосовно логарифмів є загалом кращою апроксимацією у випадку нелінійної залежності.

Приклад 3.6. Специфікація моделі

Відомі 16 спостережень чотирьох величин:

y

x1

x2

x3

7,49

2,25

9,9

6,09

10,6

4,42

11,5

7,49

4

 

4

8,46

11,4

6,08

13,7

4

 

3

8,59

13,2

8,65

14,2

4

 

6

10,4

16,9

10,6

14,9

9

4

1

3

18,5

13,2

17,0

10,5

7

9

2

2

21,0

15,9

18,8

11,6

7

5

4

5

23,2

18,2

20,0

13,5

3

5

6

5

27,3

21,1

21,7

13,6

7

0

1

7

27,1

22,6

22,3

14,3

70

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]