Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Navch._posibnuk_Ivaschyk

.pdf
Скачиваний:
106
Добавлен:
12.02.2016
Размер:
4.89 Mб
Скачать

Для статистичного висновку про наявність або відсутність кореляційного зв’язку між досліджуваними змінними необхідно провести перевірку рівня значущості вибіркового коефіцієнта кореляції. Використаний критерій для розв’язку задач такого типу ґрунтується на розподілі різних статистик і називається критерієм значущості.

Процедура перевірки значущості починається з формулювання нульової гіпотези Но. У загальному випадку вона полягає в тому, що між параметром вибірки і параметром генеральної сукупності немає ніяких суттєвих різниць. Альтернативна гіпотеза Н1 полягає в тому, що між цими параметрами є суттєві різниці. Наприклад, при перевірці наявності кореляції в генеральній сукупності нульова гіпотеза полягає в тому, що істинний коефіцієнт кореляції рівний нулю (Н0:ρ = 0). Якщо в результаті перевірки виявиться, що нульова гіпотеза неприйнятна, то вибірковий коефіцієнт кореляції rxy значно відрізняється від нуля (нульова гіпотеза відкидається і приймається альтернативна Н1). Іншими словами, припущення відносно некорельованості випадкових змінних в генеральній сукупності треба признати необґрунтованим. І навпаки, якщо на основі критерію значущості нульова гіпотеза приймається, тобто rxy міститься в допустимій зоні випадкового розсіяння, тоді немає підстави вважати сумнівним припущення відносно некорельованості змінних у генеральній сукупності.

При перевірці значущості встановлюють значення її рівня α, який дає певну впевненість в тому, що помилкові висновки можуть бути нечасто. Рівень значущості виражає ймовірність того, що нульова гіпотеза Но відкидається тоді, коли вона насправді правильна. Зрозуміло, що має сенс вибрати ймовірність якомога меншою.

Припустимо, що відомий розподіл вибіркової характеристики, яка є незміщеною оцінкою параметра генеральної сукупності. Вибраному рівню значущості α відповідає під кривою цього розподілу заштрихована площа (рис. 15.7.1).

441

α

α

α

 

2

2

2

 

Критичне

Математичне сподівання

Критичне

значення

Область прийняття Н0

 

значення

Область відхилення Н0

Область відхилення Н0

Рис.15.7.1. Перевірка нульової гіпотези H0

Незаштрихована площа під кривою розподілу визначає ймовірність Р=1–α. Границі відрізків на осі абсцис під заштрихованими площами називаються критичними значеннями, а самі відрізки утворюють критичну область або область відхилення гіпотези.

Відповідно до процедури перевірки гіпотези вибіркову характеристику, обраховану за результатами спостережень, порівнюють з відповідним критичним значенням. При цьому необхідно розрізняти одно та двосторонню критичні області. Форма задання критичної області залежить від постановки задачі при статистичному дослідженні. Двостороння критична область необхідна в тому випадку, коли при порівнянні параметрів вибірки і параметра генеральної сукупності вимагається оцінити абсолютну величину розбіжності між ними, тобто нас цікавлять додатні і від’ємні різниці між величинами, які вивчаються. Якщо потрібно переконатися в тому, що одна величина в середньому строго більша або менша іншої, використовується одностороння критична область (правоабо лівостороння). Зрозуміло, що для одного і того ж критичного значення рівень значущості при використанні односторонньої критичної області менший, чим при використанні двохсторонньої. Якщо розподіл вибіркової характеристики

442

симетричний, то рівень значущості двосторонньої критичної області рівний α, а односторонньої – α2 . Далі вкажемо на критерії значущості

для різних процедур.

Перевіряючи значущість коефіцієнта парної кореляції, встановлюють наявність або відсутність кореляційного зв’язку між досліджуваними явищами. При відсутності зв’язку коефіцієнт кореляції генеральної сукупності рівний нулю (ρ = 0). Процедура перевірки гіпотези починається з формулювання нульової та альтернативної гіпотез:

Но: різниці між вибірковим коефіцієнтом кореляції r і ρ= 0 незначна;

Н1: різниця між r і ρ = 0 значна і, як наслідок, між змінними у і х є суттєвий зв’язок. Із альтернативної гіпотези випливає, що потрібно скористатися двосторонньою критичною областю.

Для оцінки значущості коефіцієнта кореляції використовуємо t- тест, який підпорядковується розподілу Стьюдента з n–2 ступенями вільності.

Під кількістю ступенів вільності розуміють різницю між кількістю спостережень і кількістю параметрів, які встановлені у результаті цих спостережень незалежно один від одного.

Наприклад, для парної регресії виду y= α+βx+u маємо:

n

1) вираз(yi y )2 має один ступінь вільності, оскільки для

i=1

утворення цієї суми квадратів потрібно (n–1) незалежних змінних, а саме (y1 y )(y2 y ),...(yn y ), де одна з цих змінних є лінійною

комбінацією інших завдяки виконанню рівності

 

n

 

 

 

n

 

(yi y )

= yi ny = ny ny = 0;

 

i=1

 

 

 

i=1

n

y )

2

 

 

ˆ

 

 

2) вираз (yi

 

 

має (n–1) ступнів вільності, оскільки для

i=1

утворення цієї суми квадратів потрібна тільки одна незалежна змінна, а саме β, що випливає з рівності ˆyi y = β(xi x );

443

n

3) вираз(yi ˆyi )2 має (n–2) ступенів вільності, оскільки для

i=1

утворення цієї суми квадратів потрібно тільки дві незалежні змінні, а саме α та β. Обчислена за результатами вибірки статистика

tемп =

r n 2

(15.46)

1r2

 

 

порівнюється з критичним значенням tkp, яке знаходиться за таблицями розподілу Стьюдента при заданому рівні значущості α та ν = n–2 ступенях вільності. Правило використання критерію формулюється так: якщо temp > tkp , то нульова гіпотеза Но на рівні

значущості α відкидається і приймається альтернативна гіпотеза Н1 про існування залежності між окресленими змінними; якщо

tемп tкр , то нульова гіпотеза Но на рівні значущості приймається.

Надійність оцінки визначається ймовірністю з якою стверджується, що побудований за результатами вибірки довірчий інтервал містить невідомий параметр генеральної сукупності. Ймовірність інтервальної оцінки параметра називають довірчою і позначають Р. У більшості економетричних досліджень приймається, що Р=0,95. Тоді можна сподіватися, що при множині спостережень параметр генеральної сукупності буде правильно оцінений (тобто довірчий інтервал покриє дійсне значення цього параметра) приблизно в Р 100% випадків і лише в (100–Р) % випадків оцінка буде помилковою. Ризик помилки визначається рівнем значущості α , який називається довірчим рівнем інтервалу.

Позначимо параметр генеральної сукупності через δ, а його оцінку – d. Тоді, за означенням довірчого інтервалу, будемо мати таку

формулу:

P(d kσd ≤ δ ≤ d + kσd )=1 − α,

де k – довірчий множник, який вказує частку стандартного відхилення, яка повинна бути врахована, щоб із заданою ймовірністю Р довірчий інтервал [d kσd ;d + kσd ] покрив параметр генеральної

сукупності.

Перейдемо від загальних міркувань до побудови довірчих інтервалів для параметрів простої лінійної регресії. Насамперед знайдемо довірчий інтервал для оціночного рівняння. Для цього нам необхідно мати похибку оцінки, яку знайдемо за

444

формулою: yx = t p σпом , де tp – імовірнісний коефіцієнт, який при

заданих рівнях ймовірності Р знаходиться за таблицями нормального розподілу. Значення tp знаходимо з розв’язку рівняння 2Ф(tp)=Р, де Ф(tp) – інтегральна функція Лапласа.

Тоді довірчий інтервал для оціночного рівняння знайдемо з нерівності:

yˆi yx yi yˆi + yx .

(15.47)

Далі перейдемо до наочного порівняння отриманих результатів з допомогою таких графіків: фактичних даних уі, оціночного рівняння ˆy та довірчого інтервалу(рис. 15.7.1).

Для встановлення зв’язку параметрів а та b з параметрами α та β потрібно побудувати для них інтервали довіри. Процедура побудови інтервалів довіри є аналогічною попередній процедурі. Спочатку знаходимо граничні похибки оцінок відповідних параметрів за формулами:

a = σa t p , b = b t p ,

(15.48)

де σ2a ,σb2 – відповідно дисперсії оцінок а та b, які визначаються за формулами:

n

σa2 =

xi2σнепоясн2

; σb2 =

 

σ

2

.

(15.49)

 

 

i=1

 

 

непоясн

n

n

 

 

 

n(xi x )2

 

(xi x )2

 

 

i=1

 

i=1

 

 

 

 

Отже, довірчий інтервал для оцінки α

a a ≤ α ≤ a + a ,

що означає: P(a a ≤ α ≤ a +

a )=1 − α.

Відповідно, для параметра β маємо:

b

b ≤ β ≤ b +

або P(b b ≤ β ≤ b + b )=1 − α.

буде:

(15.50)

b

(15.51)

Для оцінки рівня адекватності побудованої моделі важливе значення має критерій Фішера, тобто F-критерій. Він дозволяє оцінити, чи значно нахил b відрізняється від нуля, тобто перевірити гіпотезу Но: b=0. Іншими словами, як краще апроксимувати дані за середнім значенням чи регресійною прямою.

Альтернативна гіпотеза полягає в тому, що b 0 і має вигляд: Н1: b0. Показник Фішера вираховується як відношення середнього квадрату, що пояснюється регресією до середнього квадрата помилок:

445

F =

 

 

 

 

 

=

CKP

:

СКП

 

=

CKP (n 2)

=

R2 (n 2)

 

 

KP

,

(15.52)

 

 

 

 

 

 

 

 

(

 

 

 

)

 

 

 

 

k n k 1

 

СКП

R

2

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

де k – число незалежних змінних (для простої регресії k=1).

Після обчислення критерію F знаходимо з відповідної таблиці величину Fкр – критичне значення F розподілу Фішера з (1, n–2) ступенями вільності і рівнем значущості α. Наприклад, якщо α=0,05, то можлива помилка становить 5 %, а в 95 % випадків наші висновки будуть правильними.

Якщо розраховане нами значення F > Fкр,, то відкидаємо гіпотезу Но, що b=0 із ризиком помилитися не більше, ніж у 5 % спостережень. У такому випадку побудована нами регресійна модель адекватна реальній дійсності і наявне пояснення поведінки залежної величини у краще, ніж можна було би отримати випадково.

Для загального випадку у нульовій гіпотезі стверджується, що b рівне деякому значенню, наприклад, bo і альтернативна гіпотеза полягає в тому, що b не рівне окресленому значенню (Но: b = b0; H1: b b0). При цьому припускається виконання чотирьох умов ГауссаМаркова.

Якщо гіпотеза Но справджується, то оцінка b отримана у результаті регресійного аналізу буде мати розподіл з математичним

σ2

сподіванням bo та дисперсією e . Припустимо, що залишковий nVar (x)

член е має нормальний розподіл. Тоді величина b буде теж нормально розподілена (рис. 15.7.2).

446

Функція густини ймовірності для b

b0-2CB0

b0

b0+2CB0

b

Рис. 15.7.2. Структура нормального розподілу оцінки b.

CBb =

σe

,

n var (x)

 

 

де СВb – стандартне відхилення оцінки b.

Враховуючи структуру нормального розподілу, більшість оцінок параметра b буде знаходитися в межах двох стандартних відхилень від bo за умови, що вірна гіпотеза Ho: b=bo.

Z =

Різницяміжоцінкоюрегресії і гіпотетичнимзначенням

=

b b

 

 

0

,

Стандартневідхиленнявеличиниb

CB

 

 

 

 

 

 

b

 

 

 

CBв =

σe

,

 

 

 

 

 

nVar(x)

 

 

 

 

 

 

 

 

 

 

 

де Z – число стандартних відхилень між регресійною оцінкою і гіпотетичним значенням bo.

Отже, отримаємо:

 

 

 

 

 

 

 

tkp <

b b0

< tkp .

 

 

 

 

 

 

 

стандартнапомилка (b)

 

 

 

 

 

 

 

 

 

Припустимо,

що отримано

n прогнозних (розрахункових)

 

ˆ

=

 

 

 

 

 

 

 

1,n},

які відповідають сукупності фактичних даних

значень{yi ,i

 

{yi ,i =

 

}

і, як

наслідок, маємо

відповідно множину помилок

1,n

447

{ei ,i =1,n}. Розглянемо більш прості критерії перевірки якості

лінійної економетричної моделі.

1. Середня помилка прогнозу (СП):

 

1

n

e

 

СП(e)= е =

 

i

.

(15.53)

 

 

 

n i=1

n

 

Окреслена величина характеризує ступінь зміщення прогнозу і для правильного відображення наявного зв’язку між у та х потрібно,

щоби lim e = 0 .

n→∞

2. Дисперсія помилок Var(e) розраховується за формулою:

 

1

n

 

var (e)= σe2 =

(ei e )2 ,

(15.54)

 

 

n i=1

 

а стандартне відхилення σе:

σe

= var (e).

(15.55)

Цей критерій виміряє ступінь розсіяння значень змінної величини навколо свого середнього значення.

Оскільки для випадку лінійної регресії e = 0, то

 

1

n

 

var (e)=

ei2 .

(15.56)

 

 

n i=1

 

3. Середнє абсолютне відхилення (САВ):

 

1

n

 

CAB(e)=

 

ei e

 

.

(15.57)

 

 

 

 

n i=1

 

 

 

 

 

4. Середня абсолютна помилка (САП):

 

1

n

 

САП(e)=

 

ei

 

.

(15.58)

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

5. Середній квадрат помилок (СКП):

 

1

n

 

СКП(е)=

ei2 .

(15.59)

 

 

n i=1

 

6. Середнє процентне помилки (СПП):

 

1

n

e

 

 

СПП(e)=

 

i

100%

(15.60)

 

y

 

n i=1

 

 

 

 

 

i

 

 

є показником незміщеності прогнозу. Для якісних моделей він має бути досить малим і не перевищувати 5 %.

448

7. Середня абсолютна відсоткова помилка (САПП):

 

1

n

 

ei

 

 

 

 

САПП(e)=

 

 

 

 

100% .

(15.61)

 

 

 

 

 

y

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

Оскільки зазначений показник характеризує відносну точність прогнозу, тому його доцільно використовувати для порівняння точності прогнозів різних об’єктів. Приймається, що значення САПП(е) менше 10 % дає велику точність прогнозу та адекватність наявної залежності між змінними. Далі маємо:

якщо 10 % < САПП(е) < 20 %, то прогноз має добру точність;

якщо 20 % < САПП(е) < 50 %, то прогноз має задовільну точність;

в інших випадках – незадовільну точність.

15.8. Нелінійна регресія

Припущення відносно лінійної залежності між економічними показниками х та у деякого явища або процесу може не завжди підтверджуватися даними {(xi , yi )} значень цих показників. І це зрозуміло, бо в ряді випадків залежність між показниками суттєво є нелінійною. У такому випадку між досліджуваними економічними явищами об’єктивно існують нелінійні співвідношення, які можуть бути описаними з допомогою кривих зростання.

У загальному випадку однофакторну економетричну модель можна представити у вигляді:

у=f(x)+u,

(15.62)

де f(x) – функція зростання; u – випадкова величина.

Вибір функції зростання здійснюється з врахуванням теоретичних положень, пов’язаних з досліджуваними економічними процесами та можливостями програмних продуктів, наприклад, системи STADIA. Ця програмна система дозволяє вибрати із спеціального меню (рис. 15.8.1) необхідну регресійну модель.

449

 

Регрессия

Модели

 

1=линейная

Y=a+b*x

2=парабола

Y=a+b*x+c*x^2

3=полином m

Y=сум(ai*x^i)

4=степени 1/2

Y=a+b*SQR(x)

5=логарифм

Y=a+b*LN(x)

6=степенная

Y=a*x^b

7=степенная

Y=a+b*x^c

8=экспонента

Y=e^(a+b*x)

9=экспонента

Y=e^(a+b/x)

А=экспонента

Y=e^(a+b*SQRT(x))

В= экспонента

Y=e^(a+b*x+c*x/2))

С=экспонента

Y=a+b*e^(c*x)

D=гипербола

Y=a+b/x

E= гипербола

Y=1/(a+b*x)

F=гипербола

Y=1/(a+b/x)

G =гипербола

Y=1/(a+b*SQR(x))

H=гипербола

Y=1/(a+b*LN(x))

I=гипербола

Y=a+1/(b+c*x)

J=оптимума

Y=1/(a+b*x+c*x^2)

K=оптимума

Y=x/(a+b*x+c*x^2)

L=логистич

Y=a+b/(1+e^(c+d*x))

M=синусоид

Y=a+b*x+c*SIN(d+e*x)

O-сглаж.Хубера

 

Рис. 15.8.1. Меню вибору регресійної моделі

Вибір моделі визначається характером експериментальної залежності, тому спочатку бажано побудувати і наглядно оцінити її функціональний графік. Для отримання графіка зміни приростів Y необхідно попередньо модифікувати дані, використовуючи диференціальний фільтр, і далі скористатися засобами блоку перетворень [24]. Види графіків регресійних моделей, які часто використовуються у прикладних економічних дослідженнях представлено на рис. 15.8.2-15.8.13.

450

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]