Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Navch._posibnuk_Ivaschyk

.pdf
Скачиваний:
106
Добавлен:
12.02.2016
Размер:
4.89 Mб
Скачать

n

 

 

 

 

n

 

 

 

n

 

 

 

(xi x )2

= xi2 2xi x + x 2 = xi2 2xxi + nx 2 =

i=1

 

 

 

 

i=1

 

i=1

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

2

 

 

n

 

 

 

 

 

n

n

 

 

xi

 

= xi2 2nx 2 + nx 2 =xi2 nx 2 = xi2

 

i=1

 

=

 

 

n

 

i=1

 

 

 

 

 

i=1

i=1

 

 

 

 

 

1

 

n

2

 

n

2

 

 

 

 

 

 

 

=

 

nxi

xi

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

i=1

 

i=1

 

 

 

 

 

 

 

 

Формула (15.23) є досить вдалою для знаходження значень коефіцієнта кореляції.

Враховуючи (15.19), покажемо альтернативне представлення коефіцієнта кореляції:

r

=

cov(x, y)

=

cov(x, y) var (x)

=

cov(x, y)

var (x)

=

 

 

 

 

 

x,y

 

 

var (x)v ar (y)

 

var (x)var (y)var (x)

 

var (x)

var (y)

 

 

 

 

 

= b

 

 

var (x)

= b σx .

 

 

 

 

(15.24)

 

 

var (y)

 

 

 

 

 

 

 

σy

 

 

 

 

 

 

Отже, вибірковий коефіцієнт кореляції дорівнює відношенню коефіцієнта коваріації до кореня квадратного з добутку двох дисперсій. Коефіцієнт кореляції, на відміну від коефіцієнта коваріації, є вже не абсолютною, а відносною мірою зв’язку між двома факторами і приймає значення з інтервалу [–1;1]. Додатне значення кореляції свідчить про наявність прямого зв’язку між змінними, а від’ємне – про зворотній зв’язок. Якщо коефіцієнт кореляції прямує до ±1, то мова йде про наявність тісного зв’язку між змінними. У той же час, коли він прямує до нуля, є слабшим зв’язок між факторами. Але якщо між змінними існує нелінійне співвідношення, то rxy=0. Тобто якщо нами отримано rxy =0, то не треба спішити з висновками про відсутність зв’язку між змінними. Можна лише робити висновок, що гіпотеза про лінійний зв’язок на основі окресленої інформаційної бази не підтверджується. Тим самим між вибраними змінними може існувати тісний нелінійний зв’язок. Якраз коефіцієнт кореляції дає можливість робити висновок про інтенсивність стохастичного зв’язку тільки при наявності лінійних співвідношень між змінними. Враховуючи структуру формули (15.23), можна записати: rxy=ryx, тобто немає значення, яка змінна залежна, а яка пояснювальна.

431

Вибірковий коефіцієнт кореляції, розрахований на основі вибіркових даних, є точковою оцінкою коефіцієнта кореляції і, в свою чергу, є випадковою величиною. Тому доцільно виконати перевірку гіпотези про відсутність кореляційного зв’язку, тобто перевіряється нульова гіпотеза Н0: r x,y =0 і альтернативна гіпотеза Н1:

r x,y 0.

Розрахувати коефіцієнт кореляції та перевірити нульову гіпотезу можна з допомогою стандартної процедури «Лінійна регресія» програмного продукту STADIA [24, розд. 15.3].

Побудова рівняння регресії дає нам можливість розкласти

значення уі в кожному спостереженні на дві складові:

 

yi = ˆyi + ei .

(15.25)

Величина ˆyi – розраховане (прогнозне) значення результатив-

ного показника в і-му випадку, який він мав би за

умови, що

рівняння регресії було правильним, і відсутній випадковий фактор. Тоді залишок еі є розбіжність між фактичним і прогнозним значенням у, тобто та частина у, яку ми не можемо пояснити з допомогою рівняння регресії. Знайдемо

var (y)

=

ˆ

+

e)

=

 

 

ˆ

 

+

var (e)

+

ˆ

(15.26)

 

var (y

 

 

var (y)

 

 

 

2cov(y,e).

 

 

 

 

 

ˆ

 

=

0, будемо мати:

 

Врахувавши, що cov(y,e)

 

 

 

 

var (y)

=

 

 

ˆ

 

+

var (e).

 

 

(15.27)

 

 

 

var (y)

 

 

 

 

Це співвідношення означає, що ми можемо розкласти загальну

дисперсію var(y) на

дві складові:

 

 

 

ˆ

частина, яка

пояснює

 

var (y)

рівняння регресії (пояснювальна дисперсія) і var(e) – непояснювальна частина (дисперсія помилок або непояснювальна).

У лівій частині (15.27) маємо варіацію залежної змінної у навколо свого вибіркового середнього значення y , а в правій –

варіації розрахункових значень ˆy навколо середнього значення y та фактичних значень у. За означенням дисперсії (15.27) матиме вигляд:

 

 

 

 

 

 

n

 

 

y )

 

 

 

n

 

y )

 

 

 

n

yi )

 

 

 

 

 

 

 

(yi

2

 

(yi

2

 

 

(yi

2

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

ˆ

 

 

 

 

 

 

i=1

 

 

 

 

 

=

 

i=1

 

 

 

+

i=1

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

n

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

 

 

 

 

2 +

n

ˆ

 

 

 

 

 

 

 

або (yi

y )

2

=

ˆ

 

y )

(yi

)

2

,

 

 

 

 

 

 

 

 

(yi

 

 

 

 

 

yi

 

 

 

 

 

i=1

 

 

 

 

 

i=1

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

432

 

 

n

 

 

 

 

 

n

 

 

 

 

де СКЗ

=

(yi

y )

2

– загальна сума квадратів; СКР

=

ˆ

y )

2

 

 

 

 

(yi

 

 

 

 

i=1

 

 

 

 

 

i=1

 

 

 

 

n

сума квадратів, що пояснює регресію; СКП = (yi ˆyi )2 – сума

i=1

квадратів помилок.

СКЗ, СКР і СКП – прийняті в літературі відповідні позначення. Враховуючи наведені позначення, даний вираз можна записати

таким чином: СКЗ = СКР+СКП.

 

 

1

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

σ2заг

=

(yi

y )2

– загальна дисперсія;

 

 

 

n i=1

 

 

 

1 n

 

 

 

 

 

 

 

 

σ2

= σ2

=

 

ˆ

y )

2

– пояснювальна дисперсія;

 

 

 

 

 

 

регр

 

 

поясн

 

 

 

 

 

(yi

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

σ2

= σ2

 

=

1

n

 

 

ˆ

 

 

2

– дисперсія помилок або

 

 

 

 

 

 

 

пом

 

 

непоясн

 

 

 

 

 

(yi

 

yi )

 

n i=1

непояснювальна .

З урахуванням викладеного маємо, що σ2заг = σ2рег + σпом2 .

Кожній заданій вище сумі квадратів ставиться у відповідність певне число, яке називається ступенем її вільності. Воно показує мінімальну кількість незалежних елементів з n результатів спостережень у12,…уn за показником у, яких буде достатньо для обчислення значень відповідних сум.

Підрахуємо ступені вільності сум СКЗ, СКР та СКР. Для визначення СКЗ треба підрахувати n значень із множини {(yi y ),,(yn y )}, які в свою чергу мають властивість:

n

(yi y )2 = 0 .

i=1

Тому серед згаданої множини незалежними будуть тільки (n–1) чисел. Отже, ступінь вільності суми СКЗ дорівнює n–1.

Для визначення СКР використовують n значень {(ˆy1 y ),...,(ˆyi y )}, кожне з яких є певною функцією всіх

результатів спостережень {yi }. Можна довести, що

 

 

n

 

 

 

 

n

 

 

 

 

СКР

=

ˆ

y )

2

= β

(xi

x )

2

.

 

(yi

 

 

 

 

 

 

 

i=1

 

 

 

 

i=1

 

 

 

 

Отже, сума квадратів, що пояснює просту лінійну регресію, може бути утворена завдяки використання тільки однієї одиниці

433

є пропорцією дисперсії помилок у загальній

незалежної інформації, тобто β. Звідси, СКР має тільки один ступінь вільності.

Нарешті, сума квадратів помилок має (n–2) ступені вільності. Дійсно, для підрахування значень СКП потрібно мати n значень{yi }

та {yˆi}. Кількість ступенів вільності для цієї суми розраховується як

різниця між кількістю спостережень і кількістю параметрів, що оцінюється. Так, у випадку простої лінійної регресії оцінюється два параметри α та β. Тому для вказаної суми маємо (n–2) ступенів вільності.

Розглянуті вище суми квадратів та відповідні їм ступені вільності складають основу економетричного аналізу відносно використання поняття про середні квадрати. Середнім квадратом називається величина, яка отримана у результаті ділення суми квадратів на відповідний їм ступінь вільності. Позначимо середній

квадрат помилок через КП , а середній квадрат, що пояснює регресію, через КР. Для випадку парної лінійної регресії, відповідно

 

 

 

СКП

 

 

 

СКР 1

 

отримаємо

КП =

і КР =

= СКР. Ці величини можна

(n - 2)

1

 

отримати з допомогою процедури однофакторного дисперсійного аналізу продукту STADIA [24, розд.8].

Далі поділимо обидві частини (15.27) на var(y) і отримаємо:

 

ˆ

 

var (e)

 

1 =

var (y)

+

 

 

 

.

(15.28)

var (y)

var (y)

Як можна побачити з виразу (15.27), перша частина varvar ((ˆyy)) є

складовою дисперсії, яку можна пояснити через лінію регресії. Друга

частина var (e) var (y)

дисперсії, тобто є частиною дисперсії, яку не можна пояснити через регресійний зв’язок.

Частина дисперсії, що пояснюється регресією, називається

коефіцієнтом детермінації і позначається R2:

 

 

 

 

 

 

R

2

=

var (ˆy)

або

R

2

=

СКР

,

(15.29)

 

var (y)

 

СКЗ

434

var (e)

 

що рівносильне R2 =1var (y) .

(15.30)

Максимальне значення R2 рівне одиниці за умови, що лінія регресії точно відповідає всім спостереженням ( yˆi = yi ) і всі залишки

рівні нулю. Тоді var (ˆy)= var (y). Якщо для вибірки відсутній

зв’язок між змінними у і х, то коефіцієнт R2 буде близький до нуля. Покажемо, що коефіцієнт детермінації рівний квадрату

коефіцієнта кореляції:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

ˆ

+

 

ˆ

 

 

 

 

 

ˆ ˆ

 

+

ˆ

 

r

=

cov(y, y)

 

 

=

cov(y

 

e, y)

=

cov(y, y)

 

cov(e, y)

=

 

 

 

 

ˆ

 

 

 

ˆ

 

 

ˆ

y ,yˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

var (y)var (y)

 

var (y)var (y)

 

 

 

 

var (y)var (y)

 

 

 

 

ˆ ˆ

+

0

 

 

 

 

ˆ

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

=

 

cov(y, y)

 

 

=

 

 

var (y)

 

 

=

var (y)

=

R2

= R .(15.31)

 

 

 

 

ˆ

 

 

 

ˆ

var

(

y

)

 

 

var (y)var (y)

 

 

var (y)var (y)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При знаходженні коефіцієнта кореляції можна використати процедуру «Кореляция» блоку «Параметрические тесты» програмного продукту STADIA [24. розд.5].

Приклад 15.2. Змінні Lc1, Lc2 з файлу TST містять дані про ціну акцій двох видів за 12 останніх років:

Lc1: 20.1; 23.6; 26.3; 19.9; 16.7; 23.2; 31.4; 33.5; 29.3; 30.5 Lc2: 7.2; 7.1; 6.1; 6; 7.4; 9.4; 8.8; 10.4; 8; 9.7

Необхідно визначити ступінь і достовірність корельованості ціни акцій цих видів.

ПАРАМЕТРИЧЕСКАЯ КОРЕЛЯЦИЯ. Файл tst.std Переменные: lc1,lc2

Коэфф. кореляции = 0,8516 Т= 5,138. Значимость = 0,0006, степ.своб.=10

Гипотеза 0:< Коэффициент кореляции отличен от нуля >. Висновки. Перевірка нульової гіпотези (рівень значущості

рівний 0,0006, що значно менше за 0,05) свідчить про значну кореляцію між цінами акцій цих видів.

435

15.5. Умови Гаусса-Маркова для випадкової змінної

При використанні МНК для знаходження оцінок параметрів моделі випадкова змінна (збурення, випадковий член) повинна задовольняти чотири умови, які мають назву умови Гаусса-Маркова.

1. Математичне сподівання випадкової змінної для всіх спостережень рівне нулю: M(ui)=0. Інколи випадковий член моделі буде додатнім, інколи від’ємним, але він не повинен мати систематичного зміщення ні в один із двох можливих напрямків.

Дійсно, якщо рівняння регресії містить постійний член, то можна припустити, що ця умова виконується автоматично, оскільки роль константи полягає у визначенні довільної систематичної тенденції для змінної у, яку не враховують пояснювальні змінні.

2. Дисперсія випадкової змінної повинна бути постійною для всіх спостережень: M (ui2 )= σu2 .

Трапляються випадки, коли випадковий член буде більший, часом менший, проте не повинно бути апріорної причини для того, щоби він породжував більшу помилку в одних спостереженнях, ніж в

інших.

 

 

Ця умова запишеться таким чином:

 

var(ui2

)= σi2 ,

(15.32)

де σi2 – постійна дисперсія.

 

var (ui )= M (ui2 ),

Враховуючи першу властивість і те, що

отримаємо:

)= σu2 .

 

M (ui2

(15.33)

Оскільки, величина σu невідома, то задача регресійного аналізу

якраз і полягає в оцінці стандартного відхилення випадкового члена. Якщо друга умова не виконується, то коефіцієнти регресії, знайдені з допомогою звичайного МНК, будуть неефективними. Для отримання більш надійних результатів необхідно використати

модифіковані МНК, 3. Відсутність систематичного зв’язку між значеннями

випадкової змінної в будь-яких двох спостереженнях:

M (ui u j )= 0,i j .

Якщо випадковий член великий і додатній в одному спостереженні, то це не повинно зумовлювати систематичну тенденцію до того, що він буде великим і додатнім в наступних

436

спостереженнях (або великим і від’ємним, або малим і додатнім, або малим і від’ємним). Випадкові члени повинні бути абсолютно незалежними один від одного.

Оскільки M(ui)=M(uj)=0, то окреслена умова запишеться таким

чином:

 

M (uiu j )= 0,i j .

(15.34)

4. Випадкова змінна повинна бути розподілена незалежно від пояснювальних змінних: М(xi uі)=0.

Значення будь-якої незалежної змінної в кожному спостереженні повинно вважатися екзогенним, повністю визначеним зовнішніми причинами, неврахованих в рівнянні регресії.

Якщо умова виконується, то теоретична коваріація між незалежною змінною і випадковим членом рівна нулю. Оскільки

М(uі)=0, то

Cov(xi ,ui ) = M {(xi x )ui }= M (xiui )xM (ui ) = M (xiui ). (15.35)

Отже, умова матиме вигляд:

 

M (xiui )= 0 .

(15.36)

Крім наведених вище умов припускається дотримання нормального закону розподілу випадкового члена. Якщо випадковий член нормально розподілений, то так і будуть розподілені коефіцієнти регресії.

Припущення відносно нормальності ґрунтується на центральній граничній теоремі, яка стверджує: якщо випадкова величина є загальним результатом взаємодії великого числа інших випадкових величин, жодна з яких не є домінуюча, то вона буде мати приблизно нормальний розподіл, навіть якщо окремі складові не мають нормального розподілу.

15.6. Властивості оцінок параметрів регресії

Першою властивістю оцінок параметрів регресії є незміщеність. Вибіркова оцінка b параметра β називається незміщеною, якщо

вона задовольняє рівність М{b}=β.

На основі формули (15.22) покажемо, що величина b буде незміщеною оцінкою β, якщо виконується умова чотири ГауссаМаркова. Оскільки β = cоnst, то маємо:

437

 

 

 

 

 

 

 

 

cov(x,u)

cov(x,u)

 

M {b}= M β+

 

 

= β+ M

 

.

(15.37)

var (x)

var (x)

 

 

 

 

 

 

 

 

 

 

 

 

Далі використаємо (15.36) і припустимо, що х – невипадкова величина. Тоді можна вважати Var(x) відомою сталою величиною і, таким чином,

1

 

M {b}= β+ var (x)M {cov(x,u)}= β.

(15.38)

Отже, b – незміщена оцінка β.

Незміщеність є мінімальною вимогою, яка ставиться до оцінки параметра β. Якщо оцінка незміщена, то при багаторазовому повторенні випадкової вибірки, навіть якщо для окремих вибірок, можливо, були помилки оцінки (помилка bβ є випадковою величиною), середнє значення цих помилок дорівнює нулю. Різниця між математичним сподіванням оцінки та кількісним значенням оціненого параметра θ = M(b) – β називається зміщенням оцінки. На відміну від помилки оцінки зміщення є сталою величиною.

Так само можна довести, що величина а буде незміщеною

оцінкою для α. Для цього використаємо (15.15):

 

M {a}= M {y bx}= M {y}xM {b}.

(15.39)

Оскільки, у визначається з допомогою (15.1), тоді

 

M {yi}= M {α + βxi + ui }= α + βxi + M (ui )= α + βxi ,

(15.40)

так як згідно з першою умовою Гаусса-Маркова M {ui }=0.

 

Отже,

 

M {y} = α +βx .

(15.41)

Підставимо цей вираз у (15.39) і скористаємось

тим, що

M{b}= β, дістанемо:

 

M {a} = (α +βx )−βx = α ,

(15.42)

що і потрібно було довести.

Наступною властивістю оцінки є її обґрунтованість. Вибіркова оцінка b параметра β називається обґрунтованою, якщо для дуже

малого числа ε>0 cправджується умова

 

lim p

{

 

b −β

 

< ε =1.

(15.43)

 

 

n→∞

 

 

 

}

 

 

 

 

Тобто оцінка обґрунтована, якщо вона задовольняє закон

великих чисел. Обґрунтованість помилки

означає, що чим більші

438

будуть вибірки, тим більша ймовірність того, що помилка оцінки не перевищує як завгодно малого числа ε.

Третьою властивістю оцінки b є ефективність. Вона пов’язана з величиною дисперсії оцінок. На основі означення дисперсії маємо, що var(b) є параметром розподілу випадкової величини β, яка є мірою розсіювання її значень навколо математичного сподівання.

Вибіркова оцінка b параметра рівняння регресії β називається ефективнoю, якщо дисперсія цієї оцінки є найменшою величиною в класі незміщених оцінок.

Припустимо, що b є ефективною оцінкою параметра β, а β′

інша оцінка цього параметра. Тоді відношення

var(β)

= k

 

 

var(β′)

називається ефективністю оцінки, причому k (0;1]. Чим ближче k до

одиниці, тим більш ефективною є оцінка. При k=1 отримуємо асимптотично ефективну оцінку.

Четвертою властивістю оцінки є інваріантність. Оцінка b параметра β називається інваріантною, якщо для довільно заданої функції f оцінка параметра функції f(b) подається у вигляді f(β). Тобто інваріантність оцінки ґрунтується на тому, що у випадку функціонального перетворення параметра β з допомогою деякого функціоналу f таке саме перетворення, виконане відносно β, дає оцінку f(b) нового параметра. Наприклад, якщо відома оцінка дисперсії генеральної сукупності і вона інваріантна, то оцінку середньоквадратичного відхилення можна отримати, добувши квадратний корінь із оцінки дисперсії. Коефіцієнт кореляції R є інваріантною оцінкою до коефіцієнта детермінації

R2 (R = R2 ).

Теорема Гаусса-Маркова. Якщо для залишкового члена рівняння (15.1) виконуються умови Гаусса-Маркова, то оцінки а та b (формули 15.14, 15.15), розраховані за методом найменших квадратів, мають найменшу дисперсію в класі всіх лінійних незміщених оцінок.

Теорема показує, що оцінки, розраховані за МНК, мають такі властивості: є лінійними функціями значень у без відхилень, мають найменшу дисперсію з усіх можливих методів оцінювання.

Для знаходження значень дисперсій параметрів а та b використаємо такі формули:

439

 

 

 

n

 

 

 

 

2

 

 

xi2

 

 

 

i=1

 

 

 

 

Var (a)= σe

 

 

 

 

,

(15.44)

n

 

 

 

 

 

n(xi x )2

 

 

 

i=1

1

 

 

 

 

Var (b)= σe2

 

 

 

,

(15.45)

 

n

 

 

 

 

n(xi

x )2

 

i=1

n

ei2

де σe2 = ni=12 .

15.7. Перевірка значущості та довірчі інтервали

Оскільки статистика як метод дослідження має справу з даними, в яких досліджувані аналітиком закономірності створені різними випадковими факторами, тому більшість статистичних досліджень супроводжується перевіркою деяких припущень або гіпотез про джерела цих даних.

Основне перевірочне припущення називається нульовою гіпотезою і переважно формулюється як відсутність різниць, відсутність впливу фактора, рівність нулю значень вибіркових характеристик і т.д.

Друге перевірочне припущення (не завжди строго протилежне або обернене першому) називається конкуруючою або альтернативною гіпотезою.

При перевірці статистичних гіпотез можливі помилки (помилкові тлумачення) двох видів:

можна відкинути нульову гіпотезу, коли вона насправді правильна (помилка першого роду);

можна прийняти нульову гіпотезу, коли вона насправді не правильна (помилка другого роду).

Питання відносно перевірки гіпотез розглянемо з двох позицій. По-перше, можемо припустити, що спочатку формулюється гіпотеза,

амета дослідження полягає у виясненні її можливого використання. У цьому випадку виникає завдання перевірки гіпотези на значущість. По-друге, ми можемо спочатку провести експеримент і потім визначити, які із теоретичних гіпотез відповідають результатам дослідження, що призведе до побудови довірчих інтервалів.

440

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]