Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Navch._posibnuk_Ivaschyk

.pdf
Скачиваний:
106
Добавлен:
12.02.2016
Размер:
4.89 Mб
Скачать

та визначення впливу пояснювальних змінних на залежну змінну – друга задача регресійного аналізу.

За виглядом скупчення точок можна висунути гіпотезу про лінійність або нелінійність взаємозв’язку між змінними. Так, на діаграмі 15.2.2 а, г маємо яскраво виражені лінійні тенденції скупчення точок. Спробуємо апроксимувати залежності, зображені на цих діаграмах, лінійною функцією регресії. Звичайно, ці тенденції існують лише в середньому. Вони порушені відхиленням окремих точок. Відхилення від прямої пояснюється впливом інших неврахованих факторів.

Діаграма розсіювання дозволяє провести детальний аналіз емпіричних даних. Якщо геометричне зображення залежності трьох змінних у просторі ще можливе, хоч і утруднене, то при більшому числі змінних це представлення неможливе.

Припустимо, що за виглядом діаграми розсіювання ми встановили лінійний характер залежності усереднених значень результативної змінної. Виразимо цю залежність за допомогою оціночної функції лінійної регресії:

yˆ = a + bx ,

(15.2)

де a та b відповідно є оцінками параметрів α та β рівняння (15.1). Знак «^» над у означає оцінку залежної змінної, отриману з рівняння (15.2) при деяких усереднених умовах. Отже, під простою регресією розуміється одностороння стохастична залежність результативної змінної від однієї пояснювальної змінної.

y

 

ˆ

 

y

yi

 

 

 

Ai

 

 

 

 

 

 

 

ei = yi yˆi

ˆ

 

 

 

 

 

yˆ = a +bx

yi

 

 

 

 

 

 

 

 

Bi

 

 

γ

 

 

 

 

 

 

 

 

0

xi

x

Рис. 15.2.4. Регресійна пряма та її параметри

421

Постійна величина a визначає точку перетину прямої регресії з віссю ординат (рис. 15.2.4) і є середнім значенням у точці х0 = 0. Зрозуміло, що економічна інтерпретація a не тільки утруднена, а й взагалі неможлива. Величина a у рівнянні регресії лише виконує функцію вирівнювання і має розмірність у. При цьому слід відзначити, що завдяки постійній a функція регресії непомилкова. Рівняння регресії інтерпретується тільки в області скупчення точок і, як наслідок, тільки між найменшим і найбільшим значенням змінної х, яка спостерігається. Більш практичний інтерес представляє економічний зміст величин b та yˆ .

Коефіцієнт b характеризує нахил прямої до осі абсцис. Позначимо через α кут, який пряма утворює з віссю абсцис. Тоді b = tg α. Коефіцієнт регресії b є мірою залежності змінної у від х або мірою впливу, виявленою зміною х на у. Відповідно до рівняння (15.2) b визначає середню величину зміни результативного показника при зміні пояснювальної змінної х на одну одиницю. Знак b визначає напрямок цієї зміни, а розмірність цього коефіцієнта є відношенням розмірності залежної змінної до розмірності пояснювальної змінної.

Після визначення числових оцінок параметрів можна за рівнянням (15.2) обрахувати значення yˆi для кожного значення

пояснювальної змінної хі . Це значення називають розрахунковим. При лінійній функції сукупність розрахункових значень

утворює пряму регресії. Як зазначалося раніше, через випадковий вплив сторонніх факторів для кожного значення хі може спостерігатися декілька емпіричних значень уі, тобто кожному значенню х відповідає розподіл значень змінної у. Значення функції регресії yˆi таким чином є оцінками середніх значень змінної у для

кожного фіксованого значення змінної х.

Звідси випливає економічна інтерпретація yˆi . Значення регресії yˆi показують середнє значення залежної змінної у при заданому хі

пояснювальної змінної у припущенні, що єдиною причиною зміни у є змінна х, а випадкова збурена змінна u набула значення, рівне нулю. Розкид спостережених значень змінної у довколаˆyi зумовлений

впливом множини неврахованих факторів. Різницею між емпіричним

 

ˆ

назвемо залишком, який дає числову

значенням уі і розрахунковим yi

оцінку значенням збуреної

змінної

u (рис. 15.2.4). Отже, числове

значення е визначається як

yi

ˆ

=

ei ,i

=

 

 

 

yi

 

 

1,n. Зрозуміло, що чим

менше значення еі, тим більш вдало вибрана пряма.

422

Таким чином, ми підійшли до проблеми оцінювання невідомих параметрів α та β шляхом відповідних процедур, одна з яких має назву – метод найменших квадратів.

15.3. Метод найменших квадратів

Провівши економічний аналіз певного процесу з врахуванням характеру хмарки точок на діаграмі розсіювання, переходимо до вирівнювання дослідних даних, яке полягає у побудові гіпотетичної лінії. Основною вимогою при цьому є зведення до мінімуму помилок специфікації форм зв’язку між змінними. Ці помилки визначаються через відхилення емпіричних даних уі від значень регресії ˆyi , тобто

вони формують значення збуреної змінної е.

 

yi ˆyi = ei .

(15.3)

З графіка (рис. 15.2.4) бачимо, що еі – відхилення дослідної точки від оціночної прямої, виміряне по вертикалі. Це відхилення може бути додатнім чи від’ємним залежно від того, по яку сторону від лінії розміщена конкретна точка.

При виборі прямої можна висунути вимогу, щоби сума відхилень всіх точок від лінії регресії була рівна нулю, тобто

n

ˆ

 

n

 

 

 

(yi

=

ei

=

0 .

(15.4)

yi )

 

 

i=1

 

 

i=1

 

 

 

Умова (15.4) означає, що сума додатних відхилень повинна бути рівною сумі від’ємних. Дотримання окресленої умови не дає можливості однозначно визначити розміщення вирівнювальної прямої на площині. Цю умову задовольняє нескінчена множина прямих (рис. 15.3.1), тобто ми маємо пучок прямих, які проходять через задану точку з координатами ( хі; уі).

y

y

 

*

*

*

*

*

*

*

 

**

* **

* *

* * *

***** **

0

x

x

Рис. 15.3.1. Пучок регресійних прямих

423

Відповідно до зазначених міркувань обчислимо вибіркову дисперсію, що характеризує міру розсіювання дослідних значень ( xi , yi ) довкола значень регресії, тобто дисперсію залишків еі

(залишкову дисперсію):

 

n

yi )

 

 

n

 

 

 

(yi

2

 

e1

 

 

 

 

ˆ

 

2

 

 

Se2 =

i=1

 

 

=

i=1

.

(15.5)

n 2

 

n 2

 

 

 

 

 

Вираз у знаменнику вказує на число ступенів вільності v. Визначається воно такою формулою: v=nm–1, де n – обсяг вибірки; m – число параметрів регресії

Оскільки для простої лінійної регресії існує тільки одна пояснювальна змінна (m=1), то число ступенів вільності буде: v=n–1– 1 = =n–2. Врахування числа ступенів вільності дає можливість отримати незміщену оцінку дисперсії.

Корінь квадратний із виразу (15.5) є стандартною помилкою оцінки регресії.

Вимогу про те, що міра розсіювання дослідних точок від гіпотетичної лінії повинна бути мінімальною з врахуванням (15.5), можна представити таким чином:

 

 

n

ˆ

2 =

n

 

 

 

F (a,b)

=

(yi

2

min.

(15.6)

 

yi )

 

ei

 

 

 

i=1

 

 

i=1

 

 

 

тобто сума квадратів відхилень емпіричних значень змінної у від значень, обчислених за рівнянням прямої, повинна бути мінімальною. За такої обставини задачі мова йтиме про відхилення, виміряні по вертикальній осі (рис. 15.3.2).

y

ˆy5

 

 

y4

ˆ

=

a

+

bx

 

 

y

 

 

ˆ

y5

 

 

 

 

 

y3

ˆy4

 

 

 

 

y2

y3

 

ˆy1

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

y2

 

 

y1

 

 

 

 

 

x

0

 

 

 

 

 

Рис.15.3.2.Графічне представлення методу найменших квадратів

424

Метод, в основу якого покладена вимога мінімізації суми квадратів відхилень, називається методом найменших квадратів (МНК). З його допомогою знаходять такі оцінки параметрів рівняння регресії, які зводять до мінімуму вибрану міру розсіювання. При цьому проходить вирівнювання емпіричних значень в одну лінію регресії. У випадку лінійного зв’язку між змінними ця лінія є прямою (пряма регресія).

Таким чином, проблема визначення прямої регресії зводиться до мінімізації функції (15.6). Необхідною умовою цього є перетворення в нуль перших частинних похідних цієї функції по кожній змінній а

 

 

n

 

n

ˆ

2 =

n

 

 

 

 

 

 

та b. ОскількиF (a,b)

=

2

=

(yi

(yi

a

bxi )

2

, то

 

ei

 

yi )

 

 

 

 

 

 

i=1

 

i=1

 

 

i=1

 

 

 

 

 

 

FaFb

n

= −2(yi a bxi )= 0,

i=1

n

= −2(yi a bxi )xi = 0.

i=1

Результатом виконання відповідних перетворень є система нормальних рівнянь відносно невідомих а та b.

 

n

 

n

na +bxi = yi ,

 

i=1

 

i=1

 

n

n

n

axi +bxi2 = xi yi .

 

i=1

i=1

i=1

Розв’язки системи:

 

 

n

n

 

 

n

 

 

n

 

a =

yi

xi2 xi xi yi

,

i=1

i=1

 

i=1

 

i=1

 

 

 

n

 

 

n

 

 

2

 

 

 

nxi2

xi

 

 

 

 

 

i=1

 

 

i=1

 

 

 

 

 

n

 

 

n

 

n

 

 

 

 

b =

 

nxi yi

xi yi

 

i=1

 

i=1

 

i=1

 

 

.

 

 

 

 

 

 

2

 

 

 

 

n

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nxi2

 

xi

 

 

 

 

 

 

i=1

 

 

i=1

 

 

 

 

 

(15.7)

(15.8)

(15.9)

Значення a та b, обчислені за формулами (15.8) і (15.9), є оцінками параметрів α та β регресії, отриманої МНК. Маючи значення a та b, можна, користуючись (15.6), обрахувати значення регресії для заданої області значень пояснювальної змінної х. Ці значення є найкращими з точки зору МНК лінійною апроксимацією

425

для емпіричних значень уі, оскільки вибрана міра розсіювання – стандартне відхилення Se – зводиться при цьому до мінімуму.

Приклад 15.1. Побудувати економетричну модель впливу вартості основних виробничих фондів на обсяг отриманого прибутку деяким умовним підприємством регіону. Статистичні дані для розрахунку і необхідні величини для побудови системи нормальних рівнянь наведені в таблиці 15.1.

Розв’язування.

Побудуємо діаграму розсіювання залежності обсягу прибутку (у) від вартості основних виробничих фондів підприємства (х).

Розміщення точок на діаграмі розсіювання (рис. 15.3.3) дає можливість зробити припущення про існування лінійної форми зв’язку у вигляді функції (15.2):

ŷ=а+bх,

де ŷ – розрахунковий обсяг прибутку, млн. грн.; х – вартість основних виробничих фондів, млн. грн. Для знаходження параметрів а та b будуємо систему нормальних рівнянь:

10a + 41,1b = 30,8,41,1a +181,5b =141,84.

Розв’язавши окреслену систему рівнянь відомим методом чи скориставшись формулами (15.8) і (15.9), отримуємо: а =-1,8989; b = =1,2114.

y

5

 

ˆ

=

-1,8989+1,211x

 

 

4

y

 

 

 

3

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

0

1

1,5

2

2,5

3

3,5

4

Рис. 15.3.3. Діаграма розсіювання та регресійна пряма, що відображає залежність прибутку від основних фондів

426

Таблиця 15.1 Вплив вартості основних виробничих фондів

на прибуток підприємства

Прибуток,

Основні фонди,

x2

ху

підприємства

млн. грн. уі

млн. грн. хі

i

і і

1

1,2

2,5

6,25

3,0

2

1,5

2,8

7,84

4,2

3

1,9

3,0

9,0

5,7

4

2,2

3,6

12,96

7,92

5

2,8

3,9

15,21

10,22

6

3,1

4,2

17,64

13,02

7

3,4

4,5

20,25

15,3

8

4,5

5,0

25,0

22,5

9

4,8

5,6

31,36

26,88

10

5,4

6,0

36,0

32,4

Всього

30,8

41,1

181,51

141,84

Отже, отримано регресійне рівняння yˆ = -1,8989 + 1,2114х. Розглянемо методику оцінювання параметрів з допомогою

методу відхилень від середніх арифметичних. Основу цього методу складають властивості оцінок, знайдених МНК, які полягають в тому, що лінія регресії обов’язково проходить через точку середніх значень x , y .

Виписуємо перше рівняння системи (15.7) і

ділимо його на

величину n:

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

 

na +bxi

 

 

 

yi

 

 

 

i=1

 

 

=

 

i=1

.

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

n

 

У результаті ділення отримаємо:

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

n

 

a +b

xi

 

 

 

yi

 

i=1

 

=

 

i=1

.

(15.10)

n

 

 

 

 

 

 

 

 

n

 

Отже, y = a +bx .

Таким чином, перше рівняння системи потребує, щоби лінійна регресія проходила через центр ваги множини експериментальних точок. Далі віднімемо (15.10) від (15.2):

427

ˆy = a +bx,

 

 

 

 

 

 

 

 

 

 

 

y = a +bx ,

 

 

(15.11)

− − − − − − − − −

 

ˆ

y

=

a

+

b(x

x ).

y

 

 

 

 

Зробимо заміну: yi y = Yi , xi

x = X i

ˆ

= bXi .

Yi

Знайдемо величини відхилення розрахункових:

ˆ − = ˆ

та yi y Yi . Отримаємо: (15.12)

фактичних значень від

ei =Yi Y i =Yi bXi .

Тоді:

 

 

 

 

 

 

 

n

 

n

 

 

 

 

 

 

 

 

ei2

= (Yi bXi )2 .

 

(15.13)

 

 

 

 

 

 

i=1

 

i=1

 

 

Записуємо умову мінімуму для (15.13) відносно невідомого

параметра b:

 

 

 

 

 

 

 

 

 

 

 

d

n

 

 

 

n

 

n

 

 

 

(Yi bXi )2 = −2(Yi bXi )Xi = −2(Yi Xi bXi2 )=

 

 

 

 

 

db i=1

 

 

 

i=1

 

i=1

 

 

 

 

= −2

 

n

n

 

= 0 .

 

 

 

 

 

XiYi bXi2

 

 

 

Отже,

 

i=1

i=1

 

 

 

 

 

 

n

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b =

XiYi (xi x )(yi y )

.

(15.14)

 

 

 

 

i=1

 

=

i=1

 

 

 

 

 

n

 

 

n

 

 

 

 

 

Xi2

 

(xi x )2

 

 

 

 

 

 

 

i=1

 

 

 

 

i=1

 

 

Параметр а знайдемо з умови (15.10): a = y bx .

Розглянемо ще один варіант обчислення Помножимо чисельник та знаменник виразу (15.14) на

Отримаємо:

1

n

 

 

(xi x )(yi y )

 

b =

n i=1

 

.

 

n

 

 

1

(xi x )2

 

 

 

n i=1

 

(15.15)

параметра b. 1n .

(15.16)

428

Чисельник (15.16) є коефіцієнтом коваріації між х та у. За означенням коефіцієнт коваріації між двома змінними х та у визначається за формулою:

 

 

1

n

 

 

 

 

 

 

 

1

n

 

 

cov(x, y)=

(xi x )(yi y )=

 

xi yi x y .

 

(15.17)

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

n i=1

 

 

Знаменник (15.16) є дисперсію змінної х:

 

 

 

 

 

 

 

1

 

n

1

 

 

n

 

 

 

var (x)=

 

(xi x )2 =

xi2 x 2 .

 

(15.18)

 

 

 

 

 

Отже,

 

 

 

 

n i=1

n i=1

 

 

 

 

 

 

1

n

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

cov(x, y)

 

 

xi yi x y

 

 

xi yi n x y

 

 

b =

=

 

n i=1

=

 

i=1

.

(15.19)

var (x)

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

1 xi2 x 2

 

 

 

xi2 n x 2

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

i=1

 

 

Звідси зрозуміло, що b також містить випадкову складову, оскільки cov(x,y) залежить від значень у, а у залежить від u.

Теоретично можна розкласти b на випадкову та невипадкову складові. Для цього використаємо правила розрахунку коваріації та співвідношення (15.1), отримаємо:

cov(x, y)= cov(x,α +βx +u)= cov(x,α)+cov(x,βx)+cov(x,u). (15.20)

На основі коваріаційних правил маємо:

cov(x,α)= 0,cov(x,βx)= βcov(x,x)= βVar (x).

Отже,

 

 

 

 

 

 

cov(x, y)var (x)+ cov(x,u)

 

(15.21)

і, таким чином,

cov(x, y)

 

cov(x,u)

 

 

b =

= β+

.

(15.22)

 

 

 

var (x)

var (x)

Це означає, що коефіцієнт b є сумою двох складових: постійної величини, рівної дійсному значенню коефіцієнта β та випадкової складової, яка залежить від cov(x,u).

Аналогічні міркування можна зробити відносно параметра а. Проте на практиці ми не можемо розкласти коефіцієнти регресії на складові, оскільки не знаємо дійсних значень α і β або фактичних значень u у вибірці.

Далі розглянемо основні властивості простої вибіркової лінійної регресії.

429

1. Регресійна пряма проходить через середню точку ( x, y ), тобто сума помилок дорівнює нулю.

2.Залишки мають нульову коваріацію зі спостережуваними значеннями х і оціненими значеннями ˆyi .

3.Сума квадратів залишків є функцією від кута нахилу.

15.4. Коефіцієнти кореляції та детермінації

Після побудови регресійної моделі необхідно оцінити тісноту зв’язку між результативною та факторною змінними. Для цього необхідно розрахувати коефіцієнт кореляції, який саме характеризує ступінь щільності лінійної залежності між випадковими величинами (х, у). Він розраховується за формулою:

 

r

=

cov(x,y)

=

 

 

 

 

x,y

 

var (x)var (y)

 

 

 

 

 

 

 

n

 

 

 

=

(xi x )(yi y )

=

i

=1

 

 

 

 

 

 

 

n

 

n

 

 

(xi x )2 (yi y )2

 

 

i=1

 

i=1

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi x )(yi y )

 

=

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

1

n

 

 

 

 

 

 

 

 

 

(xi x )2

(yi y )2

 

 

 

 

n i=1

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

n

 

n

 

n

 

 

 

 

 

 

 

 

 

nxi yi xi

yi

 

 

 

 

 

.(15.23)

 

 

 

i=1

 

i=n

 

i=1

 

 

 

 

 

 

n

 

n

2

n

 

 

 

n

2

 

n xi2

xi

nyi2

yi

 

 

i=1

 

i=1

 

i=1

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Справді,

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

(xi x )(yi y )=(xi yi xi y xyi + x y )=

i=1

 

 

 

 

i=1

 

 

 

 

 

 

 

 

n

 

n

 

 

 

 

n

 

 

 

 

 

= xi yi yxi x yi + nx y =

 

 

 

i=1

 

i=1

x

 

i=1

y

 

 

 

n

 

n

 

nn

 

 

 

= xi yi yn

 

i

 

xn

i

+ nx y

=

 

 

 

 

 

 

 

i=1

 

i=1

n

 

i=1

n

 

 

 

n

 

 

 

 

 

 

 

 

n

 

 

 

 

= xi yi 2nx y + nx y = xi yi nx y =

 

 

i=1

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

xi yi

1

 

n

 

n

n

 

 

 

i=1

i=1

 

 

 

 

 

 

 

 

= xi yi

 

=

 

 

 

n xi yi xi

yi .

 

n

 

 

n

=

 

 

 

 

 

 

 

=

 

=

=

 

i 1

 

 

 

 

 

 

 

 

 

i 1

 

i 1

i 1

430

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]