Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
7-9_last.doc
Скачиваний:
37
Добавлен:
19.12.2018
Размер:
2.41 Mб
Скачать

7 Регресійний аналіз

Регресійний аналіз (лінійний) - статистичний метод дослідження залежності між залежною змінною Y і однією або декількома незалежними змінними X1, X2, ..., Xp. Незалежні змінні інакше називають регресорами або предикторами, а залежні змінні - критеріальними.

Регресійний аналіз використовується для визначення загального вигляду рівняння регресії (найчастіше використовується лінійна модель), оцінки параметрів цього рівняння, а також перевірки різних статистичних гіпотез щодо регресії.

Регресійний аналіз має ту ж саму мету, що й кореляційний аналіз – виміряти величину зв'язку між змінними.

Відмінності регресійного аналізу від кореляційного аналізу:

  • регресійний аналіз дає можливість графічно представити результат у вигляді лінії (regressio - лат.), що прагне максимально точно відобразити залежність однієї змінної від інших;

  • кореляційний аналіз залишає без уваги, навіть формально, питання щодо причинно-наслідкових зв'язків між змінними. Регресійний аналіз припускає, що до початку аналізу відома одна залежна змінна, на яку можуть впливати інші;

  • у рамках регресійного аналізу має сенс поняття прогнозування значень залежної змінної від незалежних.

7.1 Попередній аналіз даних

Всі методи регресійного аналізу використовують апарат математичної статистики, що вимагає від вхідних даних, щоб вони були порівнянні і однорідні. Для виявлення закономірностей необхідно, щоб зв'язок був стійкий, а кількість спостережень була досить великою.

Порівнянність: формування вибірок за однією й тією ж методикою, використання однакових одиниць виміру і, по можливості, постійного кроку спостереження.

Однорідність: відсутність сильних зломів і нетипових аномальних спостережень (різкий стрибок з подальшим відновленням).

Стійкість: перевага закономірності над випадковістю. Графік діаграми дозволяє провести візуальний аналіз даних.

(точки розташовані у вигляді (точки розкидані)

вузької смуги)

7.2 Припущення, які використовує регресійний аналіз

Розглянемо основні передумови регресійної моделі.

І припущення полягає в тому, що між змінними Х та Y постулюється зв'язок , тобто виконана ідентифікація змінної Х, що впливає на змінну Y.

Парна регресія встановлює зв'язок однієї випадкової величини від іншої.

Множинна регресія встановлює зв'язок однієї випадкової величини від декількох випадкових змінних.

Ця залежність є статистичною, оскільки, крім виділеної змінної X, на Y діє ряд неконтрольованих факторів, а також накладаються похибки вимірювань.

Значення залежної змінної піддані випадковому розсіюванню і можуть бути передбачені тільки з певною ймовірністю.

Статистична залежність є однобічною. Тому розрізняють регресію X на Y і Y на X .

Для функціональної залежності може існувати обернена функція ( обернена ). Регресія такої властивості не має.

У класичній регресійній моделі припускають, що значення змінної X є невипадковими величинами. Вони або фіксовані (як, наприклад, у часових рядах моменти часу t1, t2, ..., tn), або керовані (контрольовані). В останньому випадку реалізацію у випадкової змінної Y називають реакцією системи на керування. Типовий приклад: незалежна змінна являє собою кількість добрив, внесених на поле (керування), а залежною змінною служить розмір урожаю, зібраного на цьому полі (відгук). Таке допущення дозволяє замість зіставлення двох випадкових величин Y і X вести мову про залежність випадкової величини Y від невипадкового (керованого) параметра х.

II припущення полягає у специфікації форми зв'язку Y і Х. Оскільки вхідні дані можна описати за допомогою різних типів функцій (лінійної, логарифмічної, поліноміальної та ін.), необхідно за допомогою статистичного аналізу вибрати серед альтернативних варіантів «кращий».

У випадку парної регресії

,

де a0 ,a1,..am – невідомі параметри.

Позначка ˇ означає, що між x і y існує статистичний зв'язок.

Рівняння регресії знаходять за емпіричними даними, що містять випадковості й впливи вторинних причин, які своєю мінливістю спотворюють істинний зв'язок.

Величину називають збурюванням. Вона характеризує відхилення змінної Y від величини, обчисленої за функцією регресії.

Тоді випадкову величину Y можна представити у вигляді

,

де a0 ,…, am – невизначені коефіцієнти.

U – враховує невраховані фактори, похибки спостереження, а також її можна інтерпретувати як випадкову змінну, що враховує неправильний вибір форми рівняння.

Визначити значення U можна тільки після кількісної оцінки функції регресії.

III припущення полягає в можливості оцінювання параметрів a0 , …, am.

Класичний регресійний аналіз оцінок параметрів a0 ,…, am базується на методі найменших квадратів, що встановлює обмеження на вигляд функції регресії.

1 Параметри a0, …, am та збурювання U повинні входити до функції регресії лінійно:

.

2 Якщо обрано нелінійну модель, то передбачається, що й збурювання U входить у неї нелінійно:

, (7.1)

і повинне існувати перетворення рівняння (7.1) таке, що:

,

тоді рівняння

буде лінійним рівнянням моделі.

Як перетворення часто використовують логарифмування, знаходження оберненого значення.

Приклад. Вигляд функції регресії . Тоді випадкову величину Y можна представити у вигляді:  – нелінійна модель. Прологарифмуємо це рівняння й одержимо

.

Позначимо y*=lny, a0*=lna0, x*=lnx, тоді буде лінійним рівнянням моделі.

IV припущення: про властивості розподілу ймовірностей для випадкового збурювання

1) , .

2) У кожному досліді дисперсія постійна й не залежить від X

, ,

- невідома, але постійна величина.

3) Помилки в будь-яких двох дослідах незалежні

.

Діаграма розсіювання дозволяє зробити візуальний аналіз емпіричних даних. Однак існують і більш точні, теоретично обґрунтовані методи виявлення закономірного зв'язку між випадковими змінними Y і X. Найпоширенішим з них є метод Фостера - Стюарта. Він дозволяє не тільки встановити наявність тенденції у зв'язку кількісних ознак Y і X, але й перевірити гіпотезу про сталість дисперсії випадкового збурювання. Суть методу полягає в наступному.

  1. Порівнюється кожен рівень ряду з усіма попередніми, при цьому

fi = 1, ei = 0, якщо Yi > Yk , k=1, 2,..., i-1;

fi = 0, ei = 1, якщо Yi < Yk , k=1, 2,..., i-1;

fi = 0, ei = 0 в інших випадках.

  1. Обчислюються значення величин

.

Показники d і s характеризують тенденції у зв'язках Y і X і дисперсії і Х відповідно.

3 За допомогою t-критерію Стьюдента перевіряється гіпотеза про те, чи можна вважати випадкові різниці d=0 і . Для цього знаходять величини

(7.2)

де - середнє значення величини s; і - стандартні помилки величин d і s відповідно. Значення величин , і протабульовані й наведені в табл. 7.1.

4 При заданому рівні значущості порівнюються розраховані значення td і ts з табличним. Якщо td < tтабл і ts < tтабл, то гіпотеза про відсутність тенденцій у зв'язку Y і X та і Х підтверджується.

Таблиця 7.1 – Значення середньої та стандартних похибок і для n від 10 до 55

n

10

3,858

1,964

1,288

15

4,636

2,153

1,521

20

5,195

2,279

1,677

25

5,632

2,373

1,791

30

5,990

2,447

1,882

35

6,294

2,509

1,956

40

6,557

2,561

2,019

45

6,790

2,606

2,072

50

6,998

2,645

2,121

55

7,187

2,681

2,163

Як приклад, розглянемо визначення наявності тенденцій у ряді динаміки експорту товарів та послуг в Україні за 1993 – 2007 р.р. (табл. 7.2).

Таблиця 7.2 - Експорт товарів та послуг в Україні. Визначення fi і ei

№ п/п

Показники

Експорт товарів та послуг, млн. доларів США

fi

ei

di

si

1

1993

7817

0

0

0

0

2

1994

16641

1

0

1

1

3

1995

17090

1

0

1

1

4

1996

20346

1

0

1

1

5

1997

20355

1

0

1

1

6

1998

17621

0

0

0

0

7

1999

16332

0

0

0

0

8

2000

19248

0

0

0

0

9

2001

21086

1

0

1

1

10

2002

23351

1

0

1

1

Продовження табл. 7.2

11

2003

28953

1

0

1

1

12

2004

41291

1

0

1

1

13

2005

44378

1

0

1

1

14

2006

50239

1

0

1

1

15

2007

64001

1

0

1

1

Знаходимо d = 11, s = 11. За даними табл. 7.1 при n = 15 маємо: μ=4,636, σ1=2,153, σ2=1,521. Підставляючи отримані значення у формулу (7.2), розраховуємо значення td і ts, тобто

Табличне значення tкр для двостороннього критерію при n = 15 і рівні значущості = 0,05 дорівнює tкр.=2,131451, тобто |td| > tкр, |ts| > tкр. Отже, гіпотези про відсутність тенденції у зв'язку між Y і X та і Х не підтвердилися, тобто в ряді динаміки експорту простежується деяка закономірність, проте не можна вважати, що дисперсія постійна й не залежить від X.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]