Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

конспект_статистика

.pdf
Скачиваний:
8
Добавлен:
21.02.2016
Размер:
5.07 Mб
Скачать

54

Під малою вибіркою розуміється таке вибіркове спостереження, чисельність одиниць якого не перевищує 30. При оцінці результатів малої вибірки розмір генеральної дисперсії в розрахунках не використовується. Для визначення можливих меж помилки користуються так називаним критерієм Стьюдента, визначальним по формулі

 

 

 

 

~

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

x x

,

 

 

 

 

 

 

 

 

 

МВ

де МВ

 

міра випадкових коливань вибіркової середньої в малій вибірці.

 

 

 

n 1

 

 

 

 

 

 

 

Розмір обчислюється на основі даних вибіркового спостереження. Вона дорівнює:

 

xi

~ 2

 

 

x

 

.

 

n

Даний розмір використовується лише для досліджуваної сукупності, а не в якості наближеної оцінки в генеральній сукупності. При невеличкій чисельності вибірки розподіл Стьюдента відрізняється від нормального: великі розміри критерію мають тут велику ймовірність, чим при нормальному розподілі.

Гранична помилка малої вибірки ( МВ) залежності від середньої помилки ( МВ) подана як

DМВ = t . mМВ

Приклад. Припустимо, що вибіркове обстеження 10 робітників малого підприємства показало, що на виконання однієї з виробничих операцій робітники затрачали часу (хвилин): 3,4; 4,7; 1,8; 3,9; 4,2; 3,9; 4,2; 3,9; 3,7; 3,2; 2,2; 3,9.

Знайдемо вибіркові середні витрати:

 

~

3,4 ,7 1,8 ... 2,2 3,9

хвилини.

 

x

 

3,49

 

10

Вибіркова дисперсія

 

 

 

 

 

2

3,4 3,49 2 4,7 3,49 2 ... 3,9 3,49 2

x~

 

10

 

0,713.

 

 

 

 

Звідси середня помилка малої вибірки

МВ 0,713 0,28хвилини.

10 1

По табл. знаходимо, що для коефіцієнта довіри t=2 і обсягу малої вибірки n=10 ймовірність дорівнює 0,924. Таким чином, із ймовірністю 0,924 можна підтверджувати, що розбіжність між вибіркою і генеральної середньої лежить у межах від - 2 до + 2 , тобто різниця ~x x не перевищить по абсолютному розміру 0,56(2.0,28). Отже, середні витрати часу по всій сукупності будуть знаходитися в межах від 2,93 до 4,05 хв. Ймовірність того, що це припущення в дійсності невірно і помилка по випадкових причинах буде по абсолютному розміру більше, чим 0,56,

дорівнює: 1 - 0,924 = 0,076.

ТЕМА 9. СТАТИСТИЧНІ МЕТОДИ ВИМІРЮВАННЯ ВЗАЄМОЗВ’ЯЗКІВ.

1.Причинність, регресія, кореляція.

2.Парна регресія на основі методу найменших квадратів і методу групувань.

55

3.Множинна регресія.

4.Оцінка істотності зв'язку. Прийняття рішень на основі рівняння регресії.

5.Власне-кореляційні параметричні методи вивчення зв'язку. Оцінка істотності кореляції.

6.Методи вивчення зв'язку соціальних явищ.

1. ПРИЧИННІСТЬ, РЕГРЕСІЯ, КОРЕЛЯЦІЯ

Причинно-слідчі відношення - це зв'язок явищ і процесів, коли зміна одного з них - причини - веде до зміни іншого - слідства.

Причина - це сукупність умов, обставин, дія яких призводить до появи слідства. Ознаки по їхньому значенню для вивчення взаємозв'язку діляться на два класи. Ознаки, що обумовлюють зміни інших, пов'язаних із ними ознак, називаються факторними, або просто чинниками. Ознаки, що змінюються під дією факторних ознак, є результативними.

У статистику розрізняють функціональний зв'язок і стохастичну залежність. Функціональним називають такий зв'язок ознаки, якому відповідає одне і тільки одне значення результативної ознаки.

Якщо причинна залежність виявляється не в кожному окремому випадку, а загалом, середньому при великому числі спостережень, то така залежність називається стохастичною. Окремим випадком стохастичного зв'язку є кореляційний зв'язок, при якому зміна середнього значення результативної ознаки обумовлена зміною факторних ознак.

По ступені тісноти зв'язку розрізняють кількісні критерії оцінки тісноти зв'язку (табл.9.1).

Таблиця 9.1

Кількісні критерії оцінки тісноти зв'язку

Розмір коефіцієнта кореляції

Характер зв'язку

До

0,3

Практично відсутна

0,3

-

0,5

Слабка

0,5

-

0,7

Помірна

0,7

-

1,0

Сильна

По напрямку виділяють зв'язок прямий й обернений. По аналітичному вираженню виділяють зв'язки прямолінійні ( або просто лінійні ) і нелінійні. Якщо статистичний зв'язок між явищами може бути приблизно виражена рівнянням прямої лінії, то її називають лінійним зв'язком; якщо ж вона виражається рівнянням якоюсь кривої лінії (параболи, гіперболи, статечної, показової, експоненціальної і т.д.), то такий зв'язок називають нелінійним , або криволінійним.

Для виявлення наявності зв'язку, її характеру і напрямку в статистиці використовуються методи: приведення рівнобіжних даних; аналітичних групувань; графічний; кореляції.

Метод приведення рівнобіжних даних заснований на зіставленні двох або декількох рядів статистичних величин.

56

Графічно взаємозв'язок двох ознак зображується за допомогою поля кореляції. Кореляція - це статистична залежність між випадковими величинами, що не мають строго функціонального характеру, при якій зміна однієї з випадкових величин призводить до зміни математичного чекання інший.

Устатистиці прийнято розрізняти такі варіанти залежностей.

1.Парна кореляція - зв'язок між двома ознаками (результативним або двома факторними)

2.Приватна кореляція - залежність між результативною і однією факторною ознаками при фіксованому значенні інших факторних ознак.

3.Множинна кореляція - залежність результативної і двох або більш факторних ознак, включених у дослідження.

Кореляційний аналіз має своєю задачею кількісне визначення тісноти зв'язку між двома ознаками ( при парному зв'язку) і між результативним і множиною факторних ознак (при багатофакторному зв'язку).

Кореляційно - регресійний аналіз як загальне поняття містить у собі зміну тісноти, напрямку зв'язку і встановлене аналітичне вираження (форми) зв'язку (регресійний аналіз).

Регресійний аналіз полягає у визначенні аналітичного вираження зв'язку, у якому зміна однієї величини (називаної залежності або результативної ознаки) обумовлено впливом однієї або декількох незалежних величин (чинників), а множина всіх інших чинників, також впливаючих на залежну величину, приймається за постійні і середні значення. Регресія може бути однофакторною (парною) і багатофакторною (множинною).

За формою залежності розрізняють:

а) лінійну регресію, що виражається рівняннями прямої (лінійною функцією) виду: x = а0 + a1x;

б) нелінійну регресію, що виражається рівняннями виду: парабола - x = а0 + а1 x + а2 x2;

гіпербола -

 

 

a

 

a1

і т.д.

 

 

 

 

x

0

 

x

2.ПАРНА РЕГРЕСІЯ НА ОСНОВІ МЕТОДУ НАЙМЕНШИХ КВАДРАТІВ

ІМЕТОДУ ГРУПУВАНЬ

Парна регресія характеризує зв'язок між двома ознаками: результативною і факторною. Аналітичний зв'язок між ними описується рівняннями:

. прямої x = а0 + a1 x;

. гіперболи

 

 

 

 

a

 

a1

;

 

 

 

 

 

 

x

0

 

x

. параболи

 

 

x

= а0 + а1 x + а1 x2 - і т.д.

 

Система нормальних рівнянь для перебування параметрів лінійної регресії методом найменших квадратів має такий вид:

па0 + а1 x= у;

а0 x + а1 x2 = xу,

де n - обсяг досліджуваної сукупності (число одиниць спостережень).

57

У рівняннях регресії параметр а показує усереднений вплив на результативну ознаку неврахованих (не виділених для дослідження) чинників; параметр а1 (а в рівнянні параболи й а2) - коефіцієнт регресії показує, наскільки змінюється в середньому значення результативної ознаки при збільшенні факторної на одиницю власного виміру.

Наприклад, є дані, що характеризують ділова активність акціонерних товариств закритого типу (АТЗТ): прибуток (млн. грн.) і витрати на 1 грн. зробленої продукції (коп). (табл.9.2).

Припустимо наявність лінійної залежності між аналізованими ознаками. Система нормальних рівнянь для даного приклада має вид:

па0 + а1 x= у;

а0 x + а1 x2 = xу,

0 + 502а1 = 4466;

502 а0 + 42280 а1 = 362404.

Таблиця 9.2 Розрахунок сум для визначення параметрів парного лінійного рівняння

регресії (дані умовні)

№№

Витрати на 1 грн. зробленої

Прибуток,

 

 

__

 

продукції, коп. ,

тис. грн.,

X2

x

 

X

У

 

 

 

1

77

1070

5 929

82 390

1 016

2

77

1001

5 929

77 077

1 016

3

81

789

5 561

63 909

853

4

82

779

6 724

63 878

812

5

89

606

7 921

53 934

527

6

96

221

9 216

21 216

242

Разом

502

4 466

42 280

362 404

4 466

Звідси: а0 = 4153,88; а1 = - 40,75

__

Отже Ух = 4153,88 - 40,75x.

Якщо зв'язок між ознаками У и X криволінійний й описується рівнянням параболи другого порядку, то

x = а0 + а1 x + а2 x2.

Уданому випадку задача зводиться до визначення невідомих параметрів: а0,

а1, а2.

Система нормальних рівнянь:

па0 + а1 x + а2 x2 = у; а0 x+ а1 x2 + а2 x3 = уx; а0 x2 + а1 x3 + а2 x4 = уx2.

58

Оцінка оберненої залежності між X і У, коли зі збільшенням (зменшенням) X зменшується (збільшується) значення результативної ознаки У, може бути здійснена на основі рівняння гіперболи:

x a0 a1 . x

Систему нормальних рівнянь для перебування параметрів гіперболи можна надати таким образом:

1

na0 a1 x y;

a0 1x a1 x12 yx.

3. МНОЖИННА (БАГАТОФАКТОРНА) РЕГРЕСІЯ

Вивчення зв'язку між трьома і більш пов'язаними між собою ознаками зветься множинної (багатофакторної) регресії.

Побудова моделей множинної регресії включає декілька етапів:

. вибір форми зв'язку (рівняння регресії);

. відбір факторних ознак;

. забезпечення достатнього обсягу сукупності для одержання не зміщених оцінок.

Практика побудови багатофакторних моделей взаємозв'язку показує, що реально існуючі залежності між соціально-економічними явищами можна описати,

використовуючи п'ять типів моделей:

 

 

 

 

 

 

 

 

 

1)

лінійна:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,2,...,k

 

 

 

 

 

 

 

 

 

 

 

 

 

= а0 + а1 x1 + а2 x2+…+акхк. ;

2)

статечна:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,2,...,k

а0х1а1

х2а2

... хкак ;

 

 

 

 

 

 

3)

показова:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,2,...,k

=ea0 a1x1 a2x2 ... ak xk ;

 

 

 

 

 

 

 

4)

параболічна:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1,2,...,k

 

 

 

 

 

 

 

 

 

 

 

 

= а0 + а1 x12 + а2 x22+…+акхк2;

5)

гіперболічна:

 

 

 

 

 

a1

 

 

а2

 

 

ак

 

 

 

 

 

 

 

 

 

 

 

a

 

 

 

 

...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

х

х .

 

 

 

 

 

 

 

 

 

1.2,...,к

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

к

4. ОЦІНКА ІСТОТНОСТІ ЗВ'ЯЗКУ. ПРИЙНЯТТЯ РІШЕНЬ НА ОСНОВІ РІВНЯННЯ РЕГРЕСІЇ

59

Значимість коефіцієнтів регресії здійснюється за допомогою t-критерію Стьюдента:

tp

 

 

ai

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

 

2

 

 

 

 

 

 

ai

 

 

де a2 - дисперсія коефіцієнта регресії.

i

Найбільше простий засіб, вироблений методикою експериментування, полягає в тому, що величина дисперсії коефіцієнта регресії може бути приблизно визначена по вираженню:

 

 

2

 

2

 

 

y

 

k

,

ai

 

де у2 - дисперсія результативної ознаки; к - число факторних ознак у рівнянні.

Більш точну оцінку величини дисперсії можна одержати по формулі

2

 

y

 

 

1 R 2

ai

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

n

 

 

xi

 

1 Ri

де Rі - величина множинного коефіцієнта кореляції по чиннику xі з іншими чинниками.

Перевірка адекватності всієї моделі здійснюється за допомогою розрахунку F - критерію і величини середньої помилки апроксимації . Значення F - критерію визначається по такій формулі:

 

 

 

1

 

 

 

 

y

k2

 

 

F

 

 

k 1

 

,

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi yk

 

 

 

n k 1

 

 

 

 

 

 

 

 

 

 

 

де yk - теоретичні значення результативної ознаки, отримані по рівнянню регресії; n - обсяг досліджуваної сукупності;

к - число факторних ознак у моделі.

Значення середньої помилки апроксимації, визначальної по формулі

1 | 1,2,...,k | 100

n

не повинно перевищувати 12 -15 %.

Найбільше складним етапом, що завершує регресіійний аналіз, є інтерпретація рівняння, тобто переклад його з мови статистики і математики на мову економіста.

Інтерпретація моделей регресії здійснюється методами тієї галузі знань, до якої відносяться досліджувані явища.

З метою розширення можливостей економічного аналізу використовуються

часті коефіцієнти еластичності, визначальні по формулі

ryxi

60

Э аi

 

 

x

i

 

,

 

 

 

 

 

y

 

 

 

 

 

де xі - середнє значення відповідного факторної ознаки; y - середнє значення результативної ознаки;

аі - коефіцієнт регресії при відповідної факторної ознаці.

Коефіцієнт еластичності показує, на скільки відсотків у середньому зміниться значення результативної ознаки при зміні факторної ознаки на 1%.

Приватний коефіцієнт детермінації:

dxi ryxi xi ,

де - парний коефіцієнт кореляції між результативним і i-ю факторною ознаками;

xi - відповідний коефіцієнт рівняння множинної регресії в стандартизованому

масштабі.

Приватний коефіцієнт детермінації показує, на скільки відсотків варіація результативної ознаки пояснюється варіацією i-ї ознаки, що входить у множинне рівняння регресії.

6. ВЛАСНЕ - КОРЕЛЯЦІЙНІ ПАРАМЕТРИЧНІ МЕТОДИ ВИВЧЕННЯ ЗВ'ЯЗКУ. ОЦІНКА ІСТОТНОСТІ КОРЕЛЯЦІЇ

Лінійний коефіцієнт кореляції можна обчислити по формулі

n xy y x

rxy n y2 y 2 n x2 x 2

або

 

 

 

xy

 

y

x

 

 

rxy

 

 

n

 

 

 

 

 

 

 

 

 

 

 

y2

 

y 2

: n

x2

x 2 : n

 

 

 

 

 

 

 

 

 

 

Коефіцієнт кореляції може бути виражений через дисперсії додоваємих:

r x2 y2 x2 y

2 x y

Між лінійним коефіцієнтом кореляції і коефіцієнтом регресії існує визначена залежність, що виражається формулою

rai xi ,

y

де аі - коефіцієнт регресії в рівнянні зв'язку;

xi - середнє квадратичне відхилення “відповідної статистичної істотної”

факторної ознаки.

Лінійний коефіцієнт кореляції змінюється в межах від -1 до 1: -1 r 1.

61

Знаки коефіцієнтів регресії і кореляції збігаються. При цьому інтерпретацію вихідних значень коефіцієнта кореляції можна представити в табл.9.3.

 

Оцінка лінійного коефіцієнта кореляції

Таблиця 9.3

 

 

 

 

 

 

Значення лінійного

 

Характер зв'язку

Інтерпретація зв'язку

коефіцієнта зв'язку

 

 

 

 

r= 0

 

Відсутня

 

 

0 r 1

 

Пряма

З збільшенням X збільшується У

- 1 r 0

 

Обернена

З збільшенням X

зменшується У, і

 

 

 

навпаки

 

r = 1

 

Функціональна

Кожному значенню факторної ознаки

 

 

строго відповідає

одне значення

 

 

 

результативної ознаки

Значимість лінійного коефіцієнта кореляції перевіряється на основі t - критерію Стьюдента. При цьому висувається і перевіряється гіпотеза (Н0) про рівність коефіцієнта кореляції нулю Н0 : r=0 . При перевірці цієї гіпотези використовується t - статистика:

tp

r2

n 2

 

 

r

 

 

 

 

.

 

 

 

 

 

n 2

 

 

 

 

1 r2

 

 

 

 

 

1 r2

 

 

 

 

 

 

Якщо розрахункове значення tр tкр (табличне), те гіпотеза Н0 відхиляється про значимість лінійного коефіцієнта кореляції, а отже, і про статистичну істотність залежності між X і Y.

При більшому числі спостережень (n 100) використовується така формула t- статистики:

 

 

 

r

 

 

 

 

 

tp

 

 

 

 

 

n 2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 r2

Для статистично значимого лінійного коефіцієнта кореляції можна побудувати інтервальні оцінки за допомогою - розподіли Фішера:

11 r

2 ln1 r .

Спочатку визначається інтервальна оцінка для по вираженню

 

 

 

1

 

 

 

 

 

,

t

n 3

 

 

 

 

де t - табуліровані значення для нормального розподілу, залежні від = 1 - ( - рівень можливості);

- табличні значення, = f(r) - розподіли. Функція - нечетна, тобто = f(-r)=

=-f(r).

Приклад. На основі вибіркових даних про ділову активність однотипних комерційних структур оцінити тісноту зв'язку між прибутком (млн. грн.) (У) і витратами на 1 грн. виробництва продукції (X) (табл.9.4).

62

Таблиця 9.4 Розрахункова таблиця для визначення коефіцієнта кореляції

№ n/n

у

x

у x

2

2

у

х

 

 

 

 

1

221

96

21 216

48 841

9 216

2

1 070

77

82 390

1 144 900

5 929

3

1 001

77

77 077

1 002 000

5 929

4

606

89

53 934

367 236

7 921

5

779

82

63 878

606 841

6 734

6

789

81

63 909

622 520

6 561

Сума

4 466

502

362 404

3 792 338

42 280

Середня

744,33

83,67

60 400,67

632 056,33

7 046,67

По формулі значення коефіцієнта кореляції склало:

n xy y x

rxy n y2 y 2 n x2 x 2

 

 

 

 

 

 

 

 

 

 

6 362404

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6 42280 502 2 6 3792338 4466 2

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2174424 2241932

 

 

 

 

 

 

 

0,98

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

253680 252004 22754028 19945156

Таким чином, результат по усім формулах однаковий і свідчить про сильну

обернену залежність між досліджуваними ознаками.

 

 

 

 

 

 

 

 

Перевірка значимості коефіцієнта кореляції:

 

 

 

 

 

 

 

 

 

 

 

 

 

r

 

 

 

 

 

 

 

 

 

0,98

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tp

 

 

 

 

 

 

 

n 2

 

 

6 2 14,036.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 r2

1 0,98 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Гіпотеза Н0 відхиляється при рівні значимості = 0,05 і числі ступенів свободи до = 6-2 = 4, тому що tр tкр = 2,776, що свідчить про значимість даного коефіцієнта кореляції.

Довірчі інтервали лінійного коефіцієнта кореляції між прибутком і витратами на 1 грн. що випускається продукції утворилися : =0,05; = 1 - = = 1-0,05 = 0,95. Тоді t = 1,96 - для нормального закону розподілу(додаток 1) r = -0,98 =0,98; = 2,2976:

 

1

 

 

 

 

 

 

1

 

 

 

 

 

 

 

;

 

 

 

 

t

n 3

t

 

 

 

 

 

 

 

 

 

 

n 3

2,2976 1,96

 

 

1

 

2,2976 1,96

 

1

 

;

 

 

 

 

 

 

 

 

 

6 3

 

 

 

6 3

1,1659 3,4292.

63

По таблиці - розподіли Фішера визначаємо r(0,83 r 0,988).

При цьому середня квадратична помилка лінійного коефіцієнта кореляції склала:

r

 

1 r2

 

1 0,98 2

0,0177.

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

6 1

 

У випадку наявності лінійної і нелінійної залежності між двома ознаками для виміру тісноти зв'язку застосовуються так називане кореляційне відношення. Розрізняють емпіричне і теоретичне кореляційне відношення.

Емпіричне кореляційне відношення розраховується за даними групування, коли 2 характеризує відхилення групових середніх результативного показника від загальної середньої:

 

2

2

 

 

2

 

 

 

2

,

 

1

 

 

 

2

2

2

 

де - кореляційне відношення;2 - загальна дисперсія;

2 - середня з приватних (групових) дисперсій;

2 - міжгрупова дисперсія(дисперсія групових середніх).

Всі ці дисперсії є дисперсіями результативної ознаки. Теоретичне кореляційне відношення визначається по формулі

 

2

,

 

 

2

 

де 2 - дисперсія вирівняних значень результативної ознаки, тобто розрахованих по рівнянню регресії;

2 - дисперсія емпіричних (фактичних) значень результативної ознаки.

 

 

 

 

x

 

 

2

 

 

 

 

 

 

 

 

 

y

y

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

;

 

 

 

 

 

n

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

y

2

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

n

 

y .

Тоді

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

x

y

2

 

 

 

 

 

 

 

 

 

 

y

y

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

пояснюється впливом факторноі ознаки.

У основі розрахунку кореляційного відношення лежить правило додавання дисперсій (тема 7), тобто

2 2 i2 ,

де і2 - при вивченні ступеня корелірованості чинників відбиває варіацію результативної ознаки (У) під впливом усіх не облічених при аналізі чинників тобто носить залишковий характер:

 

 

 

 

 

y

 

x

2

 

 

2

 

2

y

 

i

ост

n

.

 

 

 

 

 

 

Звідси формула кореляційного відношення приймає вид: