Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Приставка П.О., Мацуга О.М. Аналіз даних

.pdf
Скачиваний:
64
Добавлен:
23.03.2015
Размер:
1.07 Mб
Скачать

z = N max{DN,DN+ };

+

 

ˆ

 

;

 

 

ˆ

 

.

 

 

 

 

DN = max

F1,N (xl )F (xl ;Θ)

 

DN = max

 

F1,N (xl )F (xl1;Θ)

 

 

l

 

 

 

 

l

 

 

 

 

На основі статистичної характеристики z та її функції розподілу K (z) скла-

дається процедура реалізації критерію згоди Колмогорова для перевірки вірогідності збігу емпіричного розподілу з теоретичним, яка потребує:

1) обчислення функцій розподілу F1,N (xl ) та F (xl ,Θˆ ) і подальшого знахо-

дження на їх основі значення статистики z;

2) обчислення значення функції K (z) та значення ймовірності узгодження

P(z) = 1K (z);

3) перевірки умови P(z) ≥ α , тобто умови збігу емпіричної функції розподілу з теоретичною, де α – критичний рівень значущості (якщо N > 100 , то беруть

α= 0,05 , при N < 30 рекомендується α = 0,3);

4)побудови для теоретичного розподілу F (xl;Θ) довірчого інтервалу

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

Fн,в (xl ;Θ)= F (xl ;Θ) DNα ,

де

D

=

z

α

 

; z – критичне значення статистики Колмогорова, що встановлюєть-

 

 

 

 

Nα

 

 

N

 

α

 

 

 

 

 

 

 

 

ся за значенням α (якщо α = 0,05 , то zα =1,36 , при α = 0,3 zα = 0,97 ).

Критерій згоди χ2 (Пірсона) реалізується лише для варіаційного ряду, розбитого на класи, та базується на обчисленні статистики

M (ni ni0 )2

χ2 = ,

i=1 ni0

де ni – значення частот i-го класу, знайдені під час гістограмної оцінки; ni0 = Npi

значення теоретичних частот; pi = F (xi;Θˆ )F (xi1;Θˆ ); xi та xi1 – відповідно права

та ліва межі i-го класу; M– кількість класів. Функція розподілу статистики χ2 має вигляд

P(χ2 < x)=

 

 

1

x

 

 

 

 

 

 

uN 21 exp

u

du .

 

N 2

Γ(N 2)

 

2

 

0

 

 

2

Перевірка головної гіпотези H0 на основі даного критерію згоди полягає в обчисленні статистики χ2 та порівнянні її з критичним значенням χα2 ,ν (табл. Б.3), де ν = m 1. Виконання нерівності χ2 ≤ χα2,ν вказує на збіг емпіричної функції розподілу з теоретичною. Значення P(χ2 < x)= γ відповідає ймовірності узгодження.

41

2.3. Задача двох вибірок

Задачу однорідності й незалежності в більшості випадків можна звести до задачі двох вибірок.

Нехай маємо дві генеральні сукупності Ω1, Ω2 , із яких вибрані вибірки

Ω1,N1 = {x1,, xN1} та Ω1,N2 = {y1,, yN2 }. Відносно Ω1 і Ω2 припускаються розподіли відповідно F (x) і G(y). Необхідно перевірити гіпотезу Η0 : F (x) G(y) за аль-

тернативи Η1 : F (x) G(y).

Таке подання задачі є загальне, і її розв’язок одержують за допомогою як параметричних, так і непараметричних критеріїв. Розглянемо розв’язання такої задачі за параметричним критерієм. Припустимо, що закони розподілів F (x), G(y) є

нормальні, а їх функції щільності такі:

 

 

1

 

 

(x m1)2

 

 

1

 

 

 

(y m2 )2

 

f (x) =

 

 

exp

 

g (y) =

 

 

exp

 

 

2π

2

,

σ2 2π

2

.

 

σ1

 

 

 

2σ1

 

 

 

 

2σ2

 

Для того щоб F (x) і G(y) були однаковими, необхідний збіг їх відповідних параметрів. У цьому випадку гіпотези Η0 , Η1 можемо переписати у вигляді

Η0 : m1 = m2 , σ1 = σ2

за альтернативи

Η1 : m1 m2 , σ1 ≠ σ2 .

Для перевірки гіпотез Η0 , Η1 існують критерії, розглянуті нижче.

2.4. Перевірка збігу середніх

Перевірка збігу середніх двох вибірок здійснюється за t -тестом, проведення якого для аналізованих вибірок потребує певних операцій перетворення. Будемо розрізняти випадки залежних і незалежних вибірок Ω1,N1 , Ω1,N2 .

Випадок залежних вибірок. Такий варіант дозволяє оцінювати вибірки, що характеризують однакові фізичні процеси або явища, які вивчаються різними методами. Для цього вимірюють один і той же параметр за різними методами, одер-

жуючи вибірки однакового обсягу відносно xl

та yl , l =

1, N

.

 

 

Обчисливши різницю zl

= xl yl , одержують нову вибірку Ω1,N = {zl ;l =

 

},

1, N

для якої визначають

 

 

 

 

 

 

 

 

 

 

 

 

 

1

N

 

 

 

1

 

N

 

z =

zl ,

Sz2 =

 

 

(zl z )2 .

 

N

N 1

 

 

l=1

 

 

l=1

 

 

 

 

 

 

 

 

Оскільки xi

та yi – реалізації випадкових величин ξ та η , які мають норма-

льні розподіли з

Ν1 (x;m1,σ1),

Ν2 (y;m2,σ2 ), маємо, що zl – реалізація випадкової

величини ζ , для якої E{ζ} = E{ξ} E{η} . Тоді гіпотезу Η0 : m1 = m2 переписують у

42

вигляді Η0 : m1 m2 = 0 або Η0 : E{ζ} = 0 і для її перевірки використовують таку статистичну характеристику:

t = z N . Sz

Результат порівняння t > tα 2,ν свідчить про те, що значення статистичної

характеристики потрапило до критичної області, отже, головну гіпотезу слід відхилити. Подальший висновок відносно того, яке із середніх більше, робиться за знаком z .

Випадок незалежних вибірок. Даний варіант дозволяє оцінювати вибірки, які характеризують різні фізичні процеси або явища. У такому разі обсяги вибірок можуть відрізнятися. Можливі два випадки:

1)обсяг вибірок є представницький;

2)обсяг вибірок обмежений.

Нехай вибірки є представницькі. Враховуючи, що різниця z = x y розподілена нормально з дисперсією

2

2

2

 

Sx2

Sy2

Sz

= Sx

+ Sy

=

 

+

 

 

,

 

N

 

 

 

 

 

N

2

 

 

 

 

 

1

 

 

 

для перевірки головної гіпотези Η0 на основі t -тесту застосовують статистику

t =

z

=

 

x y

 

,

 

 

 

 

 

 

 

Sz

S2

 

Sy2

 

 

 

 

 

 

x

+

 

 

 

 

 

 

 

N1

N2

 

 

 

 

 

 

 

 

 

яка має t -розподіл Стьюдента з кількістю степенів вільності ν = N1 + N2 2.

За обмеженого обсягу вибірок ( N1 + N2 25) оцінюють зважене середнє S2 оцінок Sx2 , Sy2 :

S2 = (N1 1)Sx2 + (N2 1)Sy2 , N1 + N2 2

де

2

 

Sx2

2

 

Sy2

Sx

=

 

,

Sy

=

 

 

.

 

N

 

 

 

N

 

 

2

 

 

 

1

 

 

 

 

 

Як статистичну характеристику використовують величину

t =

 

x y

 

 

 

N1N2

 

,

 

 

 

 

 

 

(N1 1)Sx2 + (N2 1)Sy2

 

 

 

N1 + N2

N1 + N2 2

що має t -розподіл Стьюдента з кількістю степенів вільності ν = N1 + N2 2. Подальша процедура перевірки не становить труднощів.

43

Приклад 2.1. Нехай студентів університету зважили на вагах А, а потім – на вагах В. Тим самим одержали дві залежні вибірки. У випадку, коли на вагах А зважили спочатку хлопців, а потім дівчат, мають місце дві незалежні вибірки.

2.5. Перевірка збігу дисперсій

Поряд з t -тестом у статистичній теорії перевірки гіпотез особливе місце займають параметричні критерії, що базуються на F -статистиках, розподілених за

законом розподілу Фішера, – так звані F-тести. За наявності S12 , S22 – незалежних оцінок для дисперсій σ12 , σ22 – F-тест дозволяє перевіряти гіпотезу про їх збіг

Η0 :σ12 = σ22 .

Для перевірки головної гіпотези вводять статистичну характеристику, що являє собою відношення оцінок двох дисперсій. Якщо таке відношення більше табульованого значення реалізацій випадкової величини, розподіленої за законом розподілу Фішера, то головна гіпотеза має бути відкинута.

Під час розв’язання задачі перевірки збігу дисперсій двох вибірок за статистичну характеристику беруть значення

S2

, якщо Sx2 Sy2,

 

x

2

Sy

 

f=

Sy , якщо S2 < S2.

Sx2 x y2

Статистика f має F-розподіл Фішера з кількістю степенів вільності ν1 = N1 1 та ν2 = N2 1. Враховуючи, що f > 0, за відомого α обчислюють критичне значення fα,ν1,ν2 (табл. Б.4) і, якщо f fα,ν1,ν2 , приймають головну гіпотезу.

Слід зауважити, що в процесі побудови обчислювальної процедури для перевірки гіпотези про однорідність двох вибірок потрібно спочатку реалізувати перевірку збігу дисперсій. Якщо головна гіпотеза підтверджується, то проводять перевірку збігу середніх.

За необхідності перевірити гіпотезу про збіг дисперсій k вибірок

Η0 : σ12 = σ22 = …= σ2k = σ2

за альтернативи

Η1 :σ12 ≠ σ22 ≠ …≠ σ2k ≠ σ2

використовують критерій Бартлетта. Нехай заданий багатовимірний набір даних {xi, j;i = 1,k, j = 1, Ni}, що являє собою k вибірок (можливо, різного обсягу).

Для перевірки головної гіпотези спочатку обчислюють значення

 

 

N

 

 

 

xi =

1

i

xi, j , i =

 

,

1,k

Ni

 

j=1

 

 

 

44

Si2 = Ni11jN=i1(xi, j xi )2 ,

k

(Ni 1)Si2

S2 = i=1 k

(Ni 1)

i=1

i =1,k ,

.

За статистичну характеристику беруть величину

χ2 = CB ,

яка має розподіл χ2 . Значення B і C одержують за такими формулами:

k

S2

 

B = −(Ni 1)ln

i

,

S2

i=1

 

 

 

 

1

 

k

1

 

 

C =1+

 

 

1

 

 

 

 

3(k 1) i=1

Ni 1

 

k

 

i

 

(N

 

 

 

1) .

i=1

 

 

 

Для заданого рівня значущості α і кількості степенів вільності ν = k 1 знаходять критичне χα2 ,ν (табл. Б.3) і приймають головну гіпотезу, якщо χ2 ≤ χα2 ,ν .

2.6. Однофакторний дисперсійний аналіз

Однофакторний дисперсійний аналіз застосовують для перевірки того, чи різняться поміж себе значення середніх множини k незалежних вибірок, що є реалізаціями відповідних нормально розподілених випадкових величин. Однофакторний дисперсійний аналіз порівнює два джерела варіації даних: міжгрупову варіацію (варіацію поміж вибірками) та варіацію всередині кожної вибірки.

Припускаючи, що дисперсії всіх k вибірок однакові:

σ12 = σ22 =…= σ2k = σ2 ,

висувають головну гіпотезу

Η0 : m1 = m2 = …= mk

за альтернативи

Η1 : mi mj , i, j , i ≠ j .

Міжгрупова варіація SМ2 дає оцінку відмінностей середніх вибірок, що аналізуються:

 

1

 

k

SМ2 =

 

Ni (xi x )2 ,

k 1

 

i=1

 

 

 

де Ni – обсяг i-ї вибірки; xi – оцінка математичного сподівання i-ї вибірки; x – загальне середнє

45

x = 1 k Nixi ,

N i=1

k

де N = Ni .

i=1

Варіація всередині кожної вибірки SВ2 визначається згідно з виразом

 

1

k

SВ2 =

(Ni 1)Si2 ,

N k

 

i=1

 

 

де Si2 – оцінка дисперсії i-ї вибірки.

Перевірка головної гіпотези проводиться на основі статистичної характеристики

F = SМ2 ,

SВ2

яка має розподіл Фішера з кількістю степенів вільності ν1 = k 1, ν2 = N k . Головну гіпотезу Η0 приймають у разі виконання умови

F fα,ν1,ν2 ,

роблячи висновок, що середні вибірок невеликою мірою різняться поміж собою. Якщо остання нерівність не виконується, роблять висновок про існування іс-

тотної різниці між вибірковими середніми, а отже, про неможливість пояснити розходження в їх значеннях лише випадковістю. Подальший аналіз може полягати у визначенні того, які саме вибірки попарно різняться між собою. Останнє з’ясовується на основі t -статистик, уведених для випадку незалежних вибірок, з урахуванням наявних обсягів аналізованих вибірок.

2.7. Критерії порядкових статистик

Наведені нижче критерії однорідності належать до так званих рангових. Вони ґрунтуються на вивченні послідовності реалізацій випадкової величини та можуть застосовуватися навіть у тих випадках, коли закони розподілу аналізованих вибірок відмінні від нормального. З усього різноманіття процедур відібрані найбільш прості в реалізації, які дають змогу зробити надійні висновки про однорідність вибірок.

Задачу перевірки однорідності двох вибірок реалізують за одним або за всіма разом ранговими критеріями, при цьому головна гіпотеза формулюється так: дві

вибірки Ω1,N1 = {xi;i = 1, N1}, Ω1,N2 = {y j; j = 1, N2} вибрані з генеральних сукупностей з однаковим законом розподілу

Η0 : F (x) G(y).

Критерії Вілкоксона та U-критерій Манна–Уїтні є найчастіше використовувані. Їх реалізують під час перевірки гіпотез:

46

1)про наявність тренда в ряді спостережень;

2)однорідність вибірок.

Для перевірки головної гіпотези про значущість різниці двох незалежних вибірок з останніх формують загальний варіаційний ряд (обсягом N = N1 + N2 ), припи-

суючи кожному значенню варіанти ранг r(xi ) або r(y j ), тобто порядковий номер. Приклад 2.2. Нехай задані дві вибірки Ω1,5 = {12,3,18,1,20} , Ω1,6 = {15,7,0,10

25,9} . Сформуємо загальний варіаційний ряд і визначимо ранги:

Загальний варіаційний ряд: x1

y1

x2

y2

y3

y4

x3

y5

x4

x5

y6

Ранги:

–1

0

3

7

9

10

12

15

18

20

25

1

2

3

4

5

6

7

8

9

10

11

Зауваження 2.1. Якщо в загальному варіаційному ряді виявляється декілька варіант, які збігаються, то кожній присвоюють ранг, що дорівнює середньому арифметичному їх порядкових номерів у сумісній послідовності.

Приклад 2.3. Нехай задані дві вибірки Ω1,7 = {10,3,18,1,20,10,3} , Ω1,6 = {15,7, 0,10,25,9} . Відповідно загальний варіаційний ряд і ранги такі:

Загальний варіаційний ряд: x1

y1

x2

x3

y2

y3

x4

x5

y4

y5

x6

 

 

x7

y6

Ранги:

–1

0

3

3

7

9

10

10 10

15

18

20

25

1

2

3,5

3,5

5

6

8

8

8

10

11

12

13

Тоді, порівнюючи ранги

вибірки

Ω1,N

з рангами

вибірки

Ω1,N

2

,

можна

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

з’ясувати, різняться вибірки систематично чи випадково.

 

 

 

 

 

 

 

 

 

Критерій суми рангів Вілкоксона базується на обчисленні статистичної ха-

рактеристики W , що визначається як сума рангів вибірки Ω1,N

(або Ω1,N

2

) у зага-

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

льному варіаційному ряді:

W= 1 r(xi ).

i=1N

Для головної гіпотези Η0 статистична характеристика W має симетричний відносно E{W} закон розподілу, причому при N > 25 закон розподілу W прямує до нормального з параметрами

E{W} =

N1 (N +1)

,

D{W} =

N1N2 (N +1)

.

2

12

 

 

 

 

Порівнюючи значення

w = W E{W}

D{W}

з критичним значенням uα нормального закону розподілу, головну гіпотезу приймають або відхиляють.

В основі U-критерію Манна–Уїтні лежить дослідження кількості способів, за допомогою яких в одній вибірці можна знайти значення, що перевищує значення в іншій вибірці. Аналізуючи загальний ряд даних, встановлюють, що має місце

47

перерозподіл значень випадкових величин. Ступінь перерозподілу x та y визначають через інверсію. Якщо у варіаційному ряді деякому x передує y , то таке явище називають однією інверсією, якщо ж певному x передує k значень y , говорять, що значення x має k інверсій. Під час реалізації U -критерію Манна–Уїтні розраховують статистичну характеристику U , яка визначає кількість інверсій відносно x (або y ) у загальному ряду:

N2 N1

U = ∑∑zi, j ,

j=1 i=1

1,

якщо

x

> y

j

,

 

 

 

i

 

 

zi, j =

0,

якщо

x

y

 

.

 

j

 

 

i

 

 

 

 

 

 

 

 

 

Слід відзначити, що поміж статистиками U та W існує така залежність:

U = N1N2 + N1 (N1 1) W .

2

Якщо головна гіпотеза є правильна, то при N > 25 закон розподілу характеристики U прямує до нормального з параметрами

E{U} =

N1N2

,

D{U} =

N1N2 (N +1)

.

2

12

 

 

 

 

Для перевірки гіпотези Η0 обчислюють статистичну характеристику

u = U E{U} ,

D{U}

значення якої порівнюють із критичним uα нормального закону.

Зауваження 2.2. Якщо обсяг загального варіаційного ряду N < 25, слід застосовувати точні апроксимації законів розподілу статистик W та U або звертатися до їх табульованих значень.

Поряд із критеріями Вілкоксона та Манна–Уїтні існує й може бути застосований критерій різниці середніх рангів вибірок Ω1,N1 та Ω1,N2 . Для перевірки го-

ловної гіпотези вводять статистичну характеристику v , яка при N > 20 має нормальний закон розподілу. Для значення

 

 

v =

 

rx ry

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

N

 

N +1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12N N

2

 

 

 

 

 

 

 

 

1

 

 

 

 

де

 

 

 

 

 

 

 

 

 

 

 

N

 

 

 

 

 

 

N

rx =

1

1 r(xi ),

 

ry =

1

2 r(y j ),

N

 

N

 

1 i=1

 

 

2

j=1

перевіряють виконання умови

vuα

іприймають головну гіпотезу в разі слушності наведеної нерівності.

48

Контрольні запитання та завдання

1.Дати визначення статистичної гіпотези. Відносно чого – генеральної сукупності чи вибірки – висувається статистична гіпотеза?

2.У чому полягає відмінність нульової гіпотези від альтернативної? Яка з них підлягає доведенню?

3.Дати визначення помилки першого роду. Чи можна нею керувати?

4.Що називають областями допустимих та критичних значень?

5.Що таке функція потужності статистичного критерію?

6.Яким чином обчислюється t -статистика для проведення t -тесту?

7. Для експоненціально розподілених даних обсягу N = 50 перевірити гіпотезу

Η0 : λ = λˆ , якщо λ = 0,65 , λˆ = 0,9, де λ – параметр моделі розподілу.

8.У припущенні про нормальний закон розподілу результатів спостережень визначити мінімальний обсяг даних для «якісного» формування вибірки, якщо

x= 8; S = 2.

9.Навести статистику та обчислювальну схему реалізації уточненого критерію згоди Колмогорова.

10.Призначити 95%-й довірчий інтервал для одновимірної функції розподілу на основі реалізації критерію згоди Колмогорова.

11.Подати статистику та обчислювальну схему реалізації критерію згоди Пірсона. До яких варіаційних рядів застосовують цей критерій?

12.У чому полягає відмінність між залежними та незалежними вибірками в задачі перевірки однорідності двох вибірок?

13.На основі якої статистики перевіряють збіг двох дисперсій?

14.Яка гіпотеза перевіряється в однофакторному дисперсійному аналізі? Що таке міжгрупова варіація?

15.Навести процедуру реалізації критерію Бартлетта.

16.Чим відрізняються непараметричні критерії від параметричних?

17.Визначити статистики Вілкоксона та Манна–Уїтні.

49

3. ОБРОБКА Й АНАЛІЗ ДВОВИМІРНИХ ДАНИХ

Розглянемо питання обробки та аналізу двовимірних масивів спостережень. Під час опрацювання таких масивів звичайно виникає три типи задач:

1)первинний аналіз, що включає побудову варіаційного ряду, перетворення даних, вилучення аномальних результатів спостережень, гістограмну оцінку та перевірку нормальності розподілу двовимірної випадкової величини;

2)встановлення наявності стохастичного зв’язку між складовими двовимірного випадкового вектора;

3)за наявності стохастичного зв’язку між складовими випадкового вектора – задачі ідентифікації та відтворення регресії.

3.1. Первинний аналіз

Беручи за основу реалізацію ймовірнісної оцінки одновимірної випадкової величини, можна узагальнити подібну оцінку для випадку обробки масивів реалі-

зацій двовимірних випадкових величин. Так, для реалізації Ω2,N = {(xl , yl );l = 1, N} двовимірного випадкового вектора ζ = (ξ(ω),η(ω)) з функцією розподілу

F(x, y) = P{ω: −∞ < ξ(ω) < x,−∞ < η(ω) < y}

уприпущенні незалежності складових ξ(ω) та η(ω)

F (x, y) = P{ω: −∞ < ξ(ω) < x}P{ω: −∞ < η(ω) < y} можна розглядати одновимірні масиви

ξ(ω):{xl ;l =1, N} та η(ω):{yl ;l =1, N},

за кожним із яких можна провести побудову варіаційних рядів, розбитих на класи.

Отже, визначаючи рівномірні розбиття h ,

h

y

з кроками hx , hy відповідно за

x

 

 

осями реалізацій величин ξ(ω) та η(ω), автоматично задаємо рівномірне розбиття hx ,hy площини реалізацій двовимірної випадкової величини ζ .

Двовимірний варіаційний ряд

 

 

x

x

x

 

 

1

 

 

i

 

mx

 

y1

n1,1, p1,1

ni,1, pi,1

nmx ,1 , pmx ,1

 

 

yj

n1, j , p1, j

ni, j , pi, j

nmx , j , pmx , j

 

 

ymy

n1,my ,

ni,my ,

nmx ,my ,

 

 

p1,my

 

 

pi,my

 

pmx ,my ,

визначений за розбиттям

h ,h

, має такий алгоритм побудови.

 

 

 

x y

 

 

 

 

50