Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
110
Добавлен:
11.04.2015
Размер:
1.55 Mб
Скачать

2 Примеры использования критерия χ2.

После появления статистики, как науки в начале века 1 статистик провел следующий эксперимент:

он зашел в часовую мастерскую и подсчитал, сколько часов показывают какое время, а полученные данные свел в следующую таблицу.

Прошло времени

на циферблате

0-1

1-2

2-3

3-4

4-5

5-6

6-7

7-8

8-9

9-10

10-11

11-12

Количество часов с

временем из интервала

41

34

54

39

49

45

41

33

37

41

47

39

всего 500 циферблатов

Естественно предположить, что показания часов равномерно распределены от 0 до 12.

H0= {случайная величина попадания часов подчиняется равномерному распределению [0..12]}

H1=т.е подчиняется другому распределению.

Для проверки этой гипотезы используем критерий – χ2

1) шаг- отсутствует

2)здесь уже произведено разбиение на интервалы [y0,y1] = [0,1] … [y11,y12] = [11,12]

3) шаг- вычисляем теоретические вероятности: - для равномерного распределения на (a,b)

Найдем теоретические вероятности по (2):

Легко видеть, что все Pi= 1/12

4) шаг: проверяем условиеnPi>5

500 * 1/12 > 5 укрупнять интервалы не требуется

5) шаг: вычисляем эмпирические частоты. По таблице: ν1=41 ν2= 34

6) шаг: вычисляемx2

Возьмем уровень значимости и по таблице находим:

χ212-0-1; 0,95 ≈ 19,68

т.к. x22, то гипотезаH0принимается.

Пример: на телефонной станции проводился подсчет количества неправильных соединений, в течение 2000 часов. На основе полученных наблюдений была получена таблица:

Число неправильных соединений

0

1

2

3

4

5

6

7

8

9

10

Количество часов

57

203

383

525

592

408

273

139

45

27

16

В Σ = 2600 часов.

Если процесс неправильных соединений вызван в основном случайными причинами, то исследуемая случайная величина должна подчиняться распределению Пуассона. Поэтому сначала нужно проверить эту гипотезу, и если она не выполняется, то нужно искать другие причины.

Проверим гипотезу H0={количество неправильных соединений в час - подчиняется распределению Пуассона}, противH1= {подчиняется другому распределению}.

У распределения Пуассона один параметр λ и он, очевидно неизвестен.

Мы знаем оценку λ*=для распределения Пуассона.

По нашим данным находим:

= 1/2600 (0.57 + 1.203 + 2.383 + …) ≈ 3.87

2) шаг - проводим разбиение на интервалы

[y0,y1] = [0] [y1,y2] = [1] … [] = [10,∞]

aпоследнюю вероятность найдем по формуле:

Объединение классов не требуется и находим:

x2= 13,049

χ211-1-1; 0,95≈ 16,92

Мы видим, что гипотеза H0принимается.

3 Применение критерия χ-квадрат для исследования вопроса о зависимости ил независимости признаков.

Часто возникает вопрос:

Даны две случайные величины ξ,η, обычно соответствующие каким-либо двум реальным признакам типа: возраст и успеваемость. И требуется по выборочным данным (x1,x2),(x2,x3),…(xn,yn) определить, является ли признаки зависимыми, или в другой интерпретации: существуют ли какие-либо факторы, влияющие одновременно на обе величины.

Более формально ставится задача о проверке статистических гипотез:

H0= {ξиηнезависимы} против альтернативы

H1= {ξиηзависимы}

Для проверки гипотезы требуется (использовать) тести или критерий К. Пирсона называемый χ- квадрат. Для его описания введем следующие обозначения:

Весь диапазон или интервал изменения случайной величины ξ мы разобъем на непересекающееся множество A1,A2…An, а диапазон случайно величиныηразобъем на интервалыB1,B2…Bk.

Пусть

(1)Pij=P{ξєAi,ηєBj}

Если выполнена гипотеза H0, то должно выполниться равенство:

(2)Pij=Pi*Pj, гдеPi=P{ξєAi}Pj=P{ηєBj}

(2)- определение независимости.

Определим:

(3)νij= {число элементов в выборке таких, что:xαєAi,yβєBj. (xα,yβ) - элемент выборки}

Определим эмпирические вероятности:

(4)

Естественно предположить, что если выполнена H0, то по аналогии с(2)

(*)

Или:

(**)

Точный критерий базируется на следующем определении, доказанном К. Пирсоном.

Теорема.Если случайные величины ξ и η независимы, то величина:

(5)

Эта величина подчиняется распределению χ2с (r-1)(k-1) числом степеней свободы.

(неформально) H0будет отклоняться, если величинаx22(r - 1) (k – 1); 1 – α, порядок мал.

Приведем описание алгоритма проверки гипотезы H0противH1по критериюχ2, основывающийся на этой теореме

1шаг: проведем разбиение на интервалы (A1,A2…An) (B1,B2…Bk) областей изменения признаков

2 шаг: вычисляем νi по(3),используя имеющуюся выборку.

Примечание: часто исходные данные уже сгруппированы и множества νiданы явно, а выборка отсутствует. Полученные данные представляют в виде таблицы:

B1

B2

Bn

A1

A2

:

An

3 шаг:по полученным данным вычисляем величинуx2по(5)и проверяем гипотезу:

Если x22(r - 1) (k – 1); 1 – α, то гипотезаH0принимается при уровне значимости α, в противном случае, если выполнено противоположное неравенство, тоH0отвергается в пользуH1.

Задача:проверим, зависит ли успеваемость от пола студента.

Без троек

С тройками

М

17

15

32

Ж

17

7

24

34

22

56(=n)

Вычислим суммы по строчкам и столбикам. Переходим к третьему шагу: вычисляем x2по(5):

= 0,3 + 0, 02 + 0, 07 + 0, 625 ≈ 1

По таблице находим

χ2(2 – 1) ( 2 – 1); 0,95≈ 3,8

Мы видим, что гипотеза H0о независимости признаков, и пол и успеваемость принимается, причем, чтоx2<< табличного значения свидетельствует о полном отсутствии зависимости

Пример:Рассмотрим, зависит ли успеваемость оттого, что студент из деревни или из города.

1шаг: составим таблицу

2шаг

3шагвычисляемx2, предварительно просуммировав значения по строчкам:

x2≈ 2

Здесь гипотеза H0о независимости признаков принимается, т. к. вычисленное χ2≈ 4