Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие С.Д. Шапорев ПРИКЛАДНАЯ СТАТИСТИКА.pdf
Скачиваний:
504
Добавлен:
26.03.2015
Размер:
2.25 Mб
Скачать

6.4. Критерий Краскела - Уоллиса (Н-критерий)

Если нельзя сказать что-то определенное об альтернативах к H0 ,

можно воспользоваться для ее проверки свободным от распределения Н- критерием. Он был предложен Краскелом и Уоллисом и является обобщением двухвыборочного критерия Вилкоксона .

Построим общий вариационный ряд, содержащий n1 + n2 +... + nk = n элементов, где n j - число наблюдений в j -й подвы-

борке (на j -м уровне фактора). Используем обозначения подразд. 6.2. Тогда Rj - сумма рангов каждой обработки, т.е. каждого столбца табл. 6,

а R j - среднее арифметическое этих рангов. Формулы для их нахождения таковы:

 

 

 

 

 

 

 

 

 

 

 

n j

 

 

 

 

 

 

 

 

1

 

n j

 

1

 

 

 

 

 

 

 

 

 

 

 

 

Rj = rij ,

 

R

j

=

 

rij

=

Rj .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

n j i=1

 

n j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n(n +1)

 

 

 

 

 

 

 

 

 

M (R j )=

M

1

R

=

1

k =

1

 

=

n +1

как среднее арифмети-

 

 

 

 

 

 

 

 

 

 

n

j

j

 

n

 

n

2

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

k

=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n(n +1)

 

 

ческое всех рангов от единицы до

n ,

а 1 + 2 + ... + n =

 

. Отсюда

 

M (R

)=

n j (n +1)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если между столбцами нет систематических различий, средние ранги R j не должны значительно отличаться от среднего ранга, рассчитанного по всей совокупности чисел rij . Математическое ожидание среднего ран-

га, очевидно, равно M (R)= (n +1)2 .

Более сложным образом рассчитывается дисперсия. Для R j она рав-

 

 

 

(n +1)(n n j )

 

j M (

 

j )

 

 

 

 

R

R

 

на D(R j )=

 

 

. Если n → ∞ , то дробь

 

D(

 

j )

имеет в

 

 

 

 

 

 

12n j

 

R

 

пределе стандартное нормальное распределение, что и использовали Краскел и Уоллис для построения статистики критерия, которую они обозначили буквой H и которая имеет вид

Фрэнк Вилкоксон (Уилкоксон) (1892-1965) – американский математик.

170

 

 

 

 

n +1 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

R j

 

 

 

 

 

n j

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H =

 

 

 

 

 

 

 

 

(6.4.1)

 

 

 

 

 

 

 

1

 

.

j =1

 

(n +1)(n n j )

 

n

 

 

 

 

 

 

12n j

 

 

 

 

 

 

Краскел и Уоллис показали, что асимптотически статистика H имеет χ2 -распределение с (k 1) степенью свободы, где k - число подвыборок

(уровней фактора). Часто статистика H записывается в одном из следующих двух видов:

 

 

 

12

 

 

k

 

 

 

 

n +1

2

 

 

 

 

 

 

 

 

 

 

 

H

=

 

 

 

n j R j

 

 

,

(6.4.2)

n(n +1)

2

 

 

j =1

 

 

 

 

 

 

 

или

 

 

 

 

 

 

 

R2

 

 

 

 

 

 

 

 

 

12

 

 

k

 

3(n +1).

 

H =

 

 

 

j

 

(6.4.3)

n(n +1)

 

n

j

 

 

 

 

j =1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если два или более наблюдений совпадают, то наилучшая процедура состоит в том, что совпавшим наблюдениям нужно приписать один и тот же ранг, равный среднему арифметическому рангов, которые эти наблюдения должны были получить, если бы они не совпали. Эта операция оставляет без изменения сумму рангов и математическое ожидание суммы рангов. Но формула для вычисления дисперсии меняется, так как диспер-

сия статистики R j зависит от суммы квадратов рангов, которая от такой

замены изменится. Изменится и вид статистики H , поэтому ее исправляют соответствующей поправкой.

Если совпадений много, рекомендуется использовать модифицированную форму статистики H / :

H /

=

 

H

 

 

,

(6.4.4)

 

p

 

 

 

 

T j

 

 

 

 

 

1

 

 

 

 

 

 

 

3

 

 

 

 

j =1n

n

T j = (t3j t j ), t j - число

где p - число групп совпадающих наблюдений,

совпадающих наблюдений в группе с номером j .

Пример. Кислота непрерывным образом концентрируется на некотором типе оборудования, в результате чего часть оборудования ржавеет и со временем разрушается. Потери металла (в сотнях тонн) за период от установки оборудования до момента разрушения некоторой его части зафиксированы в таблице для трех литейных мастерских А, В и С. Прове-

171

рить нулевую гипотезу, по которой средняя продолжительность службы металла одна и та же для всех трех мастерских.

Мастерская

 

 

 

 

Потери металла

 

 

 

А

84

60

40

47

 

34

46

 

 

 

 

В

67

92

95

40

 

98

60

59

108

86

117

С

46

93

100

92

 

92

 

 

 

 

 

Решение

Никаких правдоподобных предположений о вероятностном распределении потерь металла в этой задаче сделать нельзя. Воспользуемся ранговым методом Краскела – Уоллиса. Надо заметить, что величины, приведенные в исходной таблице, имеют смысл сами по себе, а не только в сравнении с другими величинами. Хотя при переходе от величин потерь металла к их рангам происходит определенная потеря информации, но такая информация, во-первых, не столь значительна, во-вторых, компенсируется тем, что от неизвестного закона распределения величин xij мы

переходим к величинам rij , распределение которых при гипотезе H0 из-

вестно.

Основная гипотеза H0 постулирует постоянный срок службы метал-

ла во всех трех мастерских, т.е. постоянный уровень потерь, следовательно, однородность исходных выборок. Обозначим потери металла в j

группе через μ j . Тогда

H0 : μ1 = μ2 = μ3,

H1 : μi μ j , i j, 1 i 3, 1 j 3.

Сначала получим вариационный ряд и припишем каждому наблюдению его ранг. В связи с наличием в таблице совпадений будем пользоваться средними рангами.

Наблюдения

34

40

40

46

46

47

59

60

60

67

84

Номер наблюде-

 

 

 

 

 

 

 

 

 

 

 

ний в вариаци-

1

2

3

4

5

6

7

8

9

10

11

онном ряду

 

 

 

 

 

 

 

 

 

 

 

Ранг

1

2.5

2.5

4.5

4.5

6

7

8.5

8.5

10

11

Наблюдения

86

92

92

92

93

95

98

100

108

117

 

Номер наблюде-

 

 

 

 

 

 

 

 

 

 

 

ний в вариаци-

12

13

14

15

16

17

18

19

20

21

 

онном ряду

 

 

 

 

 

 

 

 

 

 

 

Ранг

12

14

14

14

16

17

18

19

20

21

 

172