Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие С.Д. Шапорев ПРИКЛАДНАЯ СТАТИСТИКА.pdf
Скачиваний:
504
Добавлен:
26.03.2015
Размер:
2.25 Mб
Скачать

5.6.Критерии согласия

1.Критерий χ2 -Пирсона . Во многих практических задачах модель

закона распределения заранее не известна и возникает задача выбора модели, согласующейся с результатами наблюдений над случайной величиной. Предположим, что выборка x1, x2 ,..., xn произведена из генеральной

совокупности с неизвестной теоретической функцией распределения, от-

носительно которой имеются

две непараметрические гипотезы

H0 : F(x) = F0 (x) и H1 : F(x) ≠ F0

(x), где F0 (x) - известная функция рас-

пределения. Таким образом, проверяется, согласуются ли эмпирические данные с гипотетическим предположением относительно теоретической функции распределения или нет. Поэтому критерии для проверки H0 и

H1 носят название критериев согласия.

Критерий χ2 -Пирсона предполагает, что результаты наблюдений сгруппированы в вариационный ряд. Поскольку при формулировке H0

почти всегда необходимо оценивать несколько параметров закона, то последовательность действий такова.

1.Формулируют гипотезу о модели закона распределения случайной величины, по результатам наблюдений находят оценки неизвестных параметров этой модели.

2.Подставляют в модель закона оценки неизвестных параметров. В результате предполагаемая модель оказывается полностью определенной.

Пусть наблюдаемая случайная величина X принимает только значе-

ния b1, b2 ,..., bk с неизвестными вероятностями p1, p2 ,..., pk . Основная гипотеза H0 выделяет среди всех распределений случайных величин, принимающих значения b1, b2 ,..., bk , одно фиксированное распределение, для которого значения вероятностей известны и равны pi . Обозначим через mi , i = 1,2,..., k число тех элементов выборки x1, x2 ,..., xn , которые приняли

значение b . В силу закона больших чисел наблюденная частота p

= m n

i

 

 

 

 

 

 

 

 

 

i

i

с ростом объема n выборки стремится к вероятности pi

, гипотезу H0 надо

признать справедливой, если все p мало отличаются от

p

i

.

 

 

i

 

 

 

 

 

 

 

 

 

 

Введем статистику χ2 = χ2 (x , x

 

,..., x

 

) =

k

(mi npi )2

.

(5.6.1)

2

n

 

1

 

 

np

 

 

 

 

 

 

 

 

 

i=1

 

i

 

 

 

 

Карл (Чарльз) Пирсон (1857-1936) – английский математик.

132

Эта статистика является мерой равномерной близости pi к pi . Кроме того, она соответствует мультиномиальной схеме, в результате которой появляется χ2 -распределение. Именно пусть ξ1, ξ2 ,..., ξn - независимые случайные величины, распределенные по нормальному закону с одинако-

выми

 

параметрами m и

σ2 . Если

]

η = 1 n (ξ1 + ξ2 + ... + ξn ), тогда

χ2 =

1

 

[(ξ1 η)2

+ (ξ2 η)2

+ ... + (ξn η)2

имеет χ2 - распределение с

σ2

 

 

 

 

 

 

n 1 степенью свободы. Это стандартная схема получения χ2 - распреде-

ления. Она же реализуется в мультиномиальной схеме.

Действительно, если mi - наблюдаемые частоты, то npi - теоретиче-

ские значения соответствующих частот. Дисперсия же в мультиномиальной схеме, как известно, равна npi . Можно еще добавить, что случайная

величина (mi npi ) npi имеет распределение, близкое к нормальному

(использованы операции центрирования и нормирования). Чтобы это утверждение было достаточно точным, необходимо, чтобы для всех i вы-

полнялось условие npi 5 .

Пусть производится n независимых одинаковых испытаний, в каждом из которых с вероятностью pi может произойти одно из событий

Ai , i =

1, k

. mi -

число появлений события Ai

. Тогда из многомерного

аналога теоремы Муавра -

Лапласа следует, что случайная величина

χ2 =

(m1 np1)2

 

+

(m2 np2 )2

+... +

(mk npk )2

 

при n → ∞ асимптотиче-

 

np2

npk

 

 

np1

 

 

 

ски распределена по закону

χ2 с

k l 1 степенью свободы. Здесь l -

число предварительно оцениваемых параметров закона, на их количество понижается число степеней свободы статистики критерия. Таким образом,

k

(m

np

i

)2

 

 

введенная статистика χ2 =

i

 

 

 

при n → ∞ независимо от ги-

 

npi

 

 

 

i =1

 

 

 

 

 

потетических вероятностей pi

имеет χ2 -распределение с k l 1 степе-

нью свободы. Следовательно, критерий χ2

предписывает принять гипоте-

Абрахам Муавр (1667-1754) – французский математик.

133

зу H0 , если χ2 < C (правосторонний критерий), и отвергнуть, если

χ2 C , где C - критическое значение критерия.

При практической реализации критерия χ2 нужно следить за тем, чтобы объем выборки был велик, иначе неправомочна аппроксимация χ2 -распределением распределения статистики критерия. Обычно считает-

ся, что достаточным условием этого является выполнение неравенств mi 5 при всех k , в противном случае маловероятные значения bi объе-

диняются в одно или присоединяются к другим значениям, причем объединенному значению приписывается суммарная вероятность.

В общем случае (непрерывные случайные величины) поступают сле-

дующим образом. Всю числовую прямую разбивают на k

непересекаю-

щихся интервалов (− ∞, d1), [d1, d2 ),

[d2, d3 ),…, [dk 1, ∞). Затем опреде-

ляют гипотетические вероятности pi

= F0 (di )− F0 (di1) попадания в ин-

тервал [di1, di ) и числа mi элементов выборки, попавших в эти интерва-

 

k (m

i

np

i

)2

 

лы. Затем вычисляют значение статистики χ2 =

 

 

 

и сравни-

 

 

npi

 

 

 

i =1

 

 

 

 

вают его с критическим значением C , являющимся

(1 α) -процентным

квантилем χ2 -распределения. Как и в дискретном случае, маловероятные интервалы объединяются.

Разумеется, для того, чтобы увеличить качество критерия χ2 (увели-

чить его мощность), необходимо уменьшить интервалы разбиения, однако этому препятствует ограничение на число попавших в каждый интервал наблюдений.

Пример. В следующей таблице приведен рост (см) 1004 девушек в возрасте 16 лет. Приняв 10% уровень значимости, проверить гипотезу H0 , что они получены из нормально распределенной генеральной сово-

купности.

Границы

134-137

137-140

140-143

143-146

146-149

149-152

152-155

интерва-

лов

 

 

 

 

 

 

 

Частоты

1

4

16

53

121

197

229

Границы

155-158

158-161

161-164

164-167

167-170

170-173

 

интер-

 

валов

 

 

 

 

 

 

 

Частоты

186

121

53

17

5

1

 

Решение

134

Применим критерий χ2 -Пирсона для проверки нулевой гипотезы H0 : F(x) = Φ(x) . Поскольку распределение генеральной совокупности

будет сравниваться со стандартным нормальным, выбранная статистика критерия будет центрирована и нормирована. Для этого необходимо знать математическое ожидание и дисперсию предполагаемого нормального закона, которые мы заменим их оценками, определенными по выборке. Сведем все данные в таблицу (см. следующую страницу).

135

 

 

Сере-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Но-

Грани-

дина

Час

 

 

 

 

 

 

 

 

 

 

xi mX

 

 

 

 

 

 

nd

f (z

 

)=

 

 

 

 

(m

 

np

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

мер

ин-

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ин-

цы

тер-

то-

xi mX

 

(x

i

mX )

z

i

=

 

 

 

 

 

 

f (z

 

)

 

σ

 

i

 

np

 

mi npi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ты

 

 

 

 

 

i

 

 

i

 

 

np

 

 

 

тер-

интер-

 

 

 

 

 

 

 

 

σ

 

 

 

 

 

= npi

 

 

 

 

 

 

i

 

 

вала

вала

mi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

вала

 

xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

134-137

135.5

1

-17.99

 

 

323.64

 

 

 

3.394

 

 

0.0013

 

0.739

 

 

4.89

0.11

 

0.003

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

137-140

138.5

4

-14.99

 

 

224.70

 

 

 

2.828

 

 

 

0.0073

 

4.149

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

140-143

141.5

16

-11.99

 

 

143.76

 

 

 

2.262

 

 

0.0309

 

17.561

 

17.56

-1.56

 

0.139

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

143-146

144.5

53

-8.99

 

 

 

80.82

 

 

 

1.696

 

 

0.0947

 

53.818

 

53.82

-0.82

 

0.012

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5

146-149

147.5

121

-5.99

 

 

 

35.88

 

 

 

1.130

 

 

0.2107

 

119.741

 

119.74

1.26

 

0.013

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

149-152

150.5

197

-2.99

 

 

 

8.94

 

 

 

0.564

 

 

0.3403

 

193.393

 

193.39

3.61

 

0.067

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7

152-155

153.5

229

0.01

 

 

 

0.0

 

 

 

0.002

 

 

0.3989

 

226.696

 

226.70

2.30

 

0.023

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

155-158

156.5

186

3.01

 

 

 

9.06

 

 

 

0.568

 

 

0.3395

 

192.938

 

192.94

-6.94

 

0.250

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

158-161

159.5

121

6.01

 

 

 

36.12

 

 

 

1.134

 

 

0.2097

 

119.173

 

119.17

1.83

 

0.028

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

10

161-164

162.5

53

9.01

 

 

 

81.18

 

 

 

1.700

 

 

0.0940

 

53.420

 

53.42

-0.42

 

0.003

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

11

164-167

165.5

17

12.01

 

 

144.24

 

 

 

2.266

 

 

0.0306

 

17.390

 

17.39

-0.39

 

0.009

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12

167-170

168.5

5

15.01

 

 

225.30

 

 

 

2.832

 

 

0.0072

 

4.092

 

 

4.77

1.23

 

0.317

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

13

170-173

171.5

1

18.01

 

 

324.36

 

 

 

3.398

 

 

 

0.0012

 

0.682

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mX

 

 

 

)

 

 

 

 

 

 

= 5.30

 

 

 

 

 

 

χвыб2 = 0.864

 

 

 

 

 

 

 

 

= 153.49 ,

DX

= 28.09, σ

 

 

 

 

 

 

 

 

 

 

137

В этой таблице первые четыре столбца – исходные данные задачи. Оценкой математического ожидания является выборочное среднее

mX

 

1

n

=

xi . Приведенная формула справедлива для обычной выборки.

 

 

n i=1

Для группированной выборки, такой, какая приведена в задаче, эта формула принимает вид

mX

 

1

k

 

=

mi xi ,

(5.6.2)

 

 

 

n i =1

 

где k - число первоначальных интервалов группировки (k = 13) ,

mi - на-

блюдаемые частоты, xi - середины интервалов группировки. Аналогичная формула для несмещенной оценки дисперсии приобретает вид

)

 

1

k

2

 

DX

=

mi (xi mX ) .

(5.6.3)

 

 

 

n 1 i =1

 

 

Рассчитанные с помощью этих формул по первым шести столбцам таблицы оценки математического ожидания и дисперсии предполагаемого

нормального

распределения

выборки

равны

 

mX = 153.49 см,

)

 

 

 

 

 

 

 

 

 

 

 

DX = 28.09 кв. см, σ = 5.30 см.

 

 

 

 

 

 

 

В седьмом

столбце

приведены нормированные

и центрированные

значения

x , в восьмом ординаты плотности

f (z

 

)

=

1

2

i

ezi 2 стан-

 

i

 

 

 

 

 

 

 

2π

 

дартного нормального распределения N(0,1), в девятом вычисляются зна-

чения np

= nd

f (z

), где

d = 3 - ширина интервала группировки, в деся-

i

σ

i

 

 

 

 

 

 

 

 

 

том столбце значения npi

после объединения двух первых и двух послед-

них интервалов. Наконец, два последних столбца служат для расчета вы-

борочного значения критерия χ2 -Пирсона χвыб2

k1

(m

np

i

)2

 

=

i

 

 

, k1 -

 

npi

 

 

 

i =1

 

 

 

 

число новых интервалов группировки. Так как по выборке определены

оценки двух параметров,

то

l = 2 и

число степеней

свободы

равно

k l 1 = 11 2 1 = 8 .

По

таблице

распределения

χ2

находим,

1

 

 

 

 

 

 

чтоχ02.9,8 = 13.4 . Так как

χвыб2

= 0.864 < χ02.9,8 , то гипотеза

H0

о нор-

мальном распределении группированных данных не противоречит результатам наблюдений и должна быть принята с уровнем значимости 0.1.

136

2. Критерий Колмогорова. В силу теоремы Гливенко–Кантелли эмпирическая функция распределения F (x) представляет собой состоятельную оценку теоретической функции распределения F(x). Поэтому можно сравнивать F (x) с гипотетической F0 (x), и, если мера расхождения между ними мала, считать справедливой гипотезу H0 . Наиболее есте-

ственная и простая мера – это равномерное расстояние между F (x)и

F0 (x) (рис. 5.21), т.е.

D = sup

 

F (x)− F (x)

 

.

(5.6.4)

 

 

−∞<x<+∞

 

0

 

 

 

 

 

 

 

 

Очевидно, что D - случайная величина, поскольку ее значение зависит от слу-

чайного объекта F (x). Если гипотеза H0 справедлива и n → ∞ , то F (x) → F(x)

1.0

F0 (x)

D F (x)

при всяком x . Как

всегда

 

при проверке гипотезы, сле-

 

дует рассуждать так, как

 

если бы гипотеза была вер-

x

на. Ясно, что H0 должна

Рис. 5.21. Графики теоретической F0 (x) и эмпи-

быть отвергнута, если полу-

ченное в эксперименте зна-

рической F (x) функций распределения

чение статистики D ока-

 

жется

неоправдано

боль-

D состоит в том, что если гипотетическое

шим.

Замечательное свойство

распределение указано правильно, то закон распределения статистики D оказывается одним и тем же для всех непрерывных истинных функций распределения.

При малых n для статистики D при гипотезе H0 составлены таблицы процентных точек. При больших n распределение D (при гипотезе H0 ) указывает найденная в 1933 г. А.Н. Колмогоровым предельная тео-

рема (см. подразд. 2.4). Она говорит о статистике Dn = nD (поскольку сама величина D 0 при H0 , приходится умножать ее на неограниченно растущую величину, чтобы распределение стабилизировалось).

137