- •1. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ
- •1.1. Законы распределения дискретных случайных величин
- •1.2. Числовые характеристики дискретных случайных величин, их свойства
- •1.3. Законы распределения непрерывных случайных величин
- •1.4. Числовые характеристики непрерывных случайных величин
- •1.5. Выборочные аналоги интегральной и дифференциальной функций распределения
- •1.6. Лабораторная работа № 1. Методы описательной статистики в пакете STATGRAPHICS
- •1.7. Нормальное распределение и его числовые характеристики
- •2. РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ
- •2.1. -распределение
- •2.5. Гамма–распределение
- •2.7. Лабораторная работа № 2. Семейства вероятностных распределений в математических пакетах STATGRAPHICS и MAHTCAD
- •3. МЕТОД СТАТИСТИЧЕСКИХ ИСПЫТАНИЙ (МЕТОД МОНТЕ-КАРЛО)
- •3.1. Общие принципы метода статистических испытаний
- •3.2. Датчики базовой случайной величины (БСВ)
- •3.3. Моделирование на ЭВМ стандартной равномерно распределенной случайной величины (базовой случайной величины)
- •3.5. Моделирование непрерывных случайных величин
- •3.6. Лабораторная работа № 3. Моделирование некоторых распределений с помощью базовых случайных величин в пакете MATHCAD
- •4. ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ И ИХ СВОЙСТВА
- •4.1. Статистические характеристики вариационных рядов и показатели их качества
- •4.3. Точечные оценки вероятности по частоте, математического ожидания и дисперсии
- •4.5. Методы получения точечных оценок
- •4.6. Сущность интервального оценивания
- •4.7. Приближенные и точные доверительные интервалы для параметров распределений
- •4.8. Лабораторная работа № 4. Оценивание параметров вероятностных распределений в пакетах STATGRAPHICS и MATHCAD
- •5. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ. КРИТЕРИИ СОГЛАСИЯ
- •5.1. Понятие статистической гипотезы. Основные этапы проверки гипотез
- •5.2. Критерий Неймана – Пирсона
- •5.3. Проверка гипотез о числовых значениях параметров нормального распределения
- •5.4. Проверка гипотез о параметрах двух нормальных распределений
- •5.5. Лабораторная работа № 5. Проверка статистических гипотез о числовых значениях нормальных распределений в математических пакетах STATGRAPHICS и MATHCAD
- •5.6. Критерии согласия
- •Решение
- •5.7. Лабораторная работа № 6. Критерии согласия в статистическом пакете STATGRAPHICS
- •5.8. Лабораторная работа №7. Критерии согласия в математическом пакете MATHCAD
- •6. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
- •6.1. Постановка задачи
- •6.2. Дисперсионный анализ
- •Решение
- •6.3. Ранговый однофакторный анализ
- •6.4. Критерий Краскела - Уоллиса (Н-критерий)
- •Решение
- •6.5. Лабораторная работа № 8. Однофакторный ранговый и дисперсионный анализ в статистическом пакете STATGRAPHICS
- •7. РЕГРЕССИОННЫЙ АНАЛИЗ
- •7.1. Модели регрессии
- •7.4. Проверка адекватности линейной регрессии
- •7.5. Выбор наилучшей регрессии
- •8. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ
- •8.2. Критерий знаков
- •8.3. Критерий знаков для одномерной выборки
- •8.4. Ранговый критерий (одновыборочный критерий Вилкоксона)
- •8.5. Двухвыборочный ранговый критерий Вилкоксона
5.6.Критерии согласия
1.Критерий χ2 -Пирсона . Во многих практических задачах модель
закона распределения заранее не известна и возникает задача выбора модели, согласующейся с результатами наблюдений над случайной величиной. Предположим, что выборка x1, x2 ,..., xn произведена из генеральной
совокупности с неизвестной теоретической функцией распределения, от-
носительно которой имеются |
две непараметрические гипотезы |
H0 : F(x) = F0 (x) и H1 : F(x) ≠ F0 |
(x), где F0 (x) - известная функция рас- |
пределения. Таким образом, проверяется, согласуются ли эмпирические данные с гипотетическим предположением относительно теоретической функции распределения или нет. Поэтому критерии для проверки H0 и
H1 носят название критериев согласия.
Критерий χ2 -Пирсона предполагает, что результаты наблюдений сгруппированы в вариационный ряд. Поскольку при формулировке H0
почти всегда необходимо оценивать несколько параметров закона, то последовательность действий такова.
1.Формулируют гипотезу о модели закона распределения случайной величины, по результатам наблюдений находят оценки неизвестных параметров этой модели.
2.Подставляют в модель закона оценки неизвестных параметров. В результате предполагаемая модель оказывается полностью определенной.
Пусть наблюдаемая случайная величина X принимает только значе-
ния b1, b2 ,..., bk с неизвестными вероятностями p1, p2 ,..., pk . Основная гипотеза H0 выделяет среди всех распределений случайных величин, принимающих значения b1, b2 ,..., bk , одно фиксированное распределение, для которого значения вероятностей известны и равны pi . Обозначим через mi , i = 1,2,..., k число тех элементов выборки x1, x2 ,..., xn , которые приняли
значение b . В силу закона больших чисел наблюденная частота p |
= m n |
||||||||||
i |
|
|
|
|
|
|
|
|
|
i |
i |
с ростом объема n выборки стремится к вероятности pi |
, гипотезу H0 надо |
||||||||||
признать справедливой, если все p мало отличаются от |
p |
i |
. |
|
|
||||||
i |
|
|
|
|
|
|
|
|
|
|
|
Введем статистику χ2 = χ2 (x , x |
|
,..., x |
|
) = |
k |
(mi − npi )2 |
. |
(5.6.1) |
|||
2 |
n |
∑ |
|
||||||||
1 |
|
|
np |
|
|
|
|
||||
|
|
|
|
|
i=1 |
|
i |
|
|
|
|
Карл (Чарльз) Пирсон (1857-1936) – английский математик.
132
Эта статистика является мерой равномерной близости pi к pi . Кроме того, она соответствует мультиномиальной схеме, в результате которой появляется χ2 -распределение. Именно пусть ξ1, ξ2 ,..., ξn - независимые случайные величины, распределенные по нормальному закону с одинако-
выми |
|
параметрами m и |
σ2 . Если |
] |
η = 1 n (ξ1 + ξ2 + ... + ξn ), тогда |
|||
χ2 = |
1 |
|
[(ξ1 − η)2 |
+ (ξ2 − η)2 |
+ ... + (ξn − η)2 |
имеет χ2 - распределение с |
||
σ2 |
||||||||
|
|
|
|
|
|
n −1 степенью свободы. Это стандартная схема получения χ2 - распреде-
ления. Она же реализуется в мультиномиальной схеме.
Действительно, если mi - наблюдаемые частоты, то npi - теоретиче-
ские значения соответствующих частот. Дисперсия же в мультиномиальной схеме, как известно, равна npi . Можно еще добавить, что случайная
величина (mi − npi ) npi имеет распределение, близкое к нормальному
(использованы операции центрирования и нормирования). Чтобы это утверждение было достаточно точным, необходимо, чтобы для всех i вы-
полнялось условие npi ≥ 5 .
Пусть производится n независимых одинаковых испытаний, в каждом из которых с вероятностью pi может произойти одно из событий
Ai , i = |
1, k |
. mi - |
число появлений события Ai |
. Тогда из многомерного |
||||||
аналога теоремы Муавра - |
Лапласа следует, что случайная величина |
|||||||||
χ2 = |
(m1 − np1)2 |
|
+ |
(m2 − np2 )2 |
+... + |
(mk − npk )2 |
|
при n → ∞ асимптотиче- |
||
|
np2 |
npk |
||||||||
|
|
np1 |
|
|
|
|||||
ски распределена по закону |
χ2 с |
k − l −1 степенью свободы. Здесь l - |
число предварительно оцениваемых параметров закона, на их количество понижается число степеней свободы статистики критерия. Таким образом,
k |
(m |
− np |
i |
)2 |
|
|
введенная статистика χ2 = ∑ |
i |
|
|
|
при n → ∞ независимо от ги- |
|
|
npi |
|
|
|
||
i =1 |
|
|
|
|
|
|
потетических вероятностей pi |
имеет χ2 -распределение с k − l −1 степе- |
|||||
нью свободы. Следовательно, критерий χ2 |
предписывает принять гипоте- |
Абрахам Муавр (1667-1754) – французский математик.
133
зу H0 , если χ2 < C (правосторонний критерий), и отвергнуть, если
χ2 ≥ C , где C - критическое значение критерия.
При практической реализации критерия χ2 нужно следить за тем, чтобы объем выборки был велик, иначе неправомочна аппроксимация χ2 -распределением распределения статистики критерия. Обычно считает-
ся, что достаточным условием этого является выполнение неравенств mi ≥ 5 при всех k , в противном случае маловероятные значения bi объе-
диняются в одно или присоединяются к другим значениям, причем объединенному значению приписывается суммарная вероятность.
В общем случае (непрерывные случайные величины) поступают сле-
дующим образом. Всю числовую прямую разбивают на k |
непересекаю- |
||||||
щихся интервалов (− ∞, d1), [d1, d2 ), |
[d2, d3 ),…, [dk −1, ∞). Затем опреде- |
||||||
ляют гипотетические вероятности pi |
= F0 (di )− F0 (di−1) попадания в ин- |
||||||
тервал [di−1, di ) и числа mi элементов выборки, попавших в эти интерва- |
|||||||
|
k (m |
i |
− np |
i |
)2 |
|
|
лы. Затем вычисляют значение статистики χ2 = ∑ |
|
|
|
и сравни- |
|||
|
|
npi |
|
|
|||
|
i =1 |
|
|
|
|
||
вают его с критическим значением C , являющимся |
(1 − α) -процентным |
квантилем χ2 -распределения. Как и в дискретном случае, маловероятные интервалы объединяются.
Разумеется, для того, чтобы увеличить качество критерия χ2 (увели-
чить его мощность), необходимо уменьшить интервалы разбиения, однако этому препятствует ограничение на число попавших в каждый интервал наблюдений.
Пример. В следующей таблице приведен рост (см) 1004 девушек в возрасте 16 лет. Приняв 10% уровень значимости, проверить гипотезу H0 , что они получены из нормально распределенной генеральной сово-
купности.
Границы |
134-137 |
137-140 |
140-143 |
143-146 |
146-149 |
149-152 |
152-155 |
интерва- |
|||||||
лов |
|
|
|
|
|
|
|
Частоты |
1 |
4 |
16 |
53 |
121 |
197 |
229 |
Границы |
155-158 |
158-161 |
161-164 |
164-167 |
167-170 |
170-173 |
|
интер- |
|
||||||
валов |
|
|
|
|
|
|
|
Частоты |
186 |
121 |
53 |
17 |
5 |
1 |
|
Решение
134
Применим критерий χ2 -Пирсона для проверки нулевой гипотезы H0 : F(x) = Φ(x) . Поскольку распределение генеральной совокупности
будет сравниваться со стандартным нормальным, выбранная статистика критерия будет центрирована и нормирована. Для этого необходимо знать математическое ожидание и дисперсию предполагаемого нормального закона, которые мы заменим их оценками, определенными по выборке. Сведем все данные в таблицу (см. следующую страницу).
135
|
|
Сере- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Но- |
Грани- |
дина |
Час |
|
|
|
|
|
|
|
|
|
|
xi − mX |
|
|
|
|
|
|
nd |
f (z |
|
)= |
|
|
|
|
(m |
|
− np |
|
)2 |
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
мер |
ин- |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
i |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
ин- |
цы |
тер- |
то- |
xi − mX |
|
(x |
i |
− mX ) |
z |
i |
= |
|
|
|
|
|
|
f (z |
|
) |
|
σ |
|
i |
|
np |
|
mi − npi |
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||||
ты |
|
|
|
|
|
i |
|
|
i |
|
|
np |
|
|
|
||||||||||||||||||||
тер- |
интер- |
|
|
|
|
|
|
|
|
σ |
|
|
|
|
|
= npi |
|
|
|
|
|
|
i |
|
|
||||||||||
вала |
вала |
mi |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
вала |
|
xi |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
134-137 |
135.5 |
1 |
-17.99 |
|
|
323.64 |
|
|
|
3.394 |
|
|
0.0013 |
|
0.739 |
|
|
4.89 |
0.11 |
|
0.003 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
2 |
137-140 |
138.5 |
4 |
-14.99 |
|
|
224.70 |
|
|
|
2.828 |
|
|
|
0.0073 |
|
4.149 |
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
3 |
140-143 |
141.5 |
16 |
-11.99 |
|
|
143.76 |
|
|
|
2.262 |
|
|
0.0309 |
|
17.561 |
|
17.56 |
-1.56 |
|
0.139 |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
4 |
143-146 |
144.5 |
53 |
-8.99 |
|
|
|
80.82 |
|
|
|
1.696 |
|
|
0.0947 |
|
53.818 |
|
53.82 |
-0.82 |
|
0.012 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
5 |
146-149 |
147.5 |
121 |
-5.99 |
|
|
|
35.88 |
|
|
|
1.130 |
|
|
0.2107 |
|
119.741 |
|
119.74 |
1.26 |
|
0.013 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
6 |
149-152 |
150.5 |
197 |
-2.99 |
|
|
|
8.94 |
|
|
|
0.564 |
|
|
0.3403 |
|
193.393 |
|
193.39 |
3.61 |
|
0.067 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
7 |
152-155 |
153.5 |
229 |
0.01 |
|
|
|
0.0 |
|
|
|
0.002 |
|
|
0.3989 |
|
226.696 |
|
226.70 |
2.30 |
|
0.023 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
8 |
155-158 |
156.5 |
186 |
3.01 |
|
|
|
9.06 |
|
|
|
0.568 |
|
|
0.3395 |
|
192.938 |
|
192.94 |
-6.94 |
|
0.250 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
9 |
158-161 |
159.5 |
121 |
6.01 |
|
|
|
36.12 |
|
|
|
1.134 |
|
|
0.2097 |
|
119.173 |
|
119.17 |
1.83 |
|
0.028 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
10 |
161-164 |
162.5 |
53 |
9.01 |
|
|
|
81.18 |
|
|
|
1.700 |
|
|
0.0940 |
|
53.420 |
|
53.42 |
-0.42 |
|
0.003 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||
11 |
164-167 |
165.5 |
17 |
12.01 |
|
|
144.24 |
|
|
|
2.266 |
|
|
0.0306 |
|
17.390 |
|
17.39 |
-0.39 |
|
0.009 |
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
12 |
167-170 |
168.5 |
5 |
15.01 |
|
|
225.30 |
|
|
|
2.832 |
|
|
0.0072 |
|
4.092 |
|
|
4.77 |
1.23 |
|
0.317 |
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
13 |
170-173 |
171.5 |
1 |
18.01 |
|
|
324.36 |
|
|
|
3.398 |
|
|
|
0.0012 |
|
0.682 |
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
mX |
|
|
|
) |
|
|
|
|
|
|
= 5.30 |
|
|
|
|
|
|
χвыб2 = 0.864 |
|
|
|
|
|||||||||
|
|
|
|
= 153.49 , |
DX |
= 28.09, σ |
|
|
|
|
|
|
|
|
|
|
137
В этой таблице первые четыре столбца – исходные данные задачи. Оценкой математического ожидания является выборочное среднее
mX |
|
1 |
n |
= |
∑xi . Приведенная формула справедлива для обычной выборки. |
||
|
|
n i=1 |
Для группированной выборки, такой, какая приведена в задаче, эта формула принимает вид
mX |
|
1 |
k |
|
|
= |
∑mi xi , |
(5.6.2) |
|||
|
|||||
|
|
n i =1 |
|
||
где k - число первоначальных интервалов группировки (k = 13) , |
mi - на- |
блюдаемые частоты, xi - середины интервалов группировки. Аналогичная формула для несмещенной оценки дисперсии приобретает вид
) |
|
1 |
k |
2 |
|
|
DX |
= |
∑mi (xi − mX ) . |
(5.6.3) |
|||
|
||||||
|
|
n −1 i =1 |
|
|
Рассчитанные с помощью этих формул по первым шести столбцам таблицы оценки математического ожидания и дисперсии предполагаемого
нормального |
распределения |
выборки |
равны |
|
mX = 153.49 см, |
||||||
) |
|
|
|
|
|
|
|
|
|
|
|
DX = 28.09 кв. см, σ = 5.30 см. |
|
|
|
|
|
|
|
||||
В седьмом |
столбце |
приведены нормированные |
и центрированные |
||||||||
значения |
x , в восьмом ординаты плотности |
f (z |
|
) |
= |
1 |
2 |
||||
i |
e−zi 2 стан- |
||||||||||
|
i |
|
|
|
|
|
|
|
2π |
|
|
дартного нормального распределения N(0,1), в девятом вычисляются зна- |
|||||||||||
чения np |
= nd |
f (z |
), где |
d = 3 - ширина интервала группировки, в деся- |
|||||||
i |
σ |
i |
|
|
|
|
|
|
|
|
|
том столбце значения npi |
после объединения двух первых и двух послед- |
них интервалов. Наконец, два последних столбца служат для расчета вы-
борочного значения критерия χ2 -Пирсона χвыб2 |
k1 |
(m |
− np |
i |
)2 |
|
= ∑ |
i |
|
|
, k1 - |
||
|
npi |
|
|
|||
|
i =1 |
|
|
|
|
число новых интервалов группировки. Так как по выборке определены
оценки двух параметров, |
то |
l = 2 и |
число степеней |
свободы |
равно |
|
k − l −1 = 11 − 2 −1 = 8 . |
По |
таблице |
распределения |
χ2 |
находим, |
|
1 |
|
|
|
|
|
|
чтоχ02.9,8 = 13.4 . Так как |
χвыб2 |
= 0.864 < χ02.9,8 , то гипотеза |
H0 |
о нор- |
мальном распределении группированных данных не противоречит результатам наблюдений и должна быть принята с уровнем значимости 0.1.
136
2. Критерий Колмогорова. В силу теоремы Гливенко–Кантелли эмпирическая функция распределения F (x) представляет собой состоятельную оценку теоретической функции распределения F(x). Поэтому можно сравнивать F (x) с гипотетической F0 (x), и, если мера расхождения между ними мала, считать справедливой гипотезу H0 . Наиболее есте-
ственная и простая мера – это равномерное расстояние между F (x)и
F0 (x) (рис. 5.21), т.е.
D = sup |
|
F (x)− F (x) |
|
. |
(5.6.4) |
|
|
||||
−∞<x<+∞ |
|
0 |
|
|
|
|
|
|
|
|
Очевидно, что D - случайная величина, поскольку ее значение зависит от слу-
чайного объекта F (x). Если гипотеза H0 справедлива и n → ∞ , то F (x) → F(x)
1.0
F0 (x)
D F (x)
при всяком x . Как |
всегда |
|
||
при проверке гипотезы, сле- |
|
|||
дует рассуждать так, как |
|
|||
если бы гипотеза была вер- |
x |
|||
на. Ясно, что H0 должна |
||||
Рис. 5.21. Графики теоретической F0 (x) и эмпи- |
||||
быть отвергнута, если полу- |
||||
ченное в эксперименте зна- |
рической F (x) функций распределения |
|||
чение статистики D ока- |
|
|||
жется |
неоправдано |
боль- |
D состоит в том, что если гипотетическое |
|
шим. |
Замечательное свойство |
распределение указано правильно, то закон распределения статистики D оказывается одним и тем же для всех непрерывных истинных функций распределения.
При малых n для статистики D при гипотезе H0 составлены таблицы процентных точек. При больших n распределение D (при гипотезе H0 ) указывает найденная в 1933 г. А.Н. Колмогоровым предельная тео-
рема (см. подразд. 2.4). Она говорит о статистике Dn = nD (поскольку сама величина D → 0 при H0 , приходится умножать ее на неограниченно растущую величину, чтобы распределение стабилизировалось).
137