теория вероятностей
.pdf81
где n — объем выборки;
k — количество интервалов (групп наблюдений);
n j — количество наблюдений, попавших в j-й интервал;
p j — вероятность попадания в j-й интервал случайной величины, распре-
деленной по гипотетическому закону.
Если предположение о виде закона распределения справедливо, то статистика Пирсона распределена по закону «хи-квадрат» с числом степеней сво-
боды |
k −r −1 (r — число параметров распределения, оцениваемых по вы- |
борке): |
K ~ χ(2k −r −1). |
Пример 1. на уровне значимости α = 0.025 проверить гипотезу о нормальном распределении веса новорожденных (пример 2 подраздела 3.2).
Решение. Сформулируем основную и альтернативную гипотезы.
H0 : X ~ N (a, σ) — случайная величина X (вес новорожденных) под-
чиняется нормальному закону с параметрами a и σ. Так как истинных зна-
чений параметров |
a и σ мы не знаем, возьмем их оценки, рассчитанные по |
|
|
|
|
выборке: a |
= 3.746, σ = 0.399. |
H1 : случайная величина X не подчиняется нормальному закону с дан-
ными параметрами. |
Kнабл |
|
Рассчитаем наблюдаемое значение |
статистики Пирсона. Эмпи- |
|
рические частоты n j уже известны (табл. 3.3), |
а для вычисления вероятно- |
|
стей p j (в предположении, что гипотеза |
H0 |
справедлива) применим фор- |
мулу (2.1): |
|
|
|
|
|
a j +1 −a |
||
p j = P(a j < X < a j +1) = Φ |
|
|
|
||
|
||
|
σ |
−Φ
−
a j a , j =1, 2, ..., k
σ
и таблицу функции Лапласа (приложение 1). Полученные результаты сведем в таблицу (табл. 6.7). Наблюдаемое значение статистики Пирсона равно
Kнабл = 0.978.
Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то
чем больше ее наблюдаемое значение Kнабл , тем сильнее довод против основной гипотезы. Поэтому критическая область для этой статистики всегда
правосторонняя: [K ; +∞). Её границу K = χ2 − − α находим по таб-
кр кр (k r 1; )
82
лицам распределения «хи-квадрат» (приложение 2) и заданным значениям α = 0.025, k = 6 (число интервалов), r = 2 (параметры a и σ оценены по
выборке): Kкр = χ2 (6 −2 −1; 0.025) = χ2 (3; 0.025) = 9.4.
Наблюдаемое значение статистики Пирсона не попадает в критическую область: Kнабл < Kкр, поэтому нет оснований отвергать основную гипотезу.
Вывод: на уровне значимости 0.025 справедливо предположение о том, что вес новорожденных имеет нормальное распределение.
Таблица 6.7
Сравнение наблюдаемых и ожидаемых частот
№ |
Интервалы |
На- |
Вероятность |
Ожидаемая |
|
Слагаемые |
||
п/п |
группировки |
блю- |
p j |
частота |
|
статистики |
||
|
[a j;a j +1) |
дае- |
попадания в |
n p j |
|
Пирсона |
|
|
|
мая |
|
(n j −np j ) |
2 |
|
|||
|
|
j-й интервал |
|
|
|
|||
|
|
час- |
|
|
|
|
||
|
|
|
|
np j |
|
|
||
|
|
тота |
|
|
|
|
|
|
|
|
n j |
|
|
|
|
|
|
1. |
[3; 3.3) |
4 |
0.101 |
3.032 |
0.309 |
|
|
|
2. |
[3.3; 3.6) |
7 |
0.225 |
6.761 |
0.008 |
|
|
|
3. |
[3.6; 3.9) |
10 |
0.295 |
8.79 |
0.166 |
|
|
|
4. |
[3.9; 4.2) |
5 |
0.222 |
6.665 |
0.416 |
|
|
|
5. |
[4.2; 4.5) |
3 |
0.098 |
2.946 |
0.001 |
|
|
|
6. |
[4.5; 4.8) |
1 |
0.025 |
0.758 |
0.077 |
|
|
|
∑ |
— |
30 |
0.965 |
28.95 |
Kнабл = 0.978. |
|||
|
|
|
|
|
|
|
|
|
6.4. Проверка гипотез об однородности данных
6.4.1. Критерий знаков
На практике часто возникает задача сравнения двух методов обработки, двух рационов питания, двух методик обучения и т.п. В статистике эту задачу можно решить с помощью критериев однородности.
Рассмотрим вначале случай парных наблюдений: для каждого объекта измеряются два значения интересующего нас признака (например, до воздей-
ствия и после). Результатом будут две группы наблюдений: x1, x2 , ..., xn и
y1, y2 , ..., yn.
Основная гипотеза имеет вид: H0 : F1(x) = F2 (x) — закон распределения генеральной совокупности X, из которой извлечена первая выборка, тот же
83
самый, что и закон распределения Y. Предполагается, что разности xi − yi взаимно независимы (i =1, 2, ..., n) и P(xi < yi ) = P(xi > yi ) = 0.5.
Для каждой разности xi − yi определим ее знак и подсчитаем количество Kнабл — количество тех знаков, которых меньше в данной выборке. Критическим значением Kкрбудем считать такое, что при заданном уровне зна-
чимости α P(K ≤ Kкр) ≤ α.
Некоторые значения критических точек приведены в таблице 6.8.
Таблица 6.8
Критические точки для критерия знаков
Уровень |
|
|
Объем выборки n |
|
|
|||
значимости α |
5 |
10 |
|
15 |
20 |
|
25 |
30 |
0.01 |
0 |
0 |
|
2 |
3 |
|
5 |
7 |
0.05 |
0 |
1 |
|
3 |
5 |
|
7 |
9 |
0.1 |
0 |
1 |
|
3 |
5 |
|
7 |
10 |
Пример 1. Для желающих похудеть была предложена специальная диета. У десяти участников эксперимента измеряли вес до применения диеты (Х, кг) и после применения (Y, кг) (табл. 6.9).
Оказывает ли диета какое-либо существенное влияние на вес?
Таблица 6.9
Исходные данные для примера 1
Х |
68 |
80 |
92 |
81 |
70 |
79 |
78 |
66 |
57 |
76 |
Y |
60 |
84 |
87 |
79 |
74 |
71 |
72 |
67 |
56 |
70 |
Решение. Сформулируем основную и альтернативную гипотезы:
H0 : F1(x) = F2 (x) — выборочные данные однородны, выборки извле-
чены из генеральных совокупностей с одинаковыми распределениями. Применительно к условиям: диета не оказывает существенного влияния на вес тела.
H1 : F1(x) ≠ F2 (x) — выборки неоднородны; распределения генераль-
ных совокупностей Х и Y различны; диета оказывает влияние на вес. |
|
||
Запишем |
последовательность |
знаков |
разностей |
xi − yi : +,−,+,−,−,+,+,−,+,+. Знак «+» в этой последовательности встречает-
ся 6 раз, а «–» — 4 раза, поэтому Kнабл равно количеству знаков «минус»:
Kнабл = 4.
84
Для данного объема выборки n =10 критическое значение Kкр =1 при
α = 0.05 и α = 0.1. Поэтому наблюдаемый результат Kнабл = 4 не является маловероятным при условии, что гипотеза H0 справедлива, вероятность
этого события больше 0.1.
Следовательно, на уровне значимости 0.1 нет оснований отвергать гипотезу H0 , диета не оказывает существенного влияния на вес.
Заметим, что если среди пар значений xi и yi , есть равные xi = yi , то
их следует отбросить, соответственно уменьшив объем выборки n.
Критерий знаков применяется для выборок малого объема, его основное достоинство — простота.
6.4.2. Критерий Вилкоксона
Этот критерий используется для проверки однородности двух независимых выборок x1, x2 , ..., xn1 и y1, y2 , ..., yn2 . Он применяется к случайным
величинам, распределения которых неизвестны, но являются непрерывными. Основная гипотеза имеет вид H0 : F1(x) = F2 (x), а альтернативная ги-
потеза может быть левосторонней, правосторонней или двусторонней.
При использовании критерия Вилкоксона все вычисления проводятся не для самих наблюдаемых значений xi , yi , а для их рангов. Ранг — это порядковый номер наблюдения в данной выборке, если наблюдаемые значения рас-
положить |
по возрастанию. |
Например, выборке |
x1 =12.6, x2 =11.4, |
||
x3 =13.1, |
x4 =11.9 |
соответствует последовательность рангов |
r1 = 3, |
||
r2 =1, r3 = 4, r4 = 2. |
Если |
в выборке встречаются |
несколько одинаковых |
значений, то им ставится в соответствие одинаковый ранг — среднее арифме-
тическое |
порядковых |
номеров. |
Так, |
для |
выборки |
|
x1 =10, x2 = 9.5, x3 =11, x4 =10.5, x5 = 9.5, x6 =8, x7 =11, x8 =11 |
после- |
|||||
довательность |
рангов имеет |
вид: r1 = 4, r2 = 2.5, r3 = 7, r4 = 5, r5 = 2.5, |
||||
r6 =1, r7 = 7, r8 = 7. Здесь ранг значения 9.5 равен 2.5 = (2 +3) / 2, |
а ранг |
|||||
значения 11 равен 7 = (6 +7 +8) / 3. |
|
|
|
|
Последовательность действий при проверке гипотезы однородности с помощью критерия Вилкоксона следующая:
1) составляем объединение выборок x1, x2 , ..., xn1 и y1, y2 , ..., yn2 ;
2)находим ранги объединенной выборки (обозначим ранги первой выборки r1, r2 , ..., rn1 , а ранги второй — s1, s2 , ..., sn2 );
3)вычисляем наблюдаемое значение статистики Вилкоксона
85
K = s1 + s2 +... + sn2 ,
равную сумме рангов второй выборки.
Если распределение второй выборки сдвинуто вправо относительно пер-
вой |
(альтернативная |
гипотеза |
H1 : F1(x) < F2 (x), |
то статистика |
K будет |
|||||||||||||||||
принимать значения, |
большие критического |
Kкр = K (n1, n2; α), и гипотеза |
||||||||||||||||||||
H0 |
отвергается в пользу альтернативы H1. |
|
|
|
|
|
|
|
|
|
|
|||||||||||
H0 |
Если |
рассматривается |
альтернатива |
H1 : F1(x) ≠ F2 (x), то |
гипотеза |
|||||||||||||||||
|
отвергается, |
если |
|
выполняется |
|
одно |
из |
двух |
условий: |
|||||||||||||
K |
|
|
≥ K |
|
|
, n |
; |
α |
или K |
|
= n |
|
(n |
|
+ n +1) |
|
|
|
; |
α |
||
|
|
|
= K n |
2 |
|
|
|
|
− K n ,n |
|
. |
|||||||||||
|
набл |
|
кр |
1 |
2 |
|
|
|
набл |
|
2 |
|
2 |
|
1 |
1 |
|
2 |
|
2 |
Пример 2. В биохимическом исследовании, проведенном методом меченных атомов, по результатам изучения 7 препаратов опытной группы получены следующие показания счетчика импульсов (в импульсах в минуту): 340, 343, 322, 332, 320, 313, 304. Результаты контрольной группы: 318, 321, 318, 301, 312.
Можно ли считать, что полученные значения опытной и контрольной групп различны (α = 0.05) ?
Решение. Сформулируем основную и альтернативную гипотезы.
H0 : F1(x) = F2 (x) — выборки однородны; различия в результатах опытной и контрольной групп можно отнести на счет случайных воздействий.
H1 : F1(x) ≠ F2 (x) — выборки извлечены из генеральных совокупно-
стей с разными распределениями; различие между контрольной и опытной группами существенно.
Объединим выборки и расположим полученные данные в порядке воз-
растания: 301, 304, 312, 313, 318, 318, 320, 321, 322, 332, 340, 343 — здесь
подчеркнуты элементы второй выборки (контрольной группы). Занумеровав все элементы в порядке возрастания, получим ранговую последовательность: 1, 2, 3, 4, 5.5, 5.5, 7, 8, 9,10,11,12 — подчеркнуты ранги контрольной группы.
Наблюдаемое значение статистики Вилкоксона равно
Kнабл =1 +3 +5.5 +5.5 +8 = 23.
Критическая область |
|
является |
|
двусторонней, ее правая граница при |
|||||
α = 0.1 (табл. 6.10) |
|
|
|
|
|
|
|
|
|
K |
|
= K |
|
|
|
; |
α |
|
= K (7, 5; 0.05) = 44 , |
|
n , n |
|
2 |
|
|||||
|
пр |
|
|
1 |
2 |
|
|
|
левая граница
Kлев = n2 (n2 + n1 +1)− Kпр =5 14 −44 = 26 .
86
Наблюдаемое значение попадает в критическую область: Kнабл < Kлев,
поэтому основная гипотеза отвергается в пользу альтернативной.
Итак, на уровне значимости 0.1 можно утверждать, что разница между показаниями счетчика в контрольной и опытной группах существенна.
|
|
|
|
|
|
Таблица 6.10 |
|
Критические точки критерия Вилкоксона при |
α = 0.05 |
||||||
|
|
|
|
|
|
|
|
n2 |
|
|
n1 |
|
|
||
5 |
7 |
|
9 |
|
10 |
|
|
|
|
|
|
||||
5 |
36 |
44 |
|
51 |
|
54 |
|
87
7.КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ
7.1.Основные задачи
В этом разделе мы рассмотрим виды и формы связей, различаемые в статистике. Связи между различными явлениями и их признаками можно разделить на два типа: функциональные и стохастические. Если два признака X и Y связаны функциональной зависимостью, то по значению одного из них можно точно указать значение другого. Например, зная рост X в сантиметрах наугад взятого человека, можно указать его рост Y в метрах. Стохастическая связь проявляется не в каждом отдельном случае, а в среднем при большом числе наблюдений. Если X — рост наугад взятого человека в сантиметрах, то Y = X −100 — вес в килограммах. Изучение такого вида связей — предмет исследования корреляционного и регрессионного анализа. При этом независимый признак X называется фактором, а зависимый Y — откликом.
Основные задачи корреляционного анализа:
1)выяснить, есть ли связь между двумя признаками;
2)измерить силу этой связи;
3)отобрать факторы, оказывающие наиболее сильное влияние на отклик. В задачи регрессионного анализа входят следующие:
1)описание формы зависимости;
2)нахождение коэффициентов уравнения, описывающего зависимость, и оценка их точности;
3)оценка качества полученной зависимости (адекватность модели).
7.2. Коэффициент корреляции Пирсона
Коэффициент корреляции Пирсона rXY измеряет тесноту линейной связи между переменными X и Y
rXY = M ((X −σmXσ)(Y −my ))
X Y
и обладает следующими свойствами.
Для любых переменных X и Y его абсолютная величина не превосходит единицы: −1 ≤ rXY ≤1.
Значение коэффициента корреляции равно +1 или –1 тогда и только тогда, когда между переменными X и Y существует линейная функциональная связь Y = a +bX .
Если переменные X и Y независимы, то rXY = 0. Если rXY = 0, то пере-
менные X и Y называются некоррелированными. Некоррелированность переменных означает отсутствие между ними линейной стохастической зависимости, но не означает отсутствия связи вообще.
88
Точечной оценкой коэффициента корреляции rXY является выборочный коэффициент корреляции rˆXY , который можно рассчитывать по формулам:
|
|
1 |
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
∑xi yi − x y |
|
|
|
|
|
|
||||||
|
|
n |
|
|
|
|
|
|
||||||
rˆ |
= |
i |
=1 |
|
|
|
; |
|
|
|
|
(7.1) |
||
|
|
|
|
|
|
|
|
|||||||
XY |
|
|
|
|
sX sY |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
∑xi yi |
−nx y |
|
|
|
|
||||
rˆXY |
= |
|
|
|
i =1 |
|
|
|
|
|
|
, |
(7.2) |
|
|
|
n |
|
|
|
|
n |
|
|
|
||||
|
|
|
2 |
|
2 |
2 |
|
2 |
|
|
||||
|
|
|
|
|
−nx |
|
|
−ny |
|
|
||||
|
|
|
|
∑xi |
|
|
∑yi |
|
|
|
||||
|
|
|
i =1 |
|
|
i =1 |
|
|
|
|
|
где (xi , yi ), i =1, 2, ..., n — независимая выборка объема n из двумерной ге-
неральной совокупности;
x, y — средние арифметические значения (выборочные средние) переменных X и Y;
sX , sY — выборочные средние квадратические отклонения переменных
X и Y.
Коэффициент корреляции rˆ , рассчитанный по выборке, является значе-
нием случайной величины ˆ . С увеличением числа наблюдений (свыше 500)
R
распределение величины ˆ стремится к нормальному. С уменьшением числа
R
наблюдений надежность этой оценки падает. Поэтому после вычисления
оценки rˆ встает вопрос о значимости коэффициента корреляции. Значимость коэффициента корреляции проверяется с помощью статисти-
ки, имеющей распределение Стьюдента (табл. 7.1).
|
Таблица 7.1 |
|
Проверка значимости коэффициента корреляции Пирсона |
||
|
|
|
Гипотеза |
H0 : rXY = 0 |
|
Предположение |
Двумерная нормальная генеральная |
|
|
совокупность |
|
Оценки по выборке |
ˆ |
|
|
x; y; sX ; sY ; rXY |
|
Статистика К |
ˆ |
|
RXY n −2 |
||
|
||
|
ˆ 2 |
|
|
1− RXY |
|
Распределение статистики К |
Стьюдента T(n−2) |
89
Пример 1. Проводится изучение зависимости массы монеты Y в граммах от времени обращения X (число лет обращения).
По результатам десяти наблюдений (табл. 7.2) выяснить, значима ли корреляция между массой монеты и временем ее обращения.
Решение. Рассчитаем по выборке объема n =10 (табл. 7.2) оценки сред-
них x = mˆ |
X |
, y = mˆ |
|
и дисперсий s2 = σˆ 2 |
, s |
2 |
= σˆ |
2 |
: |
|
|
|
|||||||||||
|
|
|
|
Y |
|
|
|
|
X |
|
X |
|
Y |
|
Y |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
Данные примера 1 |
|
|
|
|
|
|
Таблица 7.2 |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i |
1 |
|
|
2 |
|
|
3 |
4 |
5 |
6 |
|
|
|
7 |
|
|
8 |
|
9 |
10 |
|||
x (лет) |
5 |
|
|
9 |
|
|
14 |
17 |
23 |
31 |
|
|
|
35 |
|
|
42 |
|
46 |
50 |
|||
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
yi (г) |
2.82 |
|
2.85 |
2.8 |
2.8 |
2.79 |
2.78 |
|
2.77 |
|
|
2.79 |
|
2.75 |
2.72 |
||||||||
|
|
|
|
|
1 |
|
n |
|
|
|
1 |
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x = |
|
∑xi = 27.2; y = |
∑yi = 2.787; |
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
n i=1 |
|
|
|
n i=1 |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
1 |
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s2X |
= |
|
∑(xi − x)2 = 254.178; |
sY2 = 0.001. |
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
n −1 i=1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
По формуле (7.1) получим значение выборочного коэффициента корреляции rˆXY = −0.792 — можно предполагать достаточно сильную линейную
отрицательную зависимость между массой монеты и возрастом ее обращения. Так как выборка малого объема, проверим значимость коэффициента корреляции.
Основная гипотеза H0 состоит в том, что коэффициент корреляции rXY не значим H0 : rXY = 0, т.е. между переменными X и Y нет линейной связи. Альтернативная гипотеза H1 : rXY < 0 — коэффициент корреляции значим,
переменные X и Y связаны отрицательной линейной зависимостью.
Наблюдаемое значение статистики K (табл. 5.1) равно
ˆ |
n |
− |
2 |
= |
− |
0.792 |
|
10 |
− |
2 |
= − |
0.792 |
|
8 |
= −3.668. |
||
Kíàáë = rXY |
2 |
|
|
|
|
||||||||||||
1 |
−ˆ |
|
|
|
1 |
− |
− |
|
|
|
2 |
|
1−0.627 |
|
|||
rXY |
|
|
|
|
( 0.792 ) |
|
|
|
|
|
|
||||||
Зададим уровень значимости α = 0.01 |
и определим границу критиче- |
ской области по таблице распределения Стьюдента. По виду альтернативной
гипотезы заключаем, |
что |
критическая область является левосторонней: |
(−∞; −Kêð ]. Значение |
Kкр |
находим по таблице распределения Стьюдента |
(приложение 3): |
|
|
Kкр = t(n −2; α) = t(10 −2; 0.01) = t(8; 0.01) = 2.9.
При изучении психических и физических способностей человека часто используются испытания, в которых важно не значение измеренного признака, а взаимный порядок, в котором следуют результаты измерений. Например, нас интересует вопрос: зависит ли скорость реакции человека на световой сигнал (признак X) от скорости реакции на звуковой сигнал (признак Y)? Проведя n
наблюдений, мы получим выборку — множество пар чисел (xi , yi ). Нас интересуют не столько сами значения чисел xi и yi , сколько порядок их следо-
вания. Назовем рангом i-го наблюдения его порядковый номер в вариационном ряду. Так, для выборки из пяти наблюдений
3.83 2.98 3.96 4.18 3.06
соответствующая последовательность рангов имеет вид
3 1 4 5 2.
Если величина признаков X и Y нас не интересует, то от пар значений признаков (xi , yi ) можно перейти к парам их рангов (ri , si ). Чем теснее связаны признаки X и Y, тем в большей степени последовательность рангов
предопределяет последовательность Близость двух рядов рангов отражает величина
n |
n |
S = ∑di2 |
= ∑(ri − si )2. |
i=1 |
i=1 |
Она принимает наименьшее возможное значение S = 0 тогда и только тогда, когда последовательности рангов полностью совпадают. Наибольшее
возможное значение S = 13 (n3 −n) величина S принимает, когда эти после-
довательности полностью противоположны. Поэтому в качестве меры монотонной зависимости признаков X и Y рассматривают коэффициент ранговой корреляции Спирмена:
r =1− |
6S |
. |
(7.3) |
S |
n3 −n |
|