Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

теория вероятностей

.pdf
Скачиваний:
196
Добавлен:
11.05.2015
Размер:
3.26 Mб
Скачать

81

где n — объем выборки;

k — количество интервалов (групп наблюдений);

n j — количество наблюдений, попавших в j-й интервал;

p j — вероятность попадания в j-й интервал случайной величины, распре-

деленной по гипотетическому закону.

Если предположение о виде закона распределения справедливо, то статистика Пирсона распределена по закону «хи-квадрат» с числом степеней сво-

боды

k r 1 (r — число параметров распределения, оцениваемых по вы-

борке):

K ~ χ(2k r 1).

Пример 1. на уровне значимости α = 0.025 проверить гипотезу о нормальном распределении веса новорожденных (пример 2 подраздела 3.2).

Решение. Сформулируем основную и альтернативную гипотезы.

H0 : X ~ N (a, σ) — случайная величина X (вес новорожденных) под-

чиняется нормальному закону с параметрами a и σ. Так как истинных зна-

чений параметров

a и σ мы не знаем, возьмем их оценки, рассчитанные по

 

 

 

выборке: a

= 3.746, σ = 0.399.

H1 : случайная величина X не подчиняется нормальному закону с дан-

ными параметрами.

Kнабл

 

Рассчитаем наблюдаемое значение

статистики Пирсона. Эмпи-

рические частоты n j уже известны (табл. 3.3),

а для вычисления вероятно-

стей p j (в предположении, что гипотеза

H0

справедлива) применим фор-

мулу (2.1):

 

 

 

 

a j +1 a

p j = P(a j < X < a j +1) = Φ

 

 

 

 

σ

−Φ

a j a , j =1, 2, ..., k

σ

и таблицу функции Лапласа (приложение 1). Полученные результаты сведем в таблицу (табл. 6.7). Наблюдаемое значение статистики Пирсона равно

Kнабл = 0.978.

Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то

чем больше ее наблюдаемое значение Kнабл , тем сильнее довод против основной гипотезы. Поэтому критическая область для этой статистики всегда

правосторонняя: [K ; +∞). Её границу K = χ2 − − α находим по таб-

кр кр (k r 1; )

82

лицам распределения «хи-квадрат» (приложение 2) и заданным значениям α = 0.025, k = 6 (число интервалов), r = 2 (параметры a и σ оценены по

выборке): Kкр = χ2 (6 2 1; 0.025) = χ2 (3; 0.025) = 9.4.

Наблюдаемое значение статистики Пирсона не попадает в критическую область: Kнабл < Kкр, поэтому нет оснований отвергать основную гипотезу.

Вывод: на уровне значимости 0.025 справедливо предположение о том, что вес новорожденных имеет нормальное распределение.

Таблица 6.7

Сравнение наблюдаемых и ожидаемых частот

Интервалы

На-

Вероятность

Ожидаемая

 

Слагаемые

п/п

группировки

блю-

p j

частота

 

статистики

 

[a j;a j +1)

дае-

попадания в

n p j

 

Пирсона

 

 

 

мая

 

(n j np j )

2

 

 

 

j-й интервал

 

 

 

 

 

час-

 

 

 

 

 

 

 

 

np j

 

 

 

 

тота

 

 

 

 

 

 

 

n j

 

 

 

 

 

 

1.

[3; 3.3)

4

0.101

3.032

0.309

 

 

2.

[3.3; 3.6)

7

0.225

6.761

0.008

 

 

3.

[3.6; 3.9)

10

0.295

8.79

0.166

 

 

4.

[3.9; 4.2)

5

0.222

6.665

0.416

 

 

5.

[4.2; 4.5)

3

0.098

2.946

0.001

 

 

6.

[4.5; 4.8)

1

0.025

0.758

0.077

 

 

30

0.965

28.95

Kнабл = 0.978.

 

 

 

 

 

 

 

 

 

6.4. Проверка гипотез об однородности данных

6.4.1. Критерий знаков

На практике часто возникает задача сравнения двух методов обработки, двух рационов питания, двух методик обучения и т.п. В статистике эту задачу можно решить с помощью критериев однородности.

Рассмотрим вначале случай парных наблюдений: для каждого объекта измеряются два значения интересующего нас признака (например, до воздей-

ствия и после). Результатом будут две группы наблюдений: x1, x2 , ..., xn и

y1, y2 , ..., yn.

Основная гипотеза имеет вид: H0 : F1(x) = F2 (x) — закон распределения генеральной совокупности X, из которой извлечена первая выборка, тот же

83

самый, что и закон распределения Y. Предполагается, что разности xi yi взаимно независимы (i =1, 2, ..., n) и P(xi < yi ) = P(xi > yi ) = 0.5.

Для каждой разности xi yi определим ее знак и подсчитаем количество Kнабл — количество тех знаков, которых меньше в данной выборке. Критическим значением Kкрбудем считать такое, что при заданном уровне зна-

чимости α P(K Kкр) ≤ α.

Некоторые значения критических точек приведены в таблице 6.8.

Таблица 6.8

Критические точки для критерия знаков

Уровень

 

 

Объем выборки n

 

 

значимости α

5

10

 

15

20

 

25

30

0.01

0

0

 

2

3

 

5

7

0.05

0

1

 

3

5

 

7

9

0.1

0

1

 

3

5

 

7

10

Пример 1. Для желающих похудеть была предложена специальная диета. У десяти участников эксперимента измеряли вес до применения диеты (Х, кг) и после применения (Y, кг) (табл. 6.9).

Оказывает ли диета какое-либо существенное влияние на вес?

Таблица 6.9

Исходные данные для примера 1

Х

68

80

92

81

70

79

78

66

57

76

Y

60

84

87

79

74

71

72

67

56

70

Решение. Сформулируем основную и альтернативную гипотезы:

H0 : F1(x) = F2 (x) — выборочные данные однородны, выборки извле-

чены из генеральных совокупностей с одинаковыми распределениями. Применительно к условиям: диета не оказывает существенного влияния на вес тела.

H1 : F1(x) F2 (x) — выборки неоднородны; распределения генераль-

ных совокупностей Х и Y различны; диета оказывает влияние на вес.

 

Запишем

последовательность

знаков

разностей

xi yi : +,,+,,,+,+,,+,+. Знак «+» в этой последовательности встречает-

ся 6 раз, а «–» — 4 раза, поэтому Kнабл равно количеству знаков «минус»:

Kнабл = 4.

84

Для данного объема выборки n =10 критическое значение Kкр =1 при

α = 0.05 и α = 0.1. Поэтому наблюдаемый результат Kнабл = 4 не является маловероятным при условии, что гипотеза H0 справедлива, вероятность

этого события больше 0.1.

Следовательно, на уровне значимости 0.1 нет оснований отвергать гипотезу H0 , диета не оказывает существенного влияния на вес.

Заметим, что если среди пар значений xi и yi , есть равные xi = yi , то

их следует отбросить, соответственно уменьшив объем выборки n.

Критерий знаков применяется для выборок малого объема, его основное достоинство — простота.

6.4.2. Критерий Вилкоксона

Этот критерий используется для проверки однородности двух независимых выборок x1, x2 , ..., xn1 и y1, y2 , ..., yn2 . Он применяется к случайным

величинам, распределения которых неизвестны, но являются непрерывными. Основная гипотеза имеет вид H0 : F1(x) = F2 (x), а альтернативная ги-

потеза может быть левосторонней, правосторонней или двусторонней.

При использовании критерия Вилкоксона все вычисления проводятся не для самих наблюдаемых значений xi , yi , а для их рангов. Ранг — это порядковый номер наблюдения в данной выборке, если наблюдаемые значения рас-

положить

по возрастанию.

Например, выборке

x1 =12.6, x2 =11.4,

x3 =13.1,

x4 =11.9

соответствует последовательность рангов

r1 = 3,

r2 =1, r3 = 4, r4 = 2.

Если

в выборке встречаются

несколько одинаковых

значений, то им ставится в соответствие одинаковый ранг — среднее арифме-

тическое

порядковых

номеров.

Так,

для

выборки

x1 =10, x2 = 9.5, x3 =11, x4 =10.5, x5 = 9.5, x6 =8, x7 =11, x8 =11

после-

довательность

рангов имеет

вид: r1 = 4, r2 = 2.5, r3 = 7, r4 = 5, r5 = 2.5,

r6 =1, r7 = 7, r8 = 7. Здесь ранг значения 9.5 равен 2.5 = (2 +3) / 2,

а ранг

значения 11 равен 7 = (6 +7 +8) / 3.

 

 

 

 

Последовательность действий при проверке гипотезы однородности с помощью критерия Вилкоксона следующая:

1) составляем объединение выборок x1, x2 , ..., xn1 и y1, y2 , ..., yn2 ;

2)находим ранги объединенной выборки (обозначим ранги первой выборки r1, r2 , ..., rn1 , а ранги второй — s1, s2 , ..., sn2 );

3)вычисляем наблюдаемое значение статистики Вилкоксона

85

K = s1 + s2 +... + sn2 ,

равную сумме рангов второй выборки.

Если распределение второй выборки сдвинуто вправо относительно пер-

вой

(альтернативная

гипотеза

H1 : F1(x) < F2 (x),

то статистика

K будет

принимать значения,

большие критического

Kкр = K (n1, n2; α), и гипотеза

H0

отвергается в пользу альтернативы H1.

 

 

 

 

 

 

 

 

 

 

H0

Если

рассматривается

альтернатива

H1 : F1(x) F2 (x), то

гипотеза

 

отвергается,

если

 

выполняется

 

одно

из

двух

условий:

K

 

 

K

 

 

, n

;

α

или K

 

= n

 

(n

 

+ n +1)

 

 

 

;

α

 

 

 

= K n

2

 

 

 

 

K n ,n

 

.

 

набл

 

кр

1

2

 

 

 

набл

 

2

 

2

 

1

1

 

2

 

2

Пример 2. В биохимическом исследовании, проведенном методом меченных атомов, по результатам изучения 7 препаратов опытной группы получены следующие показания счетчика импульсов (в импульсах в минуту): 340, 343, 322, 332, 320, 313, 304. Результаты контрольной группы: 318, 321, 318, 301, 312.

Можно ли считать, что полученные значения опытной и контрольной групп различны (α = 0.05) ?

Решение. Сформулируем основную и альтернативную гипотезы.

H0 : F1(x) = F2 (x) — выборки однородны; различия в результатах опытной и контрольной групп можно отнести на счет случайных воздействий.

H1 : F1(x) F2 (x) — выборки извлечены из генеральных совокупно-

стей с разными распределениями; различие между контрольной и опытной группами существенно.

Объединим выборки и расположим полученные данные в порядке воз-

растания: 301, 304, 312, 313, 318, 318, 320, 321, 322, 332, 340, 343 — здесь

подчеркнуты элементы второй выборки (контрольной группы). Занумеровав все элементы в порядке возрастания, получим ранговую последовательность: 1, 2, 3, 4, 5.5, 5.5, 7, 8, 9,10,11,12 — подчеркнуты ранги контрольной группы.

Наблюдаемое значение статистики Вилкоксона равно

Kнабл =1 +3 +5.5 +5.5 +8 = 23.

Критическая область

 

является

 

двусторонней, ее правая граница при

α = 0.1 (табл. 6.10)

 

 

 

 

 

 

 

 

 

K

 

= K

 

 

 

;

α

 

= K (7, 5; 0.05) = 44 ,

 

n , n

 

2

 

 

пр

 

 

1

2

 

 

 

левая граница

Kлев = n2 (n2 + n1 +1)Kпр =5 14 44 = 26 .

86

Наблюдаемое значение попадает в критическую область: Kнабл < Kлев,

поэтому основная гипотеза отвергается в пользу альтернативной.

Итак, на уровне значимости 0.1 можно утверждать, что разница между показаниями счетчика в контрольной и опытной группах существенна.

 

 

 

 

 

 

Таблица 6.10

Критические точки критерия Вилкоксона при

α = 0.05

 

 

 

 

 

 

 

 

n2

 

 

n1

 

 

5

7

 

9

 

10

 

 

 

 

 

5

36

44

 

51

 

54

 

87

7.КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ

7.1.Основные задачи

В этом разделе мы рассмотрим виды и формы связей, различаемые в статистике. Связи между различными явлениями и их признаками можно разделить на два типа: функциональные и стохастические. Если два признака X и Y связаны функциональной зависимостью, то по значению одного из них можно точно указать значение другого. Например, зная рост X в сантиметрах наугад взятого человека, можно указать его рост Y в метрах. Стохастическая связь проявляется не в каждом отдельном случае, а в среднем при большом числе наблюдений. Если X — рост наугад взятого человека в сантиметрах, то Y = X 100 — вес в килограммах. Изучение такого вида связей — предмет исследования корреляционного и регрессионного анализа. При этом независимый признак X называется фактором, а зависимый Y откликом.

Основные задачи корреляционного анализа:

1)выяснить, есть ли связь между двумя признаками;

2)измерить силу этой связи;

3)отобрать факторы, оказывающие наиболее сильное влияние на отклик. В задачи регрессионного анализа входят следующие:

1)описание формы зависимости;

2)нахождение коэффициентов уравнения, описывающего зависимость, и оценка их точности;

3)оценка качества полученной зависимости (адекватность модели).

7.2. Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона rXY измеряет тесноту линейной связи между переменными X и Y

rXY = M ((X σmXσ)(Y my ))

X Y

и обладает следующими свойствами.

Для любых переменных X и Y его абсолютная величина не превосходит единицы: 1 rXY 1.

Значение коэффициента корреляции равно +1 или –1 тогда и только тогда, когда между переменными X и Y существует линейная функциональная связь Y = a +bX .

Если переменные X и Y независимы, то rXY = 0. Если rXY = 0, то пере-

менные X и Y называются некоррелированными. Некоррелированность переменных означает отсутствие между ними линейной стохастической зависимости, но не означает отсутствия связи вообще.

88

Точечной оценкой коэффициента корреляции rXY является выборочный коэффициент корреляции XY , который можно рассчитывать по формулам:

 

 

1

 

n

 

 

 

 

 

 

 

 

 

 

 

 

xi yi x y

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

=

i

=1

 

 

 

;

 

 

 

 

(7.1)

 

 

 

 

 

 

 

 

XY

 

 

 

 

sX sY

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

xi yi

nx y

 

 

 

 

XY

=

 

 

 

i =1

 

 

 

 

 

 

,

(7.2)

 

 

n

 

 

 

 

n

 

 

 

 

 

 

2

 

2

2

 

2

 

 

 

 

 

 

 

nx

 

 

ny

 

 

 

 

 

 

xi

 

 

yi

 

 

 

 

 

 

i =1

 

 

i =1

 

 

 

 

 

где (xi , yi ), i =1, 2, ..., n — независимая выборка объема n из двумерной ге-

неральной совокупности;

x, y — средние арифметические значения (выборочные средние) переменных X и Y;

sX , sY — выборочные средние квадратические отклонения переменных

X и Y.

Коэффициент корреляции , рассчитанный по выборке, является значе-

нием случайной величины ˆ . С увеличением числа наблюдений (свыше 500)

R

распределение величины ˆ стремится к нормальному. С уменьшением числа

R

наблюдений надежность этой оценки падает. Поэтому после вычисления

оценки встает вопрос о значимости коэффициента корреляции. Значимость коэффициента корреляции проверяется с помощью статисти-

ки, имеющей распределение Стьюдента (табл. 7.1).

 

Таблица 7.1

Проверка значимости коэффициента корреляции Пирсона

 

 

Гипотеза

H0 : rXY = 0

Предположение

Двумерная нормальная генеральная

 

совокупность

Оценки по выборке

ˆ

 

x; y; sX ; sY ; rXY

Статистика К

ˆ

RXY n 2

 

 

ˆ 2

 

1RXY

Распределение статистики К

Стьюдента T(n2)

89

Пример 1. Проводится изучение зависимости массы монеты Y в граммах от времени обращения X (число лет обращения).

По результатам десяти наблюдений (табл. 7.2) выяснить, значима ли корреляция между массой монеты и временем ее обращения.

Решение. Рассчитаем по выборке объема n =10 (табл. 7.2) оценки сред-

них x =

X

, y =

 

и дисперсий s2 = σˆ 2

, s

2

= σˆ

2

:

 

 

 

 

 

 

 

Y

 

 

 

 

X

 

X

 

Y

 

Y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Данные примера 1

 

 

 

 

 

 

Таблица 7.2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

1

 

 

2

 

 

3

4

5

6

 

 

 

7

 

 

8

 

9

10

x (лет)

5

 

 

9

 

 

14

17

23

31

 

 

 

35

 

 

42

 

46

50

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi (г)

2.82

 

2.85

2.8

2.8

2.79

2.78

 

2.77

 

 

2.79

 

2.75

2.72

 

 

 

 

 

1

 

n

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x =

 

xi = 27.2; y =

yi = 2.787;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2X

=

 

(xi x)2 = 254.178;

sY2 = 0.001.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

По формуле (7.1) получим значение выборочного коэффициента корреляции XY = −0.792 — можно предполагать достаточно сильную линейную

отрицательную зависимость между массой монеты и возрастом ее обращения. Так как выборка малого объема, проверим значимость коэффициента корреляции.

Основная гипотеза H0 состоит в том, что коэффициент корреляции rXY не значим H0 : rXY = 0, т.е. между переменными X и Y нет линейной связи. Альтернативная гипотеза H1 : rXY < 0 — коэффициент корреляции значим,

переменные X и Y связаны отрицательной линейной зависимостью.

Наблюдаемое значение статистики K (табл. 5.1) равно

ˆ

n

2

=

0.792

 

10

2

= −

0.792

 

8

= −3.668.

Kíàáë = rXY

2

 

 

 

 

1

ˆ

 

 

 

1

 

 

 

2

 

10.627

 

rXY

 

 

 

 

( 0.792 )

 

 

 

 

 

 

Зададим уровень значимости α = 0.01

и определим границу критиче-

ской области по таблице распределения Стьюдента. По виду альтернативной

гипотезы заключаем,

что

критическая область является левосторонней:

(−∞; Kêð ]. Значение

Kкр

находим по таблице распределения Стьюдента

(приложение 3):

 

 

Kкр = t(n 2; α) = t(10 2; 0.01) = t(8; 0.01) = 2.9.

r1, r2 , ..., rn
s1, s2 , ..., sn.
7.3. Ранговая корреляция
(−∞; 2.9],
Наблюдаемое
значение попадает в критическую область поэтому основную гипотезу следует отвергнуть в пользу
альтернативы: связь между переменными X и Y значима.
Данные наблюдений на уровне значимости 0.01 говорят о том, что масса монеты в среднем линейно убывает при увеличении возраста монеты.
Kнабл
= −3.668
90

При изучении психических и физических способностей человека часто используются испытания, в которых важно не значение измеренного признака, а взаимный порядок, в котором следуют результаты измерений. Например, нас интересует вопрос: зависит ли скорость реакции человека на световой сигнал (признак X) от скорости реакции на звуковой сигнал (признак Y)? Проведя n

наблюдений, мы получим выборку — множество пар чисел (xi , yi ). Нас интересуют не столько сами значения чисел xi и yi , сколько порядок их следо-

вания. Назовем рангом i-го наблюдения его порядковый номер в вариационном ряду. Так, для выборки из пяти наблюдений

3.83 2.98 3.96 4.18 3.06

соответствующая последовательность рангов имеет вид

3 1 4 5 2.

Если величина признаков X и Y нас не интересует, то от пар значений признаков (xi , yi ) можно перейти к парам их рангов (ri , si ). Чем теснее связаны признаки X и Y, тем в большей степени последовательность рангов

предопределяет последовательность Близость двух рядов рангов отражает величина

n

n

S = di2

= (ri si )2.

i=1

i=1

Она принимает наименьшее возможное значение S = 0 тогда и только тогда, когда последовательности рангов полностью совпадают. Наибольшее

возможное значение S = 13 (n3 n) величина S принимает, когда эти после-

довательности полностью противоположны. Поэтому в качестве меры монотонной зависимости признаков X и Y рассматривают коэффициент ранговой корреляции Спирмена:

r =1

6S

.

(7.3)

S

n3 n