- •«Основы математической статистики. Элементы корреляционного анализа»
- •Определить соответствие вариационного распределения измеренной величины нормальному закону распределения
- •(Ординаты нормальной кривой)
- •Лекция 2.
- •Математическая статистика
- •§3.1. Основные понятия математической статистики
- •§ 3.2. Оценка параметров генеральной совокупности по ее выборке
- •§3.3. Проверка гипотез
- •§ 3.4. Корреляционная зависимость. Уравнения регрессии
§3.3. Проверка гипотез
В медико-биологических исследованиях актуальной является задача сравнения выборок, полученных в результате эксперимента, заключающегося в том или ином воздействии на объект. Фактически конечный результат исследования зависит от достоверности различий значений случайной величины в контроле (до воздействия или без него) и опыте (после воздействия). Наиболее просто решается задача определения достоверности различий статистических распределений, если предварительно для выборок рассчитаны доверительные интервалы. Положим, есть два статистических распределения некоторых случайных величин X и Y. Пусть генеральные средние этих распределений с доверительной вероятностью р = 0,95 находятся в доверительных интервалах и пусть при этом Если соблюдается неравенство , то не вызывает сомнения, что случайная величина Y существенно больше случайной величины X (см. рис. 3.3, а). Вероятность этого превышает 0,95.
На рис. 3.3, б представлен вариант, когда выборки частично пересекаются, т. е. когда выполняется неравенство В этом случае целесообразно оценивать достоверность различий выборочных средних ис помощью дополнительных расчетов. Наиболее просто это сделать, предполагая, что случайные величины X и Y распределены по нормальному закону. Условием существенности различия двух опытных распределений, являющихся выборками из различных генеральных совокупностей, является выполнение следующего неравенства для опытного и теоретического значений критерия Стьюдента: Для нахождения значения toп используют следующую формулу:
(3.30)
а) б)
Рис. 3.3
Теоретическое значение tтeop находят по таблице 10, входными величинами которой являются доверительная вероятность р и параметр f, связанный с числом вариант в выборках. Этот параметр определяют следующим образом. Если х у, то f = пх + п — 2. Если же х и у различаются на порядок и более, то величина f определяется по формуле:
(3.31)
Таблица 10. Значения критерия Стьюдента tтeop при различной доверительной вероятности и значениях параметра f
f |
Доверительная вероятность, р |
f |
Доверительная вероятность, р | ||||
|
0,95 |
0,99 |
0,999 |
|
0,95 |
0,99 |
0,999 |
1 |
12,71 |
63,60 |
|
21 |
2,08 |
2,83 |
3,82 |
2 |
4,30 |
9,93 |
31,60 |
22 |
2,07 |
2,82 |
3,79 |
3 |
3,18 |
5,84 |
12,94 |
23 |
2,07 |
2,81 |
3,77 |
4 |
2,78 |
4,60 |
8,61 |
24 |
2,06 |
2,80 |
3,75 |
5 |
2,57 |
4,03 |
6,86 |
25 |
2,06 |
2,79 |
3,73 |
6 |
2,45 |
3,71 |
5,96 |
26 |
2,06 |
2,78 |
3,71 |
7 |
2,37 |
3,50 |
5,41 |
27 |
2,05 |
2,77 |
3,69 |
8 |
2,31 |
3,36 |
5,04 |
28 |
2,05 |
2,76 |
3,67 |
9 |
2,26 |
3,25 |
4,78 |
29 |
2,04 |
2,76 |
3,66 |
10 |
2,23 |
3,17 |
4,59 |
30 |
2,04 |
2,75 |
3,65 |
11 |
2,20 |
3,11 |
4,44 |
40 |
2,02 |
2,70 |
3,55 |
12 |
2,18 |
3,06 |
4,32 |
50 |
2,01 |
2,68 |
3,50 |
13 |
2,16 |
3,01 |
4,22 |
60 |
2,00 |
2,66 |
3,46 |
14 |
2,15 |
2,98 |
4,14 |
80 |
1,99 |
2,64 |
3,42 |
15 |
2,13 |
2,95 |
4,07 |
100 |
1,98 |
2,63 |
3,39 |
16 |
2,12 |
2,92 |
4,02 |
120 |
1,98 |
2,62 |
3,37 |
17 |
2,11 |
2,90 |
3,97 |
200 |
1,97 |
2,60 |
3,34 |
18 |
2,10 |
2,88 |
3,92 |
500 |
1,96 |
2,59 |
3,31 |
19 |
2,09 |
2,86 |
3,88 |
|
1,96 |
2,58 |
3,29 |
20 |
2,09 |
2,85 |
3,85 |
|
|
|
|
Используя этот способ оценки достоверности различия выборочных средних значений двух выборок, следует придерживаться такой последовательности действий. Во-первых, по экспериментальным данным нужно найти значения выборочных средних и средних квадратических отклонений для каждой выборки. Затем, сравнив величины х и у, найти величину f. После этого следует задать определенное значение доверительной вероятности и по таблице 10 найти tтeoр . Затем по формуле (3.30) рассчитать toп.
Если при сравнении теоретического и опытного критериев Стью-дента окажется, что toп > tтeoр, то различие между выборочными средними значениями случайных величин X и У можно считать существенным с заданной доверительной вероятностью. В противоположном случае различия несущественны.
Представленный выше способ оценки достоверности различий выборок по выборочным средним является довольно простым. Существует большое число тестов и критериев для сравнения выборок и составления заключения о достоверности их различий. Как правило, при этом рассматривают вероятность двух взаимоисключающих гипотез. Одна из них, условно называемая «нулевой» гипотезой, заключается в том, что наблюдаемые различия между выборками случайны (т. е. фактически различий нет). Альтернативная гипотеза означает, что наблюдаемые различия статистически достоверны. При этом для оценки обоснованности вывода о достоверности различий используют три основных доверительных уровня, при которых принимается или отвергается нулевая гипотеза. Первый уровень соответствует уровню значимости 0 < 0,05; для второго уровня 0 < 0,01. Наконец, третий доверительный уровень имеет 0 < 0,001. При соблюдении соответствующего условия нулевая гипотеза считается отвергнутой. Чем выше доверительный уровень, тем более обоснованным он считается. Фактически значимость вывода соответствует вероятности р = 1 - 0. В медицинских и биологических исследованиях считают достаточным уже первый уровень, хотя наиболее ответственные выводы предпочтительнее делать с большей точностью. Одной из методик, позволяющих судить о достоверности различий статистических распределений, является ранговый тест Уилкоксона. Под рангом (Ri) понимают номер, под которым стоят исходные данные в ранжированном ряду. Если в двух сравниваемых выборках данному номеру соответствуют одинаковые варианты, то рангом этих вариант является среднее арифметическое двух рангов — данного и следующего за ним (см. пример). Покажем, как используется этот тест на примере сравнения двух равных по объему выборок.
*Измеряли массу 13 недоношенных новорожденных (в граммах) в двух районах А и Б большого промышленного центра, один из которых (Б) отличался крайне неблагоприятной экологической обстановкой. Получены два статистических распределения (А) и (Б):
А: 970 990 1080 1090 1110 1120 ИЗО 1170 1180 1180 1210 1230 1270
Б: 780 870 900 900 990 1000 1000 1020 1030 1050 1070 1070 1100
Следует решить вопрос о том, достоверны ли различия между этими статистическими распределениями.
Составим общий ранжированный ряд с указанием номеров соответствующих вариант (RА.Б) — рангов (строки А и Б соответствуют выборкам):
А: 970990 1080 1090 1110..
RА: 5 6,5 15 16 18
Б: 780 870 900 90,0 990 1000 1000 1020 1030 1050 1070 1070 1100 RБ : 1 2 3 4 6,5 8 9 10 11 12 13 14 17
Как видно, варианта 990 встречается в первой и второй выборках, поэтому для нее рангом является среднее арифметическое значение 6 и 7.
Далее в ряду остаются лишь варианты первой выборки, поэтому ряд не закончен. Нулевая гипотеза состоит в том, что различий между выборками нет (они случайны и потому несущественны). Ранговый тест учитывает общее размещение вариант и размеры выборок, но не требует знания типа распределения. Основной вывод о верности нулевой гипотезы делается на основании анализа минимальной суммы рангов (из двух сумм для сравниваемых выборок), т. е. критерием является величина (учитывая, что)- При этом пользуются специальными таблицами. В частности, если число вариант в выборках одинаково (п1 = п2), то используется таблица 11.
Таблица 11, Критические значения величины Г (теста Уилкоксона) при п1 = n2 = n для разных значений уровня значимости
п |
0,05 |
0,01 |
п |
0,05 |
0,01 |
п |
0,05 |
0,01 |
5 |
17 |
15 |
12 |
115 |
105 |
19 |
303 |
283 |
6 |
26 |
23 |
13 |
136 |
125 |
20 |
337 |
315 |
7 |
36 |
32 |
14 |
160 |
147 |
21 |
373 |
349 |
8 |
49 |
43 |
15 |
184 |
171 |
22 |
411 |
386 |
9 |
62 |
56 |
16 |
211 |
196 |
23 |
451 |
424 |
10 |
78 |
71 |
17 |
240 |
223 |
24 |
492 |
464 |
11 |
96 |
87 |
18 |
270 |
252 |
25 |
536 |
505 |
Примечание. Нулевая гипотеза отбрасывается при Т < Т0,05 или Т < Т0,01 .
В этой таблице указаны две входные величины: число вариант в выборках (п) и значение третьего и второго уровней значимости (0 = 0,05 и 0,01). В нашем случае , что меньше табличного значения дляп = 13 и 0 < 0,01. Следовательно, на втором уровне значимости (р > 0,99) можно отвергнуть нулевую гипотезу. Таким образом, различия выборок достоверны с вероятностью, превышающей 0,99.