Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Matematicheskaya_statistika_v_meditsine

.pdf
Скачиваний:
121
Добавлен:
19.02.2016
Размер:
5.63 Mб
Скачать

2.Рядом с каждой эмпирической частотой записать теоретическую частоту (третий столбец).

3.Подсчитать разности между эмпирической и теоретической частотой по каждому разряду (строке) и записать их в четвертый столбец.

4.Возвести в квадрат полученные разности, разделить их на теоретическую частоту и записать результаты в пятый столбец.

5.Просуммировать значения пятого столбца. Полученную сумму обозначить как 2 эмп

6.Определить число степеней свободы по формуле: f k 1,

где k – количество разрядов признака.

Если f =1, внести поправку на "непрерывность".

7. Определить по таблице 19 критические значения для данного числа степеней свободы f. Отметить их на оси значимости.

Отметить на оси значимости также эмпирическое значение критерия и сделать вывод.

10.3. λ-критерий Колмогорова-Смирнова

Назначение критерия: Критерий

предназначен для сопоставления двух распределе-

ний:

эмпирического с теоретическим, например, равномерным или нормальным;

одного эмпирического распределения с другим эмпирическим распределением. Критерий позволяет найти точку, в которой сумма накопленных расхождений между

двумя распределениями является наибольшей, и оценить достоверность этого расхождения.

Если в методе

 

2

 

мы сопоставляли частоты двух распределений отдельно по каждому раз-

ряду, то здесь мы сопоставляем сначала частоты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, мы сопоставляем всякий раз накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, и мы сможем признать различия статистически достоверными. В формулу критерия включается эта разность. Чем больше эмпирическое значение , тем более существенны различия.

Мы не можем накапливать частоты по разрядам, которые отличаются лишь качественно и не представляют собой шкалы порядка. Во всех тех случаях, когда разряды представляют собой не упорядоченные по возрастанию или убыванию какого-либо признака категории,

нам следует применять метод

 

2

.

 

Условия применения критерия:

● Критерий требует, чтобы выборка была достаточно большой:

○ При сопоставлении двух эмпирических распределений необходимо, чтобы

n1,2 50 .

○ Сопоставление эмпирического распределения с теоретическим иногда допускается при n≥5.

● Разряды должны быть упорядочены по нарастанию или убыванию какого-либо признака. Они обязательно должны отражать какое-то однонаправленное его изменение. Например, мы можем за разряды принять дни недели, 1-й, 2-й, 3-й месяцы после прохождения курса терапии, повышение температуры тела, усиление чувства недостаточности и т. д. Если взять разряды, которые случайно оказались выстроены в данную последовательность, то и накопление частот будет отражать лишь этот элемент случайного соседства разрядов. Мы не можем говорить об однонаправленном изменении признака при сопоставлении категорий "очередность рождения", "национальность", и т.п. Эти данные представляют собой номинативные шкалы: в них нет никакого однозначного однонаправленного изменения признака.

81

Гипотезы:

Н0: Различия между двумя распределениями недостоверны. Н1: Различия между двумя распределениями достоверны.

Расчет абсолютной величины разности d между эмпирическим и равномерным распределениями:

1.Занести в таблицу наименования разрядов и соответствующие им эмпирические частоты (первый столбец).

2.Подсчитать относительные эмпирические частоты (частости) для каждого разряда по формуле:

f

 

 

/ n

эмп f

эмп

 

 

 

где fэмп – эмпирическая частота по данному разряду; п – общее количество наблюдений.

Занести результаты во второй столбец.

3. Подсчитать накопленные эмпирические частости

f

 

по формуле:

j

f

 

 

 

 

 

 

 

j f

j 1 f

j

 

 

 

где

f

 

– частость, накопленная на предыдущих разрядах;

j 1

j – порядковый номер разряда;

f*j – эмпирическая частость данного j-го разряда. Занести результаты в третий столбец таблицы.

Подсчитать накопленные теоретические частости для каждого разряда. Занести результаты в четвертый столбец таблицы.

4.Вычислить разности между эмпирическими и теоретическими накопленными частостями по каждому разряду (между значениями 3-го и 4-го столбцов).

5.Записать в пятый столбец абсолютные величины полученных разностей. Обозначить их как d.

6.Определить по пятому столбцу наибольшую абсолютную величину разности – dmax.

7.По таблице 20 определить или рассчитать критические значения dmaxкр для данного количества наблюдений n. Сделать выводы: если dmax равно критическому значению dmaxкр или превышает его, различия между распределениями достоверны.

Расчет критерия λ при сопоставлении двух эмпирических распределений:

1.Занести в таблицу наименования разрядов (первый столбец) и соответствующие им эмпирические частоты, полученные в распределении 1 (второй столбец) и в распределении 2 (третий столбец).

2.Подсчитать эмпирические относительные частоты (частости) по каждому разряду для распределения 1 по формуле:

fэi1 nэi1 / n1

где nэi1 – эмпирическая частота в разряде i; n1 количество наблюдений в выборке 1.

Занести эмпирические частости распределения 1 в четвертый столбец.

3.Аналогично подсчитать эмпирические относительные частоты (частости) по каждому разряду для распределения 2. Занести эмпирические частости распределения 2 в пятый столбец таблицы.

4.Подсчитать накопленные относительные частоты для распределения 1. Полученные результаты записать в шестой столбец.

82

5.Подсчитать накопленные относительные частоты для распределения 2 и записать результаты в седьмой столбец.

6.Подсчитать разности между накопленными относительными частотами по каждому разряду. Записать в восьмой столбец абсолютные величины разностей. Обозначить их как d.

7.Определить по восьмому столбцу наибольшую абсолютную величину разности dmax.

8. Подсчитать значение критерия

эмп

по формуле:

 

 

d

 

 

n n

 

 

 

1

2

 

 

 

 

 

 

 

эмп

 

max

 

n

n

 

 

 

 

 

 

 

 

 

 

1

 

2

где n1 – количество наблюдений в первой выборке n2 – количество наблюдений во второй выборке

9. По таблице 21 определить критические значения и отметить их на оси значимости. Отметить также на оси значимости эмпирическое значение критерия и сделать вывод.

По таблице 21 можно определить, какому уровню статистической значимости соответствует полученное значение .

Примеры решения задач

Пример 29. При изучении популярности теорий личности был проведен опрос, в котором каждому из 60 студентов медико-психологов было предложено выбрать три самые интересные теории. Результаты выборов распределились следующим образом:

З.Фрейд

Э.Фромм

Г.Айзенк

А.Бандура

Дж.Келли

А.Маслоу

56

39

23

11

19

32

Существуют ли явно предпочитаемые студентами теории личности? (Сравните с равномерным распределением).

Решение:

Так как в данной задаче требуется сопоставить распределения, и признак «Автор теории личности» задан в шкале наименований, а объем выборки больше 30, и объем каждой ячейки превосходит 5, то будем использовать χ2-критерий Пирсона для решения.

Гипотезы:

Н0: Полученное эмпирическое распределение признака не отличается от теоретического (равномерного) распределения.

H1: Полученное эмпирическое распределение признака отличается от теоретического распределения.

1. Занесем в первый столбец таблицы наименования разрядов, во второй – соответствующие им эмпирические частоты nэ.

83

Разряды

З.Фрейд

Э.Фромм

Г.Айзенк

А.Бандура

Дж.Келли

А.Маслоу

nэ

56

39

23

11

19

32

180

nт

30

30

30

30

30

30

180

n

n

э

т

26

9

-7

-19

-11

2

0

(n

э

n

т

)

2

 

 

 

 

 

 

 

n

 

 

 

 

 

т

 

 

22.5333

2.7000

1.6333

12.0333

4.0333

0.1333

20706,000

2. Если бы количество выборов распределялось равномерно между всеми теориями, то

частота каждого разряда была бы

дого

разряда

nт 30 .

столбец.

 

 

180

30

, таким образом, теоретическая частота для каж-

6

 

 

 

 

 

 

Запишем

теоретические

частоты

в

третий

3.Подсчитаем разности между эмпирической и теоретической частотой по каждому разряду (строке) и запишем их в четвертый столбец.

4.Возведем в квадрат полученные разности и разделим их на теоретическую частоту и запишем результаты в пятый столбец.

5.Просуммируем значения пятого столбца.

 

 

k

(n

n

 

)

2

 

 

 

2

 

 

 

 

 

эмп

эi

тi

 

22.5333

2.7000

1.6333 12.0333

 

 

n

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

тi

 

 

 

 

 

4.0333 0.1333

43,067.

 

 

где k – количество разрядов признака.

6. Определим число степеней свободы по формуле:

f

k

1

6 1

5

.

 

7.

Найдем по таблице 19 критические значения для

f 5

,

 

2

 

 

 

кр (0,01) 15,086 . Нанесем на оси значимости полученные значения.

 

 

8.

Отметим на оси значимости и эмпирическое значение критерия:

 

2

кр (0,05)

11,070

,

Как видно,

 

2

попадает в «зону значимости», следовательно, H0 отклоняется, H1

эмп

принимается на уровне значимости p 0.01. Эмпирическое распределение признака отлича-

ется от равномерного распределения. Существуют явно предпочитаемые студентами теории личности.

Пример 30. Пользуясь критерием Пирсона, установить, согласуется ли гипотеза о нормальном распределении генеральной совокупности с данными выборки объема n=200:

84

xi

5

7

9

11

13

15

17

19

21

ni

15

26

25

30

26

21

24

20

13

Решение:

Так как в данной задаче требуется сравнить эмпирическое распределение с нормальным, и объем выборки превосходит 50, то для решения задачи можно использовать χ2- критерий Пирсона или λ-критерий Колмогорова – Смирнова. Для учебных целей рассмотрим решение задачи с помощью χ2-критерия Пирсона.

Гипотезы:

Н0: Полученное эмпирическое распределение признака не отличается от теоретического (нормального) распределения.

H1: Полученное эмпирическое распределение признака отличается от теоретического распределения.

1. Для расчета теоретических частот сначала необходимо найти выборочную среднюю, выборочную дисперсию и выборочное среднее квадратическое отклонение:

x

12.63

;

 

2

 

22.043

;

4.695

2. Подсчитаем значения функции плотности распределения вероятностей по формуле нормального закона:

 

 

 

 

 

( x

x )

2

 

 

 

 

 

 

 

 

1

 

 

i

 

 

 

f (x )

 

 

 

 

2

 

 

e

 

2

 

 

 

 

 

 

i

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

5

7

9

11

 

13

 

15

17

19

21

f (x )

0.023

0.041

0.063

0.080

 

0.085

 

0.075

0.055

0.034

0.017

 

i

 

 

nm

i

9.077

16.565

25.214

32.009

 

33.892

 

29.930

22.045

13.543

6.939

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. Подсчитаем значения теоретических частот:

 

 

 

 

 

 

 

 

 

nm

i

nhf (xi ) ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где n – объем выборки, h – разность между двумя соседними вариантами.

4. Построим следующую таблицу, куда занесем разряды, эмпирические и теоретические частоты. Подсчитаем разности между эмпирической и теоретической частотой по каждому разряду (строке) и запишем их в четвертый столбец.

xi

nэ

nm

5

15

9.077

7

26

16.565

9

25

25.214

11

30

32.009

13

26

33.892

15

21

29.930

17

24

22.045

19

20

13.543

21

13

6.939

n

n

э

т

5.923

9.435

-0.214

-2.009

-7.892

-8.930

1.955

6.457

6.061

(n

э

n

т

)

2

 

 

 

 

 

 

 

n

 

 

 

 

 

т

 

 

3.865

5.374

0.002

0.126

1.838

2.665

0.173

3.078

5.294

5.Возведем в квадрат полученные разности, разделим их на теоретическую частоту и запишем результаты в пятый столбец.

6.Просуммируем значения пятого столбца:

85

 

 

k

(n

 

n

 

)

2

 

 

 

 

2

эi

тi

 

 

 

 

 

эмп

 

 

 

3.865

5.374

0.002 0.126

 

 

 

 

n

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

тi

 

 

 

 

 

 

1.838 2.665 0.137 3.078 5.294 22.414.

 

где k – количество разрядов признака.

7. Определим число степеней свободы по формуле: Найдем по таблице 19 критические значения

f

k 3 9 3 6.

 

для f 6 :

2кр (0.05) 12.592 ,

 

2

кр (0.01)

16.812

. Нанесем на оси значимости полученные значения.

Отметим

 

на

оси

значимости

эмпирическое

значение

критерия.

 

 

 

 

 

 

8. Как видно,

 

2

попадает в «зону значимости», следовательно, H0 отклоняется, H1

эмп

принимается на уровне значимости

p 0,01. Эмпирическое распределение признака отлича-

ется от нормального распределения.

Пример 31. С целью повышения надежности результатов исследования данные тестирования двух групп были объединены в одну выборку. До объединения данные по группам выглядели следующим образом:

Баллы

3

4

5

6

7

8

9

10

11

12

13

14

15

16

1 группа

2

2

5

7

10

15

18

25

30

22

13

7

3

1

2 группа

4

7

13

19

30

27

21

18

12

7

4

2

0

0

Проверьте, правильно ли поступил исследователь, объединив данные двух групп, если известно, что такая операция требует, чтобы данные обеих групп принадлежали одной генеральной совокупности.

Решение:

Для сопоставления двух эмпирических распределений можно использовать как критерий Пирсона, так и λ-критерий Колмогорова – Смирнова. В первом случае требуется находить теоретические частоты объединенного распределения, поэтому отдадим предпочтение второму критерию, тем более объемы выборок позволяют это сделать (n1, n2≥50).

Гипотезы:

Н0: Эмпирические распределения частот по баллам в группе 1 и в группе 2 не различа-

ются.

Н1: Эмпирические распределения частот по баллам в группе 1 и в группе 2 отличаются друг от друга.

1.Занесем в таблицу наименования разрядов – баллы (первый столбец) и соответствующие им эмпирические частоты, полученные в распределении 1 (второй столбец) и в распределении 2 (третий столбец).

2.Подсчитаем эмпирические относительные частоты (частости) по каждому разряду для распределения 1, например, для первого разряда:

86

f

э11

n

/ n 2 /160 0.0125

 

э11

1

Занесем эмпирические частости распределения 1 в четвертый столбец.

3.Анологично подсчитаем эмпирические относительные частоты (частости) по каждому разряду для распределения 2. Занесем эмпирические частости распределения 2 в пятый столбец таблицы.

4.Подсчитаем накопленные относительные частоты для распределения 1, например:

f

нак11

 

 

 

fэ11

0.0125

;

f

нак21

 

 

 

f

нак11

f

э21

0.0125 0.0125 0,025

 

 

 

и т.д.

 

Эмпирич. часто-

Эмпирич.

Накопл.

Баллы

 

ты

частости

частости

 

nэi1

 

nэi2

fэi1

fэi2

fнакi1

fнакi2

3

2

 

4

0.0125

0.02439

0.0125

0.02439

4

2

 

7

0.0125

0.042683

0.025

0.067073

5

5

 

13

0.03125

0.079268

0.05625

0.146341

6

7

 

19

0.04325

0.115854

0.1

0.262195

7

10

 

30

0.0625

0.182927

0.1625

0.445122

8

15

 

27

0.09375

0.164634

0.25625

0.609756

9

18

 

21

0.1125

0.128049

0.36875

0.737805

10

25

 

18

0.15625

0.109756

0.525

0.847561

11

30

 

12

0.1875

0.073171

0.7125

0.920732

12

22

 

7

0.1375

0.042683

0.85

0.963415

13

13

 

4

0.08125

0.02439

0.93125

0.987805

14

7

 

2

0.04375

0.012195

0.975

1

15

3

 

0

0.01875

0

0.99875

1

16

1

 

0

0.00625

0

1

1

Σ

160

 

164

1

1

 

 

d

f

накi1

f

накi2

 

 

 

0.01189

0.042073

0.090091

0.162195

0.282622

0.353506

0.369055

0.322561

0.208232

0.113415

0.056555

0.025

0.00625

0

Полученные результаты запишем в шестой столбец.

5.Подсчитаем накопленные относительные частоты для распределения 2 и запишем результаты в седьмой столбец.

6.Подсчитаем разности между накопленными относительными частотами по каждому разряду. Запишем в восьмой столбец абсолютные величины разностей. Обозначим их как d.

7.Определим по восьмому столбцу наибольшую абсолютную величину разности dmax=0.369055.

8. Подсчитать значение критерия

эмп

по формуле:

 

 

d

 

 

n n

0,369055

160 164

3,32

 

эмп

max

 

1 2

 

 

 

 

 

 

n

n

 

160 164

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

 

 

9. По

таблице 21

определим

критические

значения: кр (0.05) 1,36

,

Отметим их на оси значимости, а также эмпирическое значение критерия.

 

(0.01)

кр

 

1,63

.

87

эмп

попадает в зону значимости – принимаем Н1. Эмпирические распределения частот

по баллам в группе 1 и в группе 2 отличаются друг от друга, значит, исследователь поступил неправильно, данные две группы принадлежат разным генеральным совокупностям.

88

ГЛАВА 11. МНОГОФУНКЦИОНАЛЬНЫЕ СТАТИСТИЧЕСКИЕ КРИТЕРИИ

Многофункциональный статистический критерий φ*

Многофункциональные статистические критерии – это критерии, которые могут использоваться по отношению к самым разнообразным данным, выборкам и задачам.

Данные могут быть представлены в любой шкале, начиная от номинативной. Выборки могут быть как независимыми, так и «связанными», то есть мы можем с помощью многофункциональных критериев сравнивать и разные выборки испытуемых, и показатели одной и той же выборки, измеренные в разных условиях.

Многофункциональные критерии позволяют решать задачи сопоставления уровней исследуемого признака, сдвигов в значениях исследуемого признака и сравнения распределений.

К числу многофункциональных критериев в полной мере относится критерий *-

Фишера (угловое преобразование Фишера).

Многофункциональные критерии построены на сопоставлении долей, выраженных в долях единицы или в процентах. Суть критериев состоит в определении того, какая доля наблюдений (реакций, выборов, испытуемых) в данной выборке характеризуется интересующим исследователя эффектом и какая доля этим эффектом не характеризуется.

Таким эффектом может быть:

определенное значение качественно определяемого признака – например, выражение согласия с каким-либо предложением; отнесенность к определенному полу и др.;

определенный уровень количественно измеряемого признака, например, получение оценки, превосходящей проходной балл; решение задачи менее чем за 20 с; выбор дистанции

вразговоре, превышающей 50 см, и др.;

определенное соотношение значений или уровней исследуемого признака, например, более частый выбор альтернатив А и Б по сравнению с альтернативами В и Г; преимущественное проявление крайних значений признака, как самых высоких, так и самых низких; преобладание положительных сдвигов над отрицательными и др.

Итак, путем сведения любых данных к альтернативной шкале «Есть эффект – нет эффекта» многофункциональные критерии позволяют решать все три задачи сопоставлений – сравнения «уровней», оценки «сдвигов» и сравнения распределений.

Назначение критерия: Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта. Критерий оценивает достоверность различий между долями двух выборок, в которых зарегистрирован интересующий эффект. Суть углового преобразования Фишера состоит в переводе долей в величины

центрального угла, который измеряется в радианах. Большей доле будет соответствовать больший угол , а меньшей доле – меньший угол, но соотношения здесь не линейные:

2 arcsin(

)

где – доля, выраженная в долях единицы.

Критерий

*

позволяет определить, действительно ли один из углов статистически до-

 

стоверно превосходит другой при данных объемах выборок. При увеличении расхождения между углами 1 и 2 и увеличении численности выборок значение критерия возрастает. Чем больше величина *, тем более вероятно, что различия достоверны.

Условия применения:

● Ни одна из сопоставляемых долей не должна быть равной 0.

● Верхний предел в критерии

 

*

отсутствует – выборки могут быть сколь угодно

 

большими.

● Нижний предел – 2 наблюдения в одной из выборок, но должны соблюдаться следующие соотношения:

89

Если в одной выборке 2 наблюдения, то во второй должно быть не менее 30.

Если в одной из выборок 3 наблюдения, то во второй должно быть не менее 7.

Если в одной из выборок 4 наблюдения, то во второй должно быть не менее 5.

При n1,n2≥5 возможны любые сопоставления.

Гипотезы:

Н0: Доля лиц, у которых проявляется исследуемый эффект, в выборке 1 не больше, чем в выборке 2.

Н1: Доля лиц, у которых проявляется исследуемый эффект, в выборке 1 больше, чем в

выборке 2.

Подсчет критерия φ*:

1. Определить те значения признака, которые будут критерием для разделения испытуемых на тех, у кого «есть эффект», и тех, у кого «нет эффекта». Если признак измерен количественно, использовать критерий для поиска оптимальной точки разделения.

2.Подсчитать количество испытуемых в первой группе и во второй группе, у которых «есть эффект», m1 и m2, соответственно.

3.Определить доли испытуемых, у которых «есть эффект», в каждой группе отдельно, путем отнесения их количества к общему количеству испытуемых в данной группе (выборке):

m n

,

где m – количество испытуемых в выборке, у которых «есть эффект», n – количество наблюдений в выборке.

Если одна из сопоставляемых долей равна нулю, попробовать изменить эту ситуацию, сдвинув точку разделения групп в ту или иную сторону. Если это невозможно или нежела-

тельно, отказаться от критерия * и использовать критерий

2

.

 

4. Подсчитать величины углов

, выразив их в радианах, для каждой из сопоставляе-

мых долей по формуле:

 

 

 

2 arcsin( )

 

 

 

5. Подсчитать эмпирическое значение

*эмп

по формуле:

эмп

 

 

 

n

n

 

 

2

1

2

 

 

1

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

1

2

 

 

где: 1 – угол, соответствующий 1-й выборке;

 

 

2 – угол, соответствующий 2-й выборке;

 

 

n1 количество наблюдений в выборке 1;

 

 

n2 – количество наблюдений в выборке 2.

 

 

6. Сопоставить

полученное значение

*эмп

с критическими значения-

ми: кр (0.05) 1.64

и кр (0.01) 2.31 и сделать вывод.

 

Примеры решения задач

Пример 32. По данным об исходах лечения острых гнойных деструкций легких в виде гнойных и гангренозных абсцессов необходимо оценить значимость различий групп по летальности.

Номер

Форма

 

Число

Число летальных

группы

заболевания

 

больных

исходов

 

 

 

 

 

1

Гнойный абсцесс

 

140

4

 

 

90

 

 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]