Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Med_Inform_2005

.pdf
Скачиваний:
40
Добавлен:
09.03.2016
Размер:
898.98 Кб
Скачать

41

Раздел 2. Решение задач медицинской статистики в Microsoft Excel

2.1. Основные задачи медицинской статистики.

Наиболее часто встречающимися задачами медицинской статистики являются следующие задачи:

1.Предварительная обработка экспериментальных данных (сортировка, выборка, формирование статистических рядов, графическое оформление данных и т.д.)

2.Проверка эмпирических данных на соответствие нормальному закону распределения.

3.Точечные и интервальные оценки генеральных параметров по эмпирическим данным.

4.Решения вопроса о случайности или закономерности расхождения двух выборочных совокупностей.

5.Установление корреляционных связей между экспериментально найденными значениями каких – либо величин (корреляционный анализ).

6.Нахождение уравнений, описывающих найденные корреляционные связи ( регрессионный анализ ).

7.Выявление наиболее значимых факторов, определяющих корреляционные связи ( дисперсионный анализ ).

Эти и некоторые другие задачи легко решаются в электронных таблицах Microsoft Excel несмотря на то, что эта программа не является специализированным пакетом для статистического анализа данных и по своим возможностям существенно уступает таким пакетам, как STATISTIKA, SPSS и др. Преимущество использования статистических возможностей Excel заключается в простоте выполнения процедур и в русифицированности пакета. Возможности статистического анализа электронных таблиц Excel сконцентриро-

ваны в операторе Вставка функций fx и в пакете Анализ данных.

2.2. Краткие теоретические сведения по перечисленным задачам медицинской статистики

2.2.1 Построение гистограммы и полигона распределения.

Поучаемые экспериментальные данные оформляются обычно в виде статистического ряда представляющего собой таблицу из двух строк, одна из которых - № измерения, а вторая - значение варианты. Затем ряд ранжируют ( сортируют ) в порядке возрастания или убывания варианты, разбивают на интервалы ( классы ) и подсчитывают число вариант, попавших в каждый класс ( частоты – абсолютные или относительные ). Оформленная в результате таких преобразований таблица называется интервальным вариационным

42

рядом. Длину интервального ряда целесообразно вычислять по формуле Стерджеса:

λ= xmax xmin

1+ 3,32 lg n , где:

λ- длина интервала, xmax и xmin – максимальное и минимальное значе-

ния вариант, n – объём выборки.

Длина интервала в зависимости от решаемой задачи может также выбираться произвольно. Для наглядности полученного распределения частот по классом строят гистограмму и полигон распределений. Пример гистограммы и полигона распределения приведён на Рис 1.

 

16

 

 

 

 

 

 

случаев

14

 

 

 

 

 

 

12

 

 

 

 

 

 

10

 

 

 

 

 

 

8

 

 

 

 

 

 

Число

6

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

15

17

19

21

23

25

27

 

 

 

Значения СОЭ (мм/час)

Гистограмма

 

 

 

 

 

 

 

 

 

 

 

Полигон

 

 

 

 

Рис 1.

 

 

 

Оформленные таким образом эмпирические данные позволяют получить первое представление о законе распределения исследуемой величины в выборке. На этом заканчивается первичная статистическая обработка данных.

2.2.2 Проверка экспериментальных данных на соответствие нормальному закону распределения.

Как известно, наиболее исчерпывающей характеристикой случайной величины является закон распределения. Знание закона распределения позволяет избежать многих возможных ошибок при решении большинства статистических задач, например, в определении характеристик генеральных совокупностей случайных величин по выборочным параметрам, при проверке различного рода статистических гипотез и т. д.

Когда есть основания предполагать, что варианты в эмпирических совокупностях распределены по нормальному закону, то применяют параметрические методы. Параметрические методы основываются на вычислении различного рода критериев ( например, критерия Стьюдента, критерия Фишера и др. ). Для нахождения критериев требуется предварительное вычисление

43

параметров выборки – таких как средняя арифметическая, выборочная дисперсия и т. д.

При больших отличиях распределения случайной величины в выборке от нормального закона следует применять непараметрические методы. Непараметрические методы основываются на вычислении критериев, являющихся функциями непосредственно от вариант данной совокупности и не требуют вычисления параметров выборки. Другим преимуществом непараметрических методов является то, что их можно применять независимо от закона распределения случайной величины. Кроме того, если в выборке вместо чисел используются условные символы, то применение непараметрических методов является единственно возможным. Но если изучаемая величина под-

чиняется нормальному закону распределения, то следует применять параметрические методы, так как эти методы позволяют получить более надёжные результаты статистического анализа. Поэтому, перед решением ка- ких-либо статистических задач необходимо проверить эмпирическое распределение вариант в выборке на соответствие нормальному закону распределения. Эта задача решается многими методами. Ниже описаны несколько таких методов.

Закон нормального распределения

Нормальное распределение ( Лапласа – Гаусса ) может быть записано в виде:

 

 

1

 

e

(xM )2

 

f (x) =

 

 

2σ 2 . ( 1 )

 

 

 

 

 

2π

σ

 

 

 

 

 

В этой формуле M - математическое ожидание, σ - стандартное отклонение ( среднее квадратическое отклонение генеральное ), x - значение случайной величины, f (x) - функция плотности вероятности. Если ввести параметр

x M

t = σ , то при M =0 и σ =1нормальный закон распределения приобретает, так называемую, стандартизированную ( нормализованную ) форму:

 

 

1

 

e

t2

 

f (t) =

 

 

2 ( 2 )

 

 

 

2π

 

 

 

 

 

 

При такой записи площадь кривой, ограниченной функцией f (t) и осью −∞< t < +∞ равна единице, что соответствует вероятности Р ( t ) =1. Интервалам изменения t, равным ±1, ±2 и ±3 (т. е. ±σ , ±2σ и ±3σ ) соответствуют вероятности попадания x в эти интервалы 0,б68, 0,95 и 0,997. График функции ( 2 ) в интервале изменения t от-3 до +3 приведён на Рис 2.

Любое эмпирическое распределение может быть выражено в стандартизированном виде путём введения нормализованного эмпирического параметра

t = xi x , где xi - эмпирическое значение исследуемой величины, а x - её sx

среднее арифметическое в выборке.

 

44

0,45

f(t)

0,40

 

0,35

 

0,30

 

0,25

 

0,20

 

0,15

 

0,10

 

0,05

t

0,00

 

-3 -2,5 -2 -1,5 -1 -0,5 -0 0,5 1 1,5 2 2,5 3

Рис 2.

Проверка гипотезы о нормальности распределения варианты в выборке методом вычисления теоретических частот.

Этот метод основывается на сопоставлении эмпирического и теоретического распределений. Значения эмпирических частот получают оформлением экспериментальных данных в виде интервального вариационного ряда. Значения теоретических частот вычисляют на основании выражения (2). Для того, чтобы эта формула выражала абсолютные частоты случайной величины ( варианты ) x , нужно в эту формулу внести следующие изменения[1]:

f ′ = nλ f (t) ( 3 ), где: sx

n - общее число наблюдений,

λ - величина классового интервала, вычис-

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi

 

)2

 

ляемая, например, по формуле

Стерджеса, а

sx

=

x

- среднее

n

1

 

 

 

 

 

квадратическое (стандартное) отклонение эмпирического (в отличие от среднего квадратического отклонения генеральной совокупности ) вариационного ряда. В формуле ( 3 ) f имеет смысл теоретической ( выравнивающей )

частоты вариационного ряда. Значения f (t) могут быть легко вычислены и частично приведены в Приложении I.

Сравнивая эмпирические частоты интервального вариационного ряда с частотами, рассчитанными по формуле (3), можно проверить, соответствует эмпирическое распределение нормальному или нет. Проведение подобного анализа полезно ещё и в том отношении, что позволяет результаты сделать наглядными, представив их в виде гистограмм, полигонов распределения и графиков. В качестве примера в Таблице 1 приведены результаты вычисления теоретических частот в выборке, состоящей из значений роста 267 мужчин, сформированной в виде вариационного интервального ряда [1].

45

Таблица 1. Интервальный вариационный ряд значений роста мужчин в выборке объёмом n=267

Центры

эмпири-

 

xi

 

 

Орди-

(теоретические час-

интерва-

ческие час-

 

 

 

наты нор-

тоты )

t =

x

лов

тоты

sx

мальной

 

f

 

 

xi , см

fi

 

 

 

 

кривой f(t)

расчёт-

округ-

 

 

 

 

 

 

 

ные

лённые

158

3

-2,77

 

 

0,0086

1,6

2

161

9

-2,03

 

 

0,0508

10,0

10

164

31

-1,29

 

 

0,1736

34,3

34

167

71

-0,55

 

 

0,3429

67,8

68

170

82

+0,19

 

 

0,3918

77,6

78

173

46

+0,93

 

 

0,2589

51,2

51

176

19

+1,67

 

 

0,0989

19,5

19

179

5

+2,41

 

 

0,0219

4,4

4

182

1

+3,15

 

 

0,0028

0,6

1

Сумма

267

 

-

 

 

-

267,0

267

Проверка гипотезы о нормальности распределения методом вычисления критерия согласия χ 2

Располагая значениями эмпирических и вычисленных частот легко вычислить критерий χ 2 ( читается как «хи – квадрат» ), который применяется для решения вопроса о случайности или закономерности различия двух распределений, в данном случае распределений эмпирических и вычисленных частот. Применение этого критерия сопряжено с некоторыми ограничениями:

а) выборка должна быть представительной – объёмом не менее 50 ( по некоторым данным - не менее 100);

б) в крайних классах вариационного интервального ряда должно быть не менее пяти вариант. Если число вариант меньше пяти, крайний класс объединяют с предыдущим, суммируя частоты этих классов. При этом число

классов соответственно сокращается. Критерий

 

χ 2 вычисляется по форму-

ле[1]:

 

 

 

 

 

 

 

 

 

 

 

2

k

( f

k

 

 

2

χ

=

f )

 

 

d

 

 

 

 

 

 

 

 

 

f

 

=

 

 

.

 

 

i=1

 

i=1

 

f

Сущность методики использования критерия χ 2 заключается в следующем. В качестве нулевой статистической гипотезы принимается предположение о том, расхождение между вычисленными и эмпирическими частотами носят случайный характер. Для проверки этой гипотезы вычисляют фак-

тическое значение ( χ 2 )факт. и сравнивают его с критическим значением

( χ 2 )крит. Если ( χ 2 )факт.> ( χ 2 )крит. , то нулевая гипотеза отвергается, а принимается альтернативная гипотеза, т. е. различия носят неслучайный ха-

46

рактер и распределение эмпирических частот отличается от ожидаемого. Ес-

ли ( χ 2 )факт.( χ 2 )крит. то нулевая гипотеза принимается, т. е. эмпирическое распределение частот соответствует нормальному закону распределения.

Критические значения χ 2 зависят от принятого уровня значимости α и числа степеней свободы. Общепринятым значением уровня значимости в медицине является обычно 0,05, что соответствует вероятности ошибки при принятии решения 0,05. Следовательно, при таком уровне значимости вероятность соответствия эмпирического распределения частот нормальному закону равна 0,95. При ответственных исследованиях уровень значимости уменьшают. Число степеней свободы k = N – q и зависит от числа параметров q , используемых в заданном законе распределения и числа классов в выборке N; так для нормального закона q = 3 ( т. к. в нормальном законе три параметра – объём выборки n, среднее значение варианты x в выборке и

стандартное отклонение sx ). Для распределения Пуассона q = 2 , т. к. число параметров, необходимых для описания закона равно двум – объём выборки

n и x . Для критических значений χ 2 составлены таблицы. В Таблице 2 и в

Приложении приведены значения ( χ 2 )крит. для различных степеней свободы и уровней значимости [1].

Проверка гипотезы о нормальности распределения методом вычисления моды и медианы.

При нормальном распределении случайной величины значения моды и медианы совпадают со значением средней арифметической. Поэтому вычисление моды и медианы может служить дополнительным способом проверки гипотезы о соответствии эмпирического распределения нормальному закону распределения.

Таблица 2. Критические значения χ 2

k

 

α - уровень значимости (%)

 

5

2,5

1

0,5

0,1

 

1

3,84

5,02

6,64

7,88

10,83

2

5,99

7,38

9,21

100,60

13,82

3

7,82

9,35

11,34

12,84

16,27

4

9,49

11,14

13,28

14,86

18,47

5

11,07

12,83

15,09

16,75

20,52

6

12,59

14,15

16,81

18,55

22,46

7

14,07

16,01

18,48

20,28

24,32

8

15,51

17,54

220,09

21,96

26,12

9

16,92

19,02

21,67

23,59

27,88

10

18,31

20,84

23,21

25,19

29,59

 

47

 

 

 

 

 

Медиана - это число, которое является серединой множества чисел, то

есть половина чисел имеют значения большие, чем медиана, а половина чи-

сел имеют значения меньшие, чем медиана.

 

 

 

 

 

Пример:

 

 

 

 

 

 

Медиана выборки чисел 1; 2; 3; 4; 5 равняется 3

 

 

Мода - наиболее часто встречающееся или повторяющееся значение в

массиве или интервале данных. Также как и Медиана, Мода является мерой

взаимного расположения значений вариант в выборке.

 

Пример: Мода выборки чисел 5,6; 4; 4; 3; 2; 4 равняется 4

Проверка гипотезы о нормальности распределения методом вычис-

ления коэффициентов Асимметрии и Эксцесса

 

 

Эксцесс характеризует относительную остроконечность или сглаженность

распределения по сравнению с нормальным распределением. Положитель-

ный эксцесс обозначает относительно остроконечное распределение. Отри-

цательный эксцесс обозначает относительно сглаженное распределение. По-

казатель эксцесса определяется выражением [1]:

 

 

 

1

k

 

4

 

1

− 3

Ex =

fi (xi x)

 

 

sx4

n

i=1

 

 

 

 

Примеры соответствующих диаграмм приведены на Рис 3 и 4.

При нормальном распределении значение Ex = 0. При исследовании эм-

пирических выборок это условие практически никогда не выполняется. По-

этому вывод о соответствии эмпирического распределения нормальному ос-

новывается на сопоставлении

полученного значения Ex с критическим, ко-

торое находят по таблицам для заданного уровня значимости и объёма вы-

борки. Если полученное значение Ex превышает критическое,

то предположение о соответствии эмпирического распределения нормаль-

ному должно быть отвергнуто ( при заданном уровне значимости ). Таблица

критических значений Ex приведена в Приложении [1].

 

0,40

 

 

 

 

 

 

0,35

 

 

 

 

 

 

0,30

 

 

 

 

 

 

0,25

 

 

 

 

 

Ex<0

0,20

 

 

 

 

 

 

0,15

 

 

 

 

 

норм.

0,10

 

 

 

 

 

 

 

 

 

 

распр.

0,05

 

 

 

 

 

 

 

 

 

 

 

0,00

 

 

 

 

 

 

-3 -2,6 -2,2 -1,8 -1,4 -1 -0,6 -0,2 0,2 0,6 1 1,4

1,8

2,2

2,6

3

 

Рис. 3.

 

 

 

 

 

 

 

48

 

 

 

0,50

 

 

 

 

 

0,40

 

 

 

 

 

0,30

 

 

 

 

Ex > 0

0,20

 

 

 

 

Норм.

0,10

 

 

 

 

Распр.

 

 

 

 

 

0,00

 

 

 

 

 

-3 -2,6 -2,2 -1,8 -1,4 -1 -0,6 -0,2

0,2 0,6 1 1,4 1,8

2,2

2,6

3

 

 

Рис. 4.

 

 

 

Асимметрия ( Скошенность, Скос ) характеризует степень несиммет-

ричности распределения относительно его среднего. Показатель Асимметрии

определяется выражением:

 

 

 

 

 

1

 

k

3

1

 

As =

 

fi (xi x)

 

3

.

 

 

 

 

 

n

 

i=1

 

sx

 

Положительная Асимметрия указывает на отклонение распределения в

сторону положительных значений. Отрицательная Асимметрия указывает на

отклонение распределения в сторону отрицательных значений. Примеры со-

ответствующих диаграмм приведены на Рис.5 и Рис.6.

 

При нормальном распределении значение

As

= 0. Однако, также как и

для Ex , это условие обычно не выполняется и вывод о соответствии эмпири-

ческого распределения нормальному основывается на сопоставлении полу-

ченного значения с критическим. Если для имеющегося объёма выборки и

заданного уровня значимости эмпирическое значение As превышает крити-

ческое, то гипотеза о соответствии эмпирического распределения нормаль-

ному должна быть отвергнута ( при заданном уровне значимости ). Таблица

критических значений As при различных уровнях значимости и объёмах вы-

борки приведена в Приложении [1].

 

 

 

 

0,450

 

 

 

 

 

0,400

 

 

 

 

As > 0.

0,350

 

 

 

 

 

 

 

 

 

0,300

 

 

 

 

Норм. распр.

 

 

 

 

 

0,250

 

 

 

 

 

0,200

 

 

 

 

 

0,150

 

 

 

 

 

0,100

 

 

 

 

 

0,050

 

 

 

 

 

0,000

 

 

 

 

 

-3 -2,6 -2,2 -1,8 -1,4 -1 -0,6 -0,2 0,2

0,6 1 1,4 1,8 2,2 2,6

3

 

 

Рис. 5.

 

 

 

 

 

 

 

 

 

49

 

 

 

 

 

0,50

 

 

 

 

 

 

 

 

 

 

Норм. распр.

 

 

 

 

 

 

 

 

 

 

 

0,40

 

 

 

 

 

 

 

 

 

 

As < 0

0,30

 

 

 

 

 

 

 

 

 

 

 

0,20

 

 

 

 

 

 

 

 

 

 

 

0,10

 

 

 

 

 

 

 

 

 

 

 

0,00

 

 

 

 

 

 

 

 

 

 

 

-3

-2,6 -2,2 -1,8 -1,4

-1

-0,6 -0,2

0,2

0,6

1

1,4

1,8

2,2

2,6

3

 

 

 

 

 

Рис. 6.

 

 

 

 

2.2.3 Точечные и интервальные оценки параметров генеральных совокупностей.

Статистической совокупностью называется множество однотипных объектов, подлежащих совместному ( групповому ) исследованию. Объект называется единицей или членом совокупности. Число членов совокупности называется её объёмом. Совокупность могут составлять также признаки, характеристики, параметры объектов. Характерная особенность статистических совокупностей признаков – изменчивость (варьирование ) в определённых пределах численных значений признаков при переходе от одного члена сово-

купности к другому. Поэтому численное значение признака совокупности

называют вариантой.

Статистические совокупности могут быть двух видов – генеральные и выборочные. Генеральные совокупности охватывают все подлежащие исследованию объекты. Теоретически объём генеральных совокупностей n → ∞ . Числовые характеристики генеральных совокупностей называются параметрами ( генеральными параметрами ) и являются величинами детерминированными ( т. е. имеющими определённое постоянное значение ).

Выборочные совокупности имеют ограниченное число членов и являются частью генеральных. Числовые характеристики выборочных совокупно-

стей называются выборочными характеристиками ( статистиками ). Выборочные характеристики являются величинами случайными, т. к. их значения могут меняться от выборки к выборке случайным образом. Выборочные характеристики могут не совпадать с генеральными параметрами (такое совпадение может быть чисто случайным).

Генеральные параметры

К основным генеральным параметрам относятся:

0 Математическое ожидание М(х) – такое значение случайной величины, вокруг которого сосредоточены другие её возможные значения, т. е. математическое ожидание является центром распределения. Для дискретных значений случайной величины М(х) вычисляется по формуле:

n

M(x) = pi (x) xi

i=1

50

В этом выражении pi (x) - вероятность xi .

Для непрерывных случайных величин М(х) вычисляется по формуле:

M (x) = x f (x)dx

−∞

В этом выражении f (x) - плотность вероятности.

0 Дисперсия D(x) – характеризует рассеивание значений случайной величины вокруг математического ожидания, имеет размерность, равную квадрату размерности случайной величины. D(x) вычисляется для дискретных и непрерывных величин соответственно по формулам:

 

n

M (x)]2 - для дискретных величин

D(x) = p(x) [xi

 

i=1

 

[x M (x)]2

 

D(x) =

f (x)dx - для непрерывных величин

−∞

0 Среднее квадратическое отклонение ( стандартное отклонение )

σ (x) – характеризует рассеивание значений случайной величины относительно математического ожидания. В отличие от дисперсии σ (x) имеет размерность, совпадающую с размерностью случайной величины, σ (x) вычисляется по формуле:

σ (x) = D(x)

Помимо перечисленных генеральных параметров могут вычисляться и другие, такие как Мода, Медиана, Эксцесс, Асимметрия и др.

Выборочные характеристики ( статистики ).

Составление генеральных совокупностей – чрезвычайно сложная и обычно невыполнимая задача. В распоряжении исследователя, как правило, имеются выборочные совокупности. Между тем, задачей исследования является определение генеральных параметров. Оценка генеральных параметров по выборочным характеристикам – одна из важнейших задач статистического исследования. Оценка генеральных параметров может быть точечной и интервальной. Точечная оценка характеризуется одним числом, интервальная

– двумя числами, началом и концом интервала.

Точечные оценки генеральных параметров.

За точечные оценки генеральных параметров принимают соответст-

вующие выборочные характеристики.

0 Оценкой математического ожидания М(х) является средняя арифметическая выборки x , которая может быть простой и взвешенной. Простая арифметическая вычисляется по формуле:

x = 1 n xi , n i=1

где n - объём выборки.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]