Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
МТЗЕ_rus.DOC Печерская.doc
Скачиваний:
26
Добавлен:
13.04.2015
Размер:
14.33 Mб
Скачать

содержание

Введение ...…………………………………………………………………….4

1 Исследование возможностей использования двухвыборочных

параметрических критериев значимости различий при распознавании

патологических процессов ………………………………………………………....5

2 Исследование возможностей использования непараметрических

критериев значимости различий двух выборок при распознавании

патологических процессов ……………………………………………….…….….22

3 Исследование возможностей использования критериев множественных

сравнений при распознавании патологических процессов ……………………..34

4 Исследование возможностей программы SPSS и табличного процессора Excel для проведения кластерного анализа медицинских данных ………..……55

Приложение А ………………………………………………..……………...73

Приложение Б …………………………………………………………...…...79

Приложение В …………………………………………………………..…...81

Приложение Г …………………………………………………………...…...89

Рекомендованная литература ………………………………………….…....98

Введение

Целью лабораторных работ с дисциплины «Автоматизация обработки экспериментальных данных. Часть 2» является приобретение практических навыков по применению параметрических и непараметрических методов анализа медико-биологических данных и их кластеризации.

Лабораторные работы предназначены для расширения и закрепления теоретических знаний с дисциплины, в том числе технологии классификации данных, современного анализа результатов медико-биологического эксперимента при распознавании патологических процессов.

Все лабораторные работы построены по одному принципу, рекомендованному методической комиссией университета, и могут использоваться во время изучения компьютерных технологий в медицине, прикладного программного обеспечения биотехнических систем, системного анализа и принятия решений в медицине, а также во время подготовки студентов квалификационного уровня магистр для специальностей 8.091002 «Биотехнические и медицинские аппараты и системы» и 8.090804 «Физическая и биомедицинская электроника» и магистров-иностранцев.

Для получения допуска к выполнению лабораторной работы студенты предварительно должны познакомиться с методическими указаниями к ней, изучить теоретический материал, четко представлять порядок выполнения работы. Студенты допускаются к выполнению лабораторных работ только после проведения инструктажа по технике безопасности, о чем делается отметка в журнале преподавателя.

Отчет по лабораторным работам оформляется каждым студентом отдельно, в соответствии cосновными требованиям стандарта ДСТУ 3008 – 95 «Документация. Отчеты в сфере науки и техники. Структура и правила оформления».

1 Исследование возможностей использования двухвыборочных параметрических критериев значимости различий при распознавании патологических процессов

1.1 Цель работы

Изучение возможностей использования параметрических критериев сравнения двух выборок при распознавании патологических процессов с помощью Microsoft Excel.

1.2 Методические указания по организации самостоятельной работы студентов

При подготовке к лабораторной работе необходимо изучить особенности параметрических тестов, применяемых для сравнения двух выборок, возможности Microsoft Excel при проверке гипотез о положении и рассеивании [1-4].

Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений). Процедуру сопоставления высказанной гипотезы с выборочными данными называют проверкой статистической гипотезы.

Проверяемую статистическую гипотезу принято называть основной (нулевой) гипотезой , а противоречащую ей гипотезу – альтернативной (конкурирующей) гипотезой.

Проверка гипотез проходит такие этапы:

1) определение используемой статистической модели. Здесь выдвигают некоторый набор предпосылок относительно закона распределения случайной величины и его параметров;

2) выбор критерия, который подходит к выдвинутой статистической гипотезе;

3) выбор уровня значимости α в зависимости от требуемой надежности выводов;

4) определение критической области для проверки . Если значение критерия превышает эту область, то гипотеза отклоняется;

5) расчет значения выбранного критерия для имеющихся данных;

6) рассчитанное значение критерия сравнивается с критическим и принимается решение о принятии или отклонении гипотезы .

Различают параметрические и непараметрические критерии. Параметрические критерии применяются для числовых данных, когда закон распределения нормальный.

При проверке гипотезы о принадлежности двух дисперсий одной генеральной совокупности и, следовательно, их равенстве, применяют критерий Фишера.

Нулевая гипотеза: .

Альтернативная гипотеза: , критическая область – верхний хвостF-распределения. Гипотеза о равенстве дисперсий двух нормальных генеральных совокупностей принимается, если отношение большей дисперсии к меньшей меньше критического значения распределения Фишера:

, , (1.1)

где α – уровень значимости;

v1, v2 – степени свободы для дисперсии в числителе и знаменателе соответственно.

При проверке гипотезы о различии между средними (математическими ожиданиями) двух нормальных распределений с известными дисперсиями используется двухвыборочный z-тест для средних. При этом обе выборки извлечены из совокупности, имеющей нормальное распределение, данные независимы, дисперсии выборок различаются.

Нулевая гипотеза:

: против:. В этом случае гипотеза о равенстве средних отвергается, если по абсолютной величинеz-критериальное значение больше α% точки z-распределения, т.е. .

В математической статистике доказывается, что если данная гипотеза выполняется, то величина z имеет нормальный закон распределения с нулевым математическим ожиданием и единичной дисперсией:

, (1.2)

где и– оценки средних значений первой и второй выборки;

–известные дисперсии первой и второй выборки;

и – размеры первой и второй выборки.

Пример 1. Пусть имеются две группы результатов независимых медицинских наблюдений, проводимых в одинаковых условиях. Необходимо проверить гипотезу о равенстве средних значений случайных величин в двух выборках, если известно, что результаты первой и второй групп имеют нормальный закон распределения с дисперсиями исоответственно.

Для начала рассчитаем среднее значение для каждой группы наблюдений, используя функцию СРЗНАЧ. Затем по (1.2) определим критериальное значение z-распределения, введя в ячейку C18 формулу «= (B16-C16) / КОРЕНЬ ((B17/ ЧСТРОК (B2:B15))+ (C17 / ЧСТРОК (C2:C10)))= =-2,87» (рис. 1.1).

Рисунок 1.1 – Расчет критериального значения z-распределения

Определим критическое значение z-распределения, для чего в ячейку С20 введем функцию «=НОРМСТОБР(0,05)=-1,64485», где 0,05 – заданный уровень значимости (рис. 1.2).

Рисунок 1.2 – Проверка гипотезы о равенстве средних с помощью z-критерия

Проанализируем полученные результаты. Так как критериальное значение z-распределения (-2,87) попадает в критическую область (; 2,87>1,64485), то гипотеза о равенстве средних значений первой и второй групп отвергается, т.е. считаем, что различие выборочных средних неслучайно.

При проверке равенства средних двух нормальных распределений с неизвестными дисперсиями, причем предполагается, что обе дисперсии неравны между собой, используется двухвыборочный t-тест с различными дисперсиями.

Нулевая гипотеза:

- :против:. В этом случае гипотеза о равенстве средних отвергается, если по абсолютной величине критериальное значение большеα/2% точки t-распределения, взятого с V степенями свободы, т.е. ;

- :против:. Нулевая гипотеза отвергается, если критериальное значение большеα/2% точки t-распределения, взятого с V степенями свободы, т.е. .

Критериальное значение рассчитывается по формуле

, (1.3)

где и– размеры первой и второй выборок;

и – дисперсии первой и второй выборок;

и – оценки средних значений первой и второй выборок.

При этом число степеней свободы для критического t-критерия рассчитывается как

. (1.4)

Пример 2. Необходимо определить, равны ли средние значения массы плода интанктной группы животных (группа 1) и группы животных, в полость желудка которых вводился 0,6%-ный масляный раствор α-токоферола ацетата (группа 2).

Сначала вычислим средние значения для исследуемых групп. Для этого в ячейки С12 и D12 помещаем функцию «=СРЗНАЧ(C2:C11)=2,001» и «=СРЗНАЧ(D2:D10)=2,1622» соответственно. Затем вычисляем дисперсии этих выборок, для чего в ячейки С13 и D13 помещаем функции «=ДИСП(C2:C11)=0,0833» и «=ДИСП(D2:D10)=0,0195» (рис. 1.3).

Рисунок 1.3 – Расчет средних значений и дисперсий для двух выборок

Определим расчетное значение t-критерия и число степеней свободы. Формула для вычисления расчетного значения t-критерия помещается в ячейку D17 и выглядит так: «=(D12-C12)/КОРЕНЬ(C13/10+D13/9)=1,5742». Здесь числа 10 и 9 – размеры первой и второй выборок.

Значение числа степеней свободы определяем, введя в ячейку D19 формулу «=(C13/10+D13/9)*(C13/10+D13/9)/((C13/10)*(C13/10)/11+(D13/9)* (D13/9)/10)-2=14,25212», при этом значение может быть дробным. Числа 10 и 11 – это увеличенные на единицу размеры первой и второй выборок. Затем вычисляется критическое значение для распределения Стьюдента. Для этого в ячейку D18 помещаем вызов функции «=СТЬЮДРАСПОБР(0,025; D19)= =2,5095», где 0,025 – α/2 при 5% уровне значимости, D19 – адрес ячейки, в которой находится рассчитанное значение степеней свободы (14,25212) (рис. 1.4).

Рисунок 1.4 – Проверка гипотезы о равенстве средних значений при

неравных дисперсиях

Поскольку 1,5742 < 2,5095, то гипотеза о равенстве средних значений в выборках принимается.

При проверке равенства средних двух нормальных распределений с неизвестными дисперсиями, причем предполагается, что обе дисперсии равны между собой, используется двухвыборочный t-тест с одинаковыми дисперсиями.

Нулевая гипотеза:

- :против:. В этом случае гипотеза о равенстве средних отвергается, если по абсолютной величине критериальное значение больше α/2% точкиt-распределения, взятого с V степенями свободы, т.е. , где–можно определить из таблицы критических значений t-статистики (табл. А.1);

- :против:. Нулевая гипотеза отвергается, если критериальное значение большеα% точки t-распределения, взятого с V степенями свободы, т.е. .

Критериальное значение рассчитывается по формуле

, (1.5)

где N1 и N2 – размеры первой и второй выборок;

, – оценки средних значений;

, – дисперсии первой и второй выборок;

–число степеней свободы для проверки t-критерия, равное

. (1.6)

Пример 3. Необходимо определить, равны ли средние значения размера опухоли карциномы Герена в двух выборках, на которые воздействовали магнитными полями низкой частоты.

Для начала необходимо определить, равны ли дисперсии выборок между собой. Для этого рассчитаем дисперсии для первой и второй выборки, подставив в ячейки C11 и D11 функции «=ДИСП(C3:C10)=0,02323» и «=ДИСП(D3:D10)=0,01283» соответственно. Далее рассчитываем средние значения двух выборок, для чего в ячейки C12 и D12 введем функции «=СРЗНАЧ(C3:C10)=0,15088» и «=СРЗНАЧ(D3:D10)=0,12375».

Находим расчетное значение для критерия Фишера. Для этого нужно значение большей дисперсии разделить на значение меньшей дисперсии «=C11/D11=1,81144». Определяем, можно ли принять гипотезу о равенстве дисперсий. Для этого вводим в ячейку Е15 функцию «=FРАСПОБР(0,05;7;7)=3,78704», где 0,05 – заданный уровень значимости; 7 – число степеней свободы числителя; 7 (второе) – число степеней свободы знаменателя, при этом число степеней свободы равно N-1 (N – количество экспериментов). Поскольку это значение (3,78704) больше расчетного (1,81144) мы можем говорить о том, что дисперсии в двух выборках равны.

Далее определяем уровень значимости критерия для одностороннего распределения при заданном значении α=0,05. Для этого в ячейку Е16 вводится функция «=FРАСП(E14;7;7)=0,22566». Поскольку полученное значение (0,22566) больше, чем заданное α, то гипотеза о принадлежности двух дисперсий к одной генеральной совокупности принимается (рис. 1.5).

Рисунок 1.5 – Проверка принадлежности двух дисперсий одной генеральной

совокупности по критерию Фишера

Затем рассчитываем число степеней свободы V, подставляя в ячейку I4 формулу «=ЧСТРОК(C3:C10)+ЧСТРОК(D3:D10)-2=14», после чего вычисляем критериальное значение t в ячейке I7 по формуле «=(C12-D12)/ КОРЕНЬ(((1/8)+(1/8))*(C11*7+D11*7)/I4)=0,40401», где 8 – размеры выборок (у нас они одинаковы). Рассчитаем критическое значение распределения Стьюдента для чего в ячейку I9 помещаем формулу «=СТЬЮДРАСПОБР(0,025;I4)=2,5097», где 0,025 – уровень значимости α/2 (рис. 1.6).

Рисунок 1.6 – Проверка гипотезы о равенстве средних значений в выборках

при равных дисперсиях

Поскольку 0,40401 < 2,5097, то гипотеза о равенстве средних значений в выборках при равных дисперсиях принимается.

При проверке равенства средних двух генеральных совокупностей, из которых извлечены две выборки, при условии, что выборки связаны, рекомендуется пользоваться специальным парным двухвыборочным t-тестом для средних.

Нулевая гипотеза:

- :против:. В этом случае гипотеза о равенстве средних отвергается, если по абсолютной величине критериальное значение больше α/2% точкиt-распределения, взятого с V степенями свободы, т.е. ;

- :против:. Нулевая гипотеза отвергается, если критериальное значение больше α% точкиt-распределения, взятого с V степенями свободы, т.е. при ;

- :против:. Нулевая гипотеза отвергается, если критериальное значение меньшеα% точки t-распределения, взятого с V степенями свободы.

Отличительной особенностью данного критерия является то, что даже при значительных отклонениях переменных иот нормального закона их разность будет достаточно точно распределена по нормальному закону.

Критериальное значение вычисляется по формуле:

, (1.7)

где и– значения связанных рядов наблюдений;

N – величина выборки (размер выборок одинаков).

Пример 4. Необходимо выяснить, оказала ли антиагрегантная терапия значимое влияние на функциональную активность тромбоцитов.

Для начала необходимо проверить имеющиеся данные на соответствие их нормальному закону распределения, выполнив функцию NORMSAMP_1. Затем находим все составляющие формулы (1.7) и вычисляем критериальное значение t (рис. 1.7).

Рисунок 1.7 – Расчет критериального значения t

Далее рассчитываем граничную вероятность, для чего в ячейку G10 помещаем формулу «=СТЬЮДРАСП(G8; G9; 2)=0,003864», где 2 – количество хвостов распределения (двустороннее распределение).

Рассчитываем критическое значение для α/2% t-распределения, введя в ячейку G11 функцию «=СТЬЮДРАСПОБР(0,025; G9)=2,685011» (рис. 1.8).

Рисунок 1.8 – Проверка гипотезы о равенстве средних значений

связанных выборок

Основываясь на полученных результатах, можно сказать, что средние значения анализируемых связанных выборок не равны, так как рассчитанное критериальное значение t-распределения (3,857143) больше критического (2,685011) при уровне значимости α/2 = 0,025 и числе степеней свободы 9. Полученные результаты говорят о том, что антиагрегантная терапия значимо влияет на тромбоцитарный фибриноген.

1.3 Описание лабораторной установки

Для проведения лабораторной работы используется персональная ЭВМ типа IBM PC/ATX, которая позволяет автоматизировать распознавание патологических процессов с использованием двухвыборочных параметрических критериев при помощи программного средства Microsoft Excel.

Основные характеристики установки:

  • процессор – Intel Celeron с частотой не ниже 600 MGz;

  • ОЗУ – не меньше 128 Mb.

Программное средство работает в ОС Windows 2000 и больше, занимает 135 Mb дискового пространства. Для нормальной работы необходима графическая подсистема ЭВМ (дисплей и видеокарта), которая может отображать 1024х768 пикселя при 32-битной цветовой палитре.

1.4 Порядок выполнения работы и методические указания по ее выполнению

  1. Запустить программу Excel, выполнив команды «Пуск» ► «Программы» ► «Microsoft Excel».

  2. Создать чистую рабочую книгу, выполнив команды «Файл» ► «Создать» ► «Чистая книга».

  3. Решить задачу 1 (приложение А):

а) заполнить «Лист 1» рабочей книги исходными данными, согласно своего варианта (табл. А.2);

б) рассчитать средние значения для каждой из выборок, используя функциюСРЗНАЧ;

в) определить критериальное значение z-распределения по (1.2), используя функции КОРЕНЬ и ЧСТРОК;

г) определить критическое значение одностороннего z-распределения, используя функцию НОРМСТОБР(α), α=0,05;

д) определить критическое значение двустороннего z-распределения, используя функцию НОРМСТОБР(α), α=0,025;

е) оценить полученные результаты.

  1. Решить задачу 1 с помощью специальных средств пакета Excel:

а) последовательно выбрать на панели меню Excel пункты «Сервис» ► «Анализ данных»;

б) в появившемся диалоговом окне «Анализ данных» выбрать пункт «Двухвыборочный z-тест для средних»;

в) в открывшемся окне «Двухвыборочный z-тест для средних» (рис. 1.9) в строке «Интервал переменной 1» задать диапазон ячеек первой выборки;

Рисунок 1.9 – Диалоговое окно «Двухвыборочный z-тест для средних»

г) в строке «Интервал переменной 2» задать диапазон ячеек второй выборки;

д) в строке «Гипотетическая средняя разность» ввести значение 0;

е) в строке «Дисперсия переменной 1 (известная)» задать значение известной дисперсии для первой выборки;

ж) в строке «Дисперсия переменной 2 (известная)» задать значение известной дисперсии для второй выборки.

з) активировать флажок «Метки»;

и) в строке «Альфа» установить уровень значимости, равный 0,05;

к) задать ячейку выходного интервала, активировав радиокнопку «Выходной интервал» и нажать «ОК»;

л) оценить полученные результаты (рис. 1.10).

Рисунок 1.10 – Исходные данные и результаты работы теста

«Двухвыборочный z-тест для средних»

  1. Решить задачу 2 (приложение А):

а) заполнить «Лист 2» рабочей книги исходными данными согласно своего варианта (табл. А.3);

б) рассчитать средние значения для каждой из выборок, используя функциюСРЗНАЧ;

в) рассчитать дисперсии для каждой из выборок, используя функциюДИСП;

г) определить расчетное значение t-критерия по (1.3);

д) определить число степеней свободы для расчета критического значенияt по (1.4);

е) рассчитать критическое значение t, используя функцию СТЬЮДРАСПОБР;

ж) оценить полученные результаты.

  1. Решить задачу 2 с помощью специальных средств пакета Excel:

а) последовательно выбрать на панели меню Excel пункты «Сервис» ► «Анализ данных»;

б) в появившемся диалоговом окне «Анализ данных» выбрать пункт «Двухвыборочный t-тест с различными дисперсиями» (рис. 1.11);

Рисунок 1.11 – Диалоговое окно «Анализ данных»

в) в открывшемся окне «Двухвыборочный t-тест с различными дисперсиями» (рис. 1.12) в строке «Интервал переменной 1» задать диапазон ячеек первой выборки;

г) в строке «Интервал переменной 2» задать диапазон ячеек второй выборки;

д) в строке «Гипотетическая средняя разность» ввести значение 0;

е) активировать флажок «Метки»;

ж) в строке «Альфа» установить уровень значимости, равный 0,05;

Рисунок 1.12 – Диалоговое окно «Двухвыборочный t-тест с различными

дисперсиями»

з) задать выходной интервал, активировав радиокнопку «Выходной интервал» и нажать «ОК»;

и) оценить полученные результаты (рис. 1.13).

Рисунок 1.13 – Исходные данные и результат работы теста по проверке

равенства средних при различных дисперсиях

  1. Решить задачу 3 (приложение А):

а) заполнить «Лист 3» рабочей книги исходными данными, согласно своего варианта (табл. А.4);

б) рассчитать дисперсии для каждой из выборок, используя функциюДИСП;

в) рассчитать средние значения для каждой из выборок, используя функциюСРЗНАЧ;

г) определить расчетное значение критерия Фишера по (1.1);

д) задав уровень значимости α=0,05, определить критическое значение распределения Фишера, используя функцию FРАСПОБР(α; N1-1; N2-1);

е) для полученного критического значения Фишера определить уровень значимости, используя функцию FРАСП (рис. 1.5);

ж) определить число степеней свободы V по (1.6), используя функцию ЧСТРОК;

з) определить критериальное значение t-распределения по (1.5), используя функцию КОРЕНЬ;

и) рассчитать критическое значение распределения Стьюдента, используя функцию СТЬЮДРАСПОБР;

к) оценить полученные результаты (рис. 1.6).

  1. Решить задачу 3 с помощью специальных средств пакета Excel:

а) последовательно выбрать на панели меню Excel пункты «Сервис» ► «Анализ данных»;

б) в появившемся диалоговом окне «Анализ данных» выбрать пункт «Двухвыборочный t-тест с одинаковыми дисперсиями» (рис. 1.14);

Рисунок 1.14 – Диалоговое окно «Анализ данных»

в) в открывшемся окне «Двухвыборочный t-тест с одинаковыми дисперсиями» (рис. 1.15) в строке «Интервал переменной 1» задать диапазон ячеек первой выборки;

г) в строке «Интервал переменной 2» задать диапазон ячеек второй выборки;

д) в строке «Гипотетическая средняя разность» ввести значение 0;

е) активировать флажок «Метки»;

ж) в строке «Альфа» установить уровень значимости, равный 0,05;

Рисунок 1.15 – Диалоговое окно «Двухвыборочный t-тест с одинаковыми

дисперсиями»

з) задать выходной интервал, активировав радиокнопку «Выходной интервал» и нажать «ОК»;

и) оценить полученные результаты (рис. 1.16).

Рисунок 1.16 – Исходные данные и результат работы теста по проверке

равенства средних при различных дисперсиях

  1. Решить задачу 4 (приложение А):

а) заполнить «Лист 4» рабочей книги исходными данными, согласно своего варианта (табл. А.5).

б) проверить распределены ли выборки по нормальному закону с помощью функции NORMSAMP_1:

- Для этого необходимо выполнить команды «Файл» ► «Открыть». В открывшемся диалоговом окне «Открытие документа», в строке «Папка» выбрать папку «Студент».

- Выбрать файл Excel «Метод_Шеффе. xls». Перейти в свою рабочую книгу и вызвать мастер функций Excel .В открывшемся диалоговом окне «Мастер функций» выбрать функцию «Метод_Шеффе.xls!NORMSAMP_1» (рис. 1.17) и нажать «ОК».

Рисунок 1.17 – Диалоговое окно «Мастер функций»

- В появившемся диалоговом окне «Аргумент функции» в строку «R_1» ввести диапазон ячеек, содержащих выборку проверяемых значений и нажать «ОК». Повторить описанные действия для всех групп значений;

в) рассчитать критериальное значение t по (1.7);

г) рассчитать граничную вероятность, используя функцию СТЬЮДРАСП;

д) рассчитать критическое значение t-распределения, используя функцию СТЬЮДРАСПОБР, задав уровень α=0,05, а число степеней свободы V= n-2, где n – количество опытов;

е) оценить полученные результаты.

1.5 Содержание отчета

Отчет по лабораторной работе должен содержать: цель работы, исходные данные и результаты решения задач с оценкой полученных значений, выводы.

1.6 Контрольные вопросы и задания

1. Что понимается под статистической гипотезой? Дайте определения основной и альтернативной гипотез.

2. Перечислите основные этапы проверки гипотез.

3. В каких случаях применяются параметрические критерии?

4. Приведите пример проверки гипотезы о принадлежности двух дисперсий одной генеральной совокупности по критерию Фишера, используя программный продукт Microsoft Excel.

5. В каких случаях используются парный двухвыборочный t-тест для средних, двухвыборочные t-тесты с одинаковыми и различными дисперсиями?

6. Приведите пример проверки гипотезы о различии между средними двух нормальных распределений с известными дисперсиями, используя двухвыборочный z-тест для средних, с помощью программного продукта Microsoft Excel.