Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Биометрия.docx
Скачиваний:
190
Добавлен:
06.02.2015
Размер:
1.35 Mб
Скачать

Параметрические показатели связи

Коэффициент корреляции. Сопряженность между переменны­ми величинами Y и X можно установить, сопоставляя числовые значения одной из них с соответствующими значениями другой. Если при увеличении одной переменной увеличивается другая, это указывает на положительную связь между этими величина­ми, и, наоборот, когда увеличение одной переменной сопровож­дается уменьшением значений другой, это указывает на отрица­тельную связь. Подобную взаимосвязь устанавливают при нали­чии однозначных отношений между переменными У и X, когда речь идет о приращении или уменьшении функции по заданным значениям аргумента. Иная ситуация наблюдается в случае варьирующих признаков. Здесь приходится исследовать собст­венно не приращение или уменьшение функции, а сопряженную вариацию (ковариацию), выражая ее в виде взаимно связанных отклонений вариант отих средних

Ковариация () есть усредненная величина произведений отклонений каждой пары наблюдений от их сред­них, т. е.. Очевидно, что величина этого показателя будет в значительной мере зависеть от того, насколько часто в общем ряду произведениебу­дет иметь один знак — плюс или минус.В первом случае пары вариант должны отклоняться от своих средних в одном направ­лении (т. е.иилии. В другом случае, если, тоили наоборот. При этом преобладание вели­чин одного знака в принципе способствует большему абсолютно­му значению коэффициента ковариации, так как величины с раз­ными знаками в сумме дают меньшую абсолютную величину. Среднее значение всех произведений указывает, в какой мере большим (или меньшим) значениямсоответствуют большие (или меньшие) значения.

Недостаток коэффициента ковариации заключается в том, что этот коэффициент не учитывает случаи, когда коррелируемые признаки выражаются разными единицами измерения. Напри­мер, масса тела может коррелировать с его линейными размера­ми, длина колосьев — с массой содержащихся в них зерен и т. д. Недостаток, присущий ковариации, устраняется, если вместо отклоненийиспользовать их отношения к средним

квадратическим отклонениями. В результате получается показатель, который называют эмпирическим коэффициентом корреляции

Коэффициент корреляции можно вычислить, не прибегая к расчету среденихквадратических отклонений, что упрощает вы­числительную работу, по следующей аналогичной формуле:

Ё11


Коэффициент корреляции — отвлеченное число, лежащее в пределах от —1 до +1. При независимом варьировании призна­ков, когда связь между ними полностью отсутствует, г =0. Чем сильнее сопряженность между признаками, тем выше значение коэффициента корреляции. Следовательно, при | г | >0 этот по­казатель характеризует не только наличие, но и степень сопря­женности между признаками. При положительной или прямой связи, когда большим значениям одного признака соответствуют большие же значения другого, коэффициент корреляции имеет положительный знак и находится в пределах от 0 до +1, при отрицательной или обратной связи, когда большим значениям одного признака соответствуют меньшие значения другого, коэф­фициент корреляции сопровождается отрицательным знаком и находится в пределах от 0 до —1.

Коэффициент корреляции нашел широкое применение в практике, но он не является универсальным показателем корре­ляционных связей, так как способен характеризовать только ли­нейные связи, т. е. выражаемые уравнением линейной регрессии. При наличии нелинейной зависимости между варьирующими признаками применяют другие показатели связи,

о которых речь пойдет ниже.

Вычисление коэффициента корреляции. Это вычисление про­изводят разными способами и по-разному в зависимости от чис­ла наблюдений (объема выборки). Рассмотрим отдельно специ­фику вычисления коэффициента корреляции при наличии мало­численных выборок и выборок большого объема.

Малые выборки. При наличии малочисленных выборок коэффициент корреляции вычисляют непосредственно по значе­ниям сопряженных признаков, без предварительной группировки выборочных данных в вариационные ряды. Для этого служат при­веденные выше формулы (144) и (145). Более удобными, осо­бенно при наличии многозначных и дробных чисел, которыми выражаются отклонения вариант я,- и г/* от средних хну, слу­жат следующие рабочие формулы:

. МНОЖЕСТВЕННАЯ И ЧАСТНАЯ КОРРЕЛЯЦИЯ

Множественная корреляция. Наряду с анализом двумерных совокупностей в биологии широкое применение находит стати­стический анализ многомерных корреляционных связей. Про­стейшим случаем множественной корреляции является зависи­мость между тремя признаками: X, Y и Z. Тесноту связи одно­го из них (X) с двумя другими признаками (Y и Z) измеряют с помощью коэффициента множественной корреляции:

Где rху, rхг и rуг — коэффициенты линейной корреляции между парами признаков X и Y, X и Z, Y и Z.

Коэффициент множественной корреляции принимает значе­ния от нуля до единицы (0≤r≤l). Значимость этого совокуп­ного показателя корреляции оценивают по величине t-критерия Стьюдента с числом степеней свободы k=n—3 и принятым уровнем значимости.

Пример 18. Из снопа озимой ржи случайным способом было отобрано 10 колосьев. Затем измерили длину каждого колоса X, подсчитали число колосков Y и количество зерен Z в каж­дом колосе. Собранные данные и их первичная обработка при­ведены в табл. 115.

Чтобы определить коэффициент множественной корреляции между этими признаками, необходимо сначала рассчитать парные коэффициенты корреляции. Используя итоги табл. 115, на ходим суммы квадратов отклонений вариант отих средних арифметических, т. е. девиаты:

Таблица 115


Отсюда;

Затем рассчитываем величины сопряженной вариации:

Наконец, определяем парные коэффициенты корреляции:

Подставляем известные величины в формулу (172):

Критерий достоверности

;дляи_ (см. табл. V Приложе­

ний). Нулевая гипотеза отвергается на 1%-ном уровне значи­мости

Частная корреляция.Если известна связь между признаками X, У и Z, можно определить частные или парциальные коэффи­циенты корреляции, показывающие корреляционную зависи­мость между двумя варьирующими признаками при постоянной величине третьего признака. Для определения частного коэффи­циента корреляции между признаками XиУ при постоянной величине признака Z применяют формулу

Заключение знака Z в скобки обозначает, что влияние призна­ка Z на корреляцию между X и У исключено.

Соответственно формула для определения частного коэффи­циента корреляции между признаками X и Z при исключении влияния на эту связь признака У будет выглядеть так:

И наконец, частный коэффициент корреляции между признака­ми У и Z при постоянной величине признака X определяется по формуле

Тема № 5.Метод хи-квадрат

Цель– научиться применять критерий хи-квадрат.

Задачи. Функция χ2.Число степеней свободы.Уровень значимости.Проверка независимости.Проверка гипотезы о равновесии Харди—Вайнберга.

Краткое содержание.

Полезным методом, позволяющим судить о том, соответствуют ли ре­зультаты экспериментов той или иной гипотезе, является метод хи-квадрат 2). Функция χ2 определяется как

χ2=∑[(Н-О)2/О]

где Н-наблюдаемое значение, О-ожидаемое значение, а символ ∑ оз­начает суммирование по всем сериям экспериментов.

Рассмотрим эксперимент, в котором Мендель скрещивал высокие растения (ТТ) с низкими (tt).В поколении F, скрещиваются гетерози­готыTtх Tt.Согласно гипотезе Менделя, в поколении F2соотноше­ние высоких (ТТ и Tt)и низких (tt)растений должно быть 3 :1. Было получено 787 высоких и 277 низких растений. Расчет значений хи-ква­драт для этого эксперимента приведен в табл. П.1. В результате χ2= 0,59. Подтверждает ли это значение исходную гипотезу? Иными сло­вами, можно ли разность между теоретически ожидаемой и реально на­блюдаемой величинами отнести за счет случайности? Чтобы ответить на этот вопрос, мы должны познакомиться с двумя понятиями: число степеней свободы и уровень значимости (достоверности).

Число степеней свободы легко определить как число «классов», объемы которых должны быть известны, для того, чтобы подсчитать объемы всех классов исходя из общего объема выборки. В рассматри­ваемом примере число степеней свободы равно единице, так как если мы знаем объем одного класса (например, 787 высоких растений), то можем определить объем другого класса вычитанием объема первого класса из общего объема (1064 — 787 = 277). Вообще, в экспериментах

Таблица 1.П.1. Вычисление χ2 для эксперимента Менделя с высокими и низ­кими растениями гороха

Таблица 2.П.1. Значения χ2, соответствующие различ­ным уровням значимости и степеням свободы

Число степеней

Уровень значимости

свободы

0,05

0,01

0,001

1

3,84

6,64

10,83

2

5,99

9,21

13,82

3

7,82

11,34

16,27

4

9,49

13,28

18,47

5

11,07

15,09

20,52

6

12,59

16,81

22,46

7

14,07

18,48

24,32

8

15,51

20,09

26,13

9

16,92

21,67

27,88

10

18,31

23,21

29,59

такого типа число степеней свободы на единицу меньше числа классов, т. е. k 1, поскольку последний класс может быть подсчитан вычита­нием суммы всех остальных классов из их общего числа. (Ниже мы уви­дим, что в экспериментах другого типа число степеней свободы может отличаться от k — 1.)

Уровень значимости отражает риск того, что мы отвергнем истин­ную гипотезу. Различия между ожидаемыми и наблюдаемыми значе­ниями могут варьировать в силу случайных причин, но если вероят­ность того, что расхождение объясняется случайными причинами, очень мала, то гипотеза отвергается, хотя и не исключено, что она верна. Обычно в качестве уровня значимости выбирается значение 5%. Это оз­начает, что гипотезу решено считать не соответствующей наблюдениям, если вероятность того, что расхождение между теоретически ожидаемы­ми и наблюдаемыми в эксперименте данными, обусловленное только случайными причинами, составляет не более 5%. Значения χ2 для раз­личного числа степеней свободы и уровней значимости 5, 1 и 0,1% при­ведены в табл. П.2.

Возвратимся к вопросу о том, соответствуют ли данные эксперимен­та Менделя его гипотезе. Значение χ2 равно 0,59, степень свободы одна. Расхождение между теоретическими и экспериментальными значениями допустимо, поскольку оно меньше значения хи-квадрата для одной степени свободы и 5%-ного уровня значимости (последнее равно 3,84; см. табл. П.2). Следовательно, мы вправе утверждать, что данные экспе­римента согласуются с гипотезой Менделя и что различие между ожи­даемыми и наблюдаемыми значениями объясняются случайными причинами.

Таблица З.П.1. Вычисление χ2. Для гипотезы независимого расщепления двух локусов

мух наблюдалось следующее распределение:

Дикий тип 268

Короткие крылья 50

Яркие глаза 54

Короткие крылья и яркие глаза 28

Нам нужно определить, соответствуют ли эти результаты гипотезе о независимости расщепления локусов. Расчет хи-квадрат приведен в табл. П.З. Число степеней свободы равно k —1 = 3, поскольку, зная число мух трех типов и общее число мух, мы можем определить число мух четвертого типа. Для трех степеней свободы значение хи-квадрат на 95% уровне значимости равно 7,82 (табл. П.2). Следовательно, мы дол­жны отвергнуть гипотезу о независимом расщеплении. В данном случае мы должны были бы отвергнуть эту гипотезу даже на 99,9%-ном уровне значимости, поскольку на этом уровне при трех степенях свободы хи- квадрат равно 16,27.

Проверка независимости. Иногда желательно определить, зависят ли друг от друга результаты двух серий наблюдений над одними и теми же особями. Например, 256 пар близнецов классифицировались по двум признакам: монозиготность-дизиготность и конкордантность-дискордантность (в отношении бронхиальной астмы). Пара близнецов назы­вается конкордантной, когда оба близнеца страдают этим заболева­нием, и дискордантной, когда болен один из близнецов. Случаи, когда оба близнеца здоровы, из рассмотрения исключаются. Были получены следующие результаты:

В данном случае мы не располагаем никакой гипотезой, позволяющей нам рассчитать ожидаемые частоты для каждого класса, однако можно проверить, зависят ли друг от друга рассматриваемые признаки, с по­мощью следующей таблицы 2x2. Сначала составим таблицу наблю­даемых результатов:


Теперь мы можем рассчитать теоретически ожидаемые результаты для каждого из четырех классов, исходя из предположения, что тип близнецов и конкордантность - это независимые признаки. Для этого необходимо перемножить соответствующие значения в строке и столб­це «всего» и поделить полученное число на общую сумму. Например, теоретически ожидаемое число монозиготных конкордантных близне­цов равно (64 х 76)/256 = 19,00. Таблица теоретически ожидаемых значе­ний имеет вид


Значение χ2, рассчитанное так же, как и в предыдущем примере, рав­но 12,08. Хотя в данном случае имеются четыре класса, число степеней свободы тем не менее равно единице, а не трем. Это объясняется тем, что для определения всех четырех значений в таблице 2x2 нам доста­точно, кроме значений в графах «всего», знать хотя бы одно из четырех. Например, число монозиготных дискордантных близнецов равно 64 — 30 = 34 и т. п. Такие таблицы могут иметь любое число строк (г) и столбцов (с). При этом, разумеется, строка и столбец «всего» не учитываются. В общем случае число степеней свободы равно (г — 1)(с — 1).

Поскольку значение χ2 = 12,08 больше допустимого значения хи-квадрата для одной степени свободы и 5%-ного уровня значимости, мы приходим к заключению, что тип близнецов, с одной стороны, и конкордантность или дискордантность в отношении бронхиальной астмы-с другой, нельзя считать независимыми друг от друга. Отсут­ствие независимости, возможно, обусловлено существованием наслед­ственной составляющей в предрасположенности к бронхиальной астме.

Проверка гипотезы о равновесии Харди—Вайнберга. У людей имеют­ся два аллеля в локусе pGM. В выборке из 200 представителей белой расы обладатели различных генотипов распределились следующим образом:

Мы хотим установить, соответствуют ли эти данные частотам, которых следует ожидать, исходя из равновесия Харди—Вайберга. Сначала рас считаем частоту раллеляPGM:

Р=[(108х2)+86]/400=302/400=0,755

Теоретически ожидаемые частоты и численность генотипов составляют


Рассчитывая значение хи-квадрат, как и выше, получаем χ2 = 5,26. Каково число степеней свободы в этом случае? Оно равно единице, а не двум, как могло показаться по аналогии с рассмотренным выше слу­чаем менделевского расщепления. Дело в том, что по исходным данным мы рассчитывали, что частота аллеляр равна 0,755. Зная это значение и общий объем выборки, мы можем определить ожидаемые численно­сти двух генотипических классов, если знаем число особей в одном из этих трех классов.

Это позволяет сформулировать еще одно правило (аналогичное при­веденному выше) для определения числа степеней свободы: число сте­пеней свободы равно разности между числом классов и числом незави­симых величин, полученных на основе данных, использованных для расчета ожидаемых значений. В рассматриваемом выше случае менде­левского расщепления общее число растений было единственным значе­нием, полученным из исходных данных. Зная это значение и законы Менделя, мы можем рассчитать ожидаемое число растений каждого фе­нотипического класса. В случае проверки равновесия Харди—Вайнберга мы на основе исходных данных рассчитаем два значения: общее число людей в выборке и частоте аллеляр. Заметим, что величина χ2, равная 5,26, статистически достоверна при 5%-ном уровне значимости и одной степени свободы, но статистически не достоверна для двух степеней сво­боды. Если бы мы ошибочно предположили, что существуют две сте­пени свободы, то не отвергли бы гипотезу о соответствии частот ука­занных трех генотипов равновесию Харди—Вайнберга.

Предостережение. Метод хи-квадрат-это приблизительный метод, дающий хорошие результаты, только если общий объем выборки и тео­ретически ожидаемые численности в каждом классе достаточно велики; если же они малы, то данный метод неэффективен. Практически следует руководствоваться двумя правилами: 1) если имеется только одна сте­пень свободы, то ожидаемые значения численности для каждого класса должны быть не меньше пяти; 2) если число степеней свободы больше единицы, то ожидаемые значения численности в каждом классе должны быть не меньше единицы. Существуют, однако, приемы, которыми можно воспользоваться, когда эти условия не выполняются.

Если число степеней свободы равно единице, а численность одного из классов меньше пяти, то следует применять поправку Йетса. Она со­стоит в том, что, прежде чем вычислить значения хи-квадрат, каждую из разностей между наблюдаемыми и ожидаемыми значениями прибли­жают к нулю на 0,5 единицы. В табл. П.4 приведен расчет значения

Таблица 4.П.1. Вычисление χ2 с учетом и без учета поправки Йетса для ре­зультатов возвратного скрещивания между кроликами-альбиносами (саса) и кро­ликами, гетерозиготными по гену альбинизма (с+са)

хи-квадрат для результатов возвратного скрещивания между кролика­ми-альбиносами (саса) и кроликами дикого типа, гетерозиготными по гену альбинизма (с +а), без учета и с учетом поправки Йетса. Без учета поправки х2= 4, что означает статистическую достоверность при 5%-ном уровне значимости. С учетом поправки Йетса χ2= 3,06, что оз­начает отсутствие статистической достоверности. Таким образом, мы приходим к заключению, что результаты эксперимента соответствуют ожидаемым.

Если число степеней свободы больше единицы, но имеются классы, в которых ожидаемые значения меньше единицы, то можно объединить эти классы таким образом, чтобы значения во всех новых классах были не меньше единицы. При этом не следует забывать о том, что при опре­делении числа степеней свободы нужно использовать число новых (объединенных) классов. В табл. П.5 приводятся результаты исследова­ния, в котором определялись хромосомные перестройки в выборке из 50 личинок Drosophilapseudoobscura. Прежде всего мы подсчитываем частоты каждой последовательности генов в популяции.

Таблица 5.П.1. Вычисление χ2 с объединением и без объединения малочисленных классов при проверке равновесия Харди-Вайнберга

Ожидаемые частоты генотипов можно подсчитать путем разложения квадрата суммы + q + г)2, ожидаемые численности генотипических классов получают умножением общего числа особей в выборке (50) на ожидаемые частоты. Все это проделано в табл. П.5. Из исходных данных определяют три независимые величины: частоты р, q(г не является независимой величиной, а рассчитывается просто как разность г = I — p — q) и общее число особей. Поскольку имеется шесть классов, число степеней свободы равно 6 — 3 независимых значения = 3. Величи­на χ2 составляет 8,67, что статистически достоверно для 5%-ного уров­ня значимости и трех степеней свободы. В нижней части табл. П.5 два класса с минимальными ожидаемыми значениями объединены. Теперь мы имеем пять классов и, следовательно, 5 — 3 = 2 степени свободы. Новое значение χ2 равно 1,81, что означает отсутствие статистической достоверности на 5%-ном уровне значимости.

Тема № 6.Статистические гипотезы и их проверка

Цель–научиться применять t-критерий Стьюдента, F-критерий Фишера.

Задачи.Параметрические критерии. t-критерий Стьюдента (t-распределение).Оценка разности средних. Оценка средней разности между выборками с попарно связанными вариантами. Ошибка средней разности. Оценка разности между выборочной и генеральной долями.F-критерий Фишера (F-распределение).

Краткое содержание. Ниже будут обсуждаться сравнительные оценки генераль­ных параметров по разности, наблюдаемой между сравнивае­мыми выборками. Это важно, так как ни одно исследование не обходится без сравнений. Сравнивать приходится данные опы­та с контролем, урожайность одной культуры с урожайностью другой, продуктивность одной группы животных с продуктив­ностью другой и т. д.

О преимуществе той или иной из сравниваемых групп судят обычно по разности между средними долями и другими выбо­рочными показателями — величинами случайными, сопровожда­емыми ошибками репрезентативности.

Вопрос о достоверности выборочной разности с ее ошибкой приходится решать исходя из той или иной гипотезы, т. е. пред­положения или допущения относительно параметров сравнивае­мых групп, которое выражено в терминах вероятности и может быть проверено по выборочным характеристикам.

В области биометрии широкое применение получила так называемая нулевая гипотеза (Н0). Сущность ее сводится к предположению, что разница между генеральными параметра­ми сравниваемых групп равна нулю и что различия, наблюдае­мые между выборочными характеристиками, носят не систе­матический, а исключительно случайный характер. Так, если одна выборка извлечена из нормально распределяющейся сово­купности с параметрамии, а другая — из совокупности с параметрамии, то нулевая гипотеза исходит из того, чтои, т. е.и(отсюда и на­

звание гипотезы — нулевая).

Противоположная нулевой — альтернативная гипотеза (На) — исходит из предположения, чтои

Для проверки принятой гипотезы, а следовательно, и досто­верности оценки генеральных параметров по выборочным дан­ным используют величины, функции распределения которых известны. Эти величины, называемые критериями достоверно­сти, позволяют в каждом конкретном случае выявить, удовле­творяют ли выборочные показатели принятой гипотезе. Функ­ции распределения указанных величин табулированы, т. е. сведены в специальные таблицы, где содержатся значения функ­ции для разных чисел степеней свободы k или объема выбор­ки п и уровней значимости

Уровень значимости, или вероятность ошибки, допускаемой при оценке принятой гипотезы, может различаться. Обычно при проверке статистических гипотез принимают три уровня значимости: 5%-ный (вероятность ошибочной оценки Р = 0,05), 1%-ный (Р = 0,01) и 0,1%-ный (Р = 0,001). В биологических исследованиях часто считают достаточным 5%-ный уровень значимости. При этом нулевую гипотезу не отвергают, если в результате исследования окажется, что вероятность ошибочно­сти оценки относительно правильности принятой гипотезы пре­вышает 5%, т. е.Если жето принятую гипо­тезу следует отвергнуть на взятом уровне. Ошибка при этом возможна не более чем в 5% случаев, т. е. она малове­роятна.

При более ответственных исследованиях уровень значимости может быть уменьшен до 1 или даже до 0,1%. Трем упомяну­тым уровням значимостиотвечают (при нормальности рас­пределения используемого критерия) нормированные отклоне­ния ( t ): при(Р = 0.05) нормированное отклонение при(Р=0,01)—при('Р = 0,001)—I; и

соответственно пороги доверительной вероятности рав­ны P1 = 0,95, Р2 = 0,99 и Р3 = 0,999.

В области биометрии применяют два вида статистических критериев: Iпараметрические, построенные наосновании пара­метров данной совокупности (например,и) и представля­ющие функции этих параметров, и непараметрические, пред­ставляющие собой функции, зависящие непосредственно от ва­риант данной совокупности с их частотами. Первые служат для проверки гипотез о параметрах совокупностей, распределя­емых по нормальному закону, вторые — для проверки рабочих гипотез независимо от формы распределения совокупностей, из которых взяты сравниваемые выборки. Применение параметри­ческих критериев связано с необходимостью вычисления выбо­рочных характеристик — средней величины и показателей вари­ации, тогда как при использовании непараметрических крите­риев такая необходимость отпадает.

При нормальном распределении признака параметрические критерии обладают большей мощностью, чем непараметриче­ские критерии. Они способны более безошибочно отвергать нулевую гипотезу, если она не верна. Поэтому во всех случаях, когда сравниваемые выборки взяты из нормально распределяющихся совокупностей, следует отдавать предпочтение пара­метрическим критериям.

В случае очень больших отличий распределений признака от нормального вида следует применять непараметрические критерии, которые в этой ситуации оказываются часто более мощными. В ситуациях, когда варьирующие признаки выража­ются не числами, а условными знаками, применение непара­метрических критериев оказывается единственно возможным.

Из параметрических критериев в биометрии применяют t-критерий Стьюдента и F-критерий Фишера. Первый исполь­зуют для сравнительной оценки средних величин, второй — для оценки дисперсий. Ниже рассмотрен отдельно каждый из этих критериев.