Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Биометрическая обработка данных на основе компь...doc
Скачиваний:
30
Добавлен:
11.11.2019
Размер:
1.7 Mб
Скачать

4.3. Оценка связи между номинальными величинами

При работе с номинальными (нечисловыми) величинами их взаимозависимость оценивают на основе использования метода кросстабуляции (cross – скрещивание, пересечение; tabulation – составление в таблицу). Этот метод проверяет гипотезу о независимости номинальных величин.

При определении связи между двумя качественными признаками, которые имеют по две градации, используются тетрахорические показатели.

Пример 1. При оценке у кур окраски оперения ног и тела установлено: 54 полосатых со светлой окраской оперения ног; 128 полосатых с аспидной окраской оперения ног; 186 со сплошной окраской оперения тела и светлой окраской оперения ног; 24 со сплошной окраской оперения тела аспидной окраской оперения ног. Необходимо определить уровень связи между окраской оперения ног и тела у кур.

При сравнении номинальных переменных двух выборок используются критерии группы 2 х 2: Chi-square, V-square, Phi-square, Fisher exact, Mcnemar- хи-квадрат Макнемара; Chi-square A\D, Chi-square B\C.

Результаты сравнения: Критерии группы 2 х 2: Chi-square=142,48 Р=0,00; V-square=142,12, Р=0,0;Vates corrected Chi-square =140,01 Р=0,0; Phi-square=0,36348; Mcnemar Chi-square (A\D=10,78 Р=0,0; Chi-square B\C=10,35 Р=0,0013).

Заключение. Все критерия сравнения имеют значение Р<0,05. Между окраской оперения ног и тела у кур существует высокодостоверная связь, равная 0,363. Куры, имеющих светлое оперение ног, чаще имеют сплошную окраску оперения тела.

Оценка зависимости между качественными признаками, имеющими больше двух градаций, проводится на основе методов раздела Кросстабуляция таблиц (в стартовой панели Basic Statistics/Tables, выбрать процедуру Таблицы сопряженности). При составлении спецификации таблицы программа запросит для анализа переменные, их коды. Значения сравниваемых переменных должны быть представлены в документе Таблица данных, программа STATISTICA сама производит преобразование. Критерием запуска этого преобразования является наличие в матрице данных двух переменных (если присутствует больше двух переменных, то таблица рассматривается как совокупность нескольких двухвходовых таблиц для последних двух переменных). Исходные парные переменные должны иметь целочисленные положительные значения, максимальное из которых не превосходит n (где n – число значений), минимальное должно превышать пять в противном случае операция по кросстабулированию будет прервана с ошибкой.

Пример 2. При оценке у людей цвета волос и глаз установлено: черных с карими глазами 23; черных с серыми глазами 75; черных с голубыми глазами 17; рыжих с карими глазами 8; рыжих с серыми глазами 25; рыжих с голубыми глазами 14; светлых с карими глазами 12; светлых с серыми глазами 95; светлых с голубыми глазами 177.

Нужно выяснить степень связи между цветом волос и глаз у людей.

Детали результатов определяются установками полей Statistics for two-way table и Compute tables на вкладке Options.

Установки Compute tables (подсчитать таблицы):

Highlight counts > (выделить частоты). Все частоты по строкам, которые превышают введенное значение (по умолчанию 10) будут выделены красным цветом.

Expected frequencies (ожидаемые частоты). Для всех двухвходовых таблиц будут вычислены ожидаемые частоты в предположении независимости всех факторов(переменных) в таблице.

Residual frequencies (остаточные частоты). Для всех двухвходовых таблиц и итоговой таблицы будут вычислены остаточные частоты – наблюдаемые частоты минус ожидаемые частоты.

Percentages of total count (проценты от общего числа). Программа вычислит проценты для каждой ячейки (минимальное число в отдельной ячейке должно не менее 5).

Percentages of row counts (проценты по строке). Программа определит проценты относительно общего количества наблюдений в соответствующей строке.

Percentages of column counts (проценты по столбцу). Программа определит проценты относительно общего количества наблюдений в соответствующем столбце.

Установки статистики для двухвходовых таблиц:

- критерий хи-квадрат Пирсона оценивает отклонения наблюдаемых частот от ожидаемых частот; основан на проверке гипотезы об отсутствии зависимости между переменными путем сравнения фактических и ожидаемых частот;

- максимум правдоподобия хи-квадрат – проверка гипотезы об отсутствии зависимости между переменными путем сравнения фактических и ожидаемых частот на основе метода максимального правдоподобия;

- поправка Йетса – уменьшение абсолютного значения разностей между наблюдаемыми и ожидаемыми частотами на 0,5 перед возведением в квадрат (так называемая поправка Йетса); поправка Йетса делает оценку более умеренной; применяется, когда таблицы содержат малые частоты; например, когда некоторые ожидаемые частоты становятся меньше 10;

- точный критерий Фишера вычисляет точную вероятность появления наблюдаемых частот при нулевой гипотезе;

- коэффициент Фи и Крамера V и C – показывает величину связи между переменными;

- коэффициент корреляции Спирмена;

- статистика тау Кендала b и с оценивает связь между переменными; различают два варианта статистики, различающихся способом обработки совпадающих рангов;

- коэффициент Соммера: d (X|Y) и d (Y|X) оценивает несимметричную меру связи между двумя переменными;

- гамма- статистика применяется при наличии много совпадающих значений;

- коэффициенты неопределенности S (X|Y) и S (Y|X) – оценивают информационную связь между факторами (строками и столбцами таблицы); измеряют количество информации в переменной У относительно переменной Х или в переменной Х относительно переменной У.

-критерий хи-квадрат Пирсона= 107,48, Р=0,00;

- максимум правдоподобия хи-квадрат =114,4, Р=0,00; - точный критерий Фишера =0,36;

- коэффициент сопряженности= 0,36;

- коэффициент Фи=0.39 и Крамера V и C =0,28;

- коэффициент корреляции Спирмена=0,36, t=10,0, Р=0,00;

- статистика тау Кендала b =0.32 и тау Кедала с 0.34;

- коэффициент Соммера: d (X|Y)=0.31 и d (Y|X)=0.34 – гамма- статистика=0.49 применяется при наличии много совпадающих значений;

- коэффициенты неопределенности S (X|Y)=0.085 и S (Y|X)=0.069.

Заключение. Связь между цветом волос и глаз у людей достоверная, не сильная.

Пример 3. В таблице19 дано количество пациентов с ишемической болезнью, которые выжили в течение трех лет и более после постановки диагноза. Частоты даны отдельно для четырех различных типов проявления внешних симптомов (ММ, СМ, МВ, СМ); для трех возрастных групп (меньше 50 лет; 50-69 лет; старше 69 лет); отдельно для трех диагностических центров (Т, Б, Г).

Для оценки связи между переменными выбирается Регистрационно-линейный анализ (Логлинейный анализ) в меню Дополнительные Линейные/Нелинейные модели. Чтобы программа понимала как организовать числа в таблице нужно выполнить функцию Задать таблицу. В диалоговом окне выбрать Частоты без кодов и в таблице спецификаций задать имя каждого фактора или выбрать Частоты с кодами и выбрать Переменную с частотой и Переменные с кодами.

При учете всех (четырех факторов: симптомы (1), место диагностики (2), возраст (3), исход (4)) и трехфакторных взаимодействий связь между переменными не значима (К=4, мак.Chi-square =9,01, P=0,7; Пирсон Chi-square =8,9, Р=0,7. К=3, мак.Chi-square =30,9, P=0,32; Пирсон Chi-square =31,2, Р=0,31). Двухфакторная модель является приемлемой для оценки взаимодействий между переменными (К=2, мак.Chi-square =134,4, P=0,0; Пирсон Chi-square =141,2, Р=0,0).

Таблица 19

Частота болезни с течение 3-х и более лет после постановки диагноза

Место

диагностики

Возраст

Исход болезни

(выжившие - да;

не выжившие -нет)

Симптомы

ММ

СМ

МВ

СВ

Т

<50

Нет

9

7

4

3

Т

<50

Да

26

68

25

9

Т

50-69

Нет

9

9

11

2

Т

50-69

Да

20

46

18

5

Т

>69

Нет

2

3

1

0

Т

>69

Да

1

6

5

1

В

<50

Нет

6

7

6

0

В

<50

Да

11

24

4

0

В

50-69

Нет

8

20

3

2

В

50-69

Да

18

58

10

3

В

>69

Нет

9

18

3

0

В

>69

Да

15

26

1

1

Г

<50

Нет

16

7

3

1

Г

<50

Да

16

20

8

1

Г

50-69

Нет

14

12

3

0

Г

50-69

Да

27

39

10

4

Г

>69

Нет

3

7

3

0

Г

>69

Да

12

11

4

1

Критерий частных связей (Part.Ass.,Chi-squ) определяет значимость соответствующих взаимодействий (указываемых цифрами в колонке Эффект) путем сравнения модели, включающей эти факторы с моделью без него. Критерий маргинальных связей (Marg.Ass.,Chi-squ) определяет значимость взаимодействий между моделью без каких-либо двухфакторных взаимодействий и моделью, которая включает взаимодействие учитываемых факторов (но не содержащих других двумерных взаимодействий). Например: взаимодействие 14 оценивает связь между симптомами и исходом болезни. При удалении его из модели со всеми другими двухфакторными взаимодействиями разность в значениях статистики частных и маргинальных связей значима (Part.Ass.,Chi-squ=10.17, Р=0,017; Part.Ass.,Chi-squ=9,4, Р=0,023).

Значимыми также являются взаимодействия: 12 (симптомы и место диагностики): Part.Ass.,Chi-squ=34,2, Р=0,00; Part.Ass.,Chi-squ=35,4, Р=0,00; 24 (место диагностики и исход болезни): .Ass.,Chi-squ=7,78, Р=0,00; Part.Ass.,Chi-squ=10,8, Р=0,00; 23 (место диагностики и возраст): Ass.,Chi-squ=66,8, Р=0,00; Part.Ass.,Chi-squ=72,2, Р=0,00.

Программа проводит оценку заданных взаимодействий; автоматический выбор лучшей величины взаимодействий.

Хи-квадрат максимального правдоподобия =31,744, Р=0,37.Хи-квадрат Пирсона=32,077, Р=0,36. Заданная модель (14,24,123) достаточна для объяснения частот в таблице18.

Лучшая модель 21,42,32,41. Хи-квадрат максимального правдоподобия =45,61, Р=0,5713.Хи-квадрат Пирсона=45,35, Р=0,5017. Заданная модель (21,42.32,41) эффективна для объяснения частот в таблице19.

Хи-квадрат максимального правдоподобия =45,611, Р=0,5719. Заданная модель (21,42,32,41) с более высокой точностью объясняет частоты в таблице19.

Заключение. Главными факторами, связанными с выздоровлением, были диагноз и положение центра, где была проведена диагностика.

Задания для самостоятельной работы

Задание 1. У двух видов домашних животных оценена частота заболеваемости бруцеллезом. Данные по устойчивости к заболеванию приведены по строкам. В числе разводимых животных имеются с разными типами конституции: грубый, нежный, плотный, рыхлый, крепкий. Распределение животных по типам конституции даны по столбцам.

Вид Грубый Нежный Плотный Рыхлый Крепкий

I 178 230 620 263 665

II 1 17 3 21 2

Оцените степень связанности этих признаков.

Задание 2. У двух видов домашних животных оценена устойчивость к лейкозу. Данные по устойчивости к заболеванию приведены по строкам. Среди животных имеются с разными типами конституции: грубый, нежный, плотный, рыхлый, крепкий. Распределение животных по типам конституции даны по столбцам.

Вид Грубый Нежный Плотный Рыхлый Крепкий

I 79 134 265 62 325

II 3 61 7 57 7

Оцените степень связанности этих признаков.

Контрольные вопросы

1. Какие задачи решает корреляционный анализ? 2.Что понимают под корреляцией? 3. Какие типы корреляций различают? 4. Как устанавливают тип корреляции? 5.Объясните, в каких случаях определяют параметрические показатели связи. 6. Объясните, в каких случаях определяют непараметрические показатели связи. 7.Объясните использование коэффициента детерминации в биологии. 8.Составьте план проведения корреляционного анализа Ваших экспериментальных данных.