- •Биометрическая обработка данных на основе компьютерной программы statistica
- •Предисловие
- •Раздел 1. Характеристика программы statistica
- •Организация системы statistica
- •1.2. Статистические методы программы statistica
- •Раздел 2. Параметрические критерии
- •2.1. Описательная статистика Методы описательной статистики (Descriptive statistics) и характеристика статистических совокупностей
- •2.2. Статистические оценки генеральных параметров Оценка ошибок репрезентативности
- •Оценка ошибок репрезентативности
- •Показатель точности оценок
- •Оценка доверительного интервала средней арифметической –
- •Оценка доверительного интервала дисперсии –
- •2.3. Проверка нормальности эмпирического распределения Функции нормального распределения и методы оценки нормальности эмпирического распределения
- •Проверка нормальности эмпирического распределения
- •2.4. Параметрические критерии сравнения средних
- •Раздел 3. Непараметрические критерии
- •3.1. Сравнение независимых выборок
- •Сравнение зависимых групп
- •3.3. Сравнение номинальных (категориальных) переменных
- •Раздел 4. Корреляционный анализ
- •4.1. Параметрические показатели связи
- •4.2. Непараметрические показатели связи
- •Методика расчета коэффициент ранговой корреляции Спирмена ( )
- •Методика расчета коэффициента корреляции Спирмена ( )
- •4.3. Оценка связи между номинальными величинами
- •Раздел 5. Дисперсионный анализ
- •5.1. Однофакторный дисперсионный анализ
- •5.2. Двухфакторный дисперсионный анализ
- •Раздел 6. Регрессионный анализ
- •Раздел 7. Кластерный анализ
- •Раздел 8. Дискриминатный анализ
- •Оглавление
- •625003, Г. Тюмень, Семакова,10
Раздел 8. Дискриминатный анализ
Этот метод многомерной статистики служит для дискриминации, т.е различения (дифференциации) и диагностирования (распознавания) биологических объектов и явлений, различия между которыми не очевидны. Как и в кластерном анализе, рассматриваемые объекты могут быть охарактеризованы многими параметрами. Однако задачи дискриминантного анализа прямо противоположные: не выделить из множества объектов группы близких, а отнести тот или иной объект к определенной, априорно выделенной группе.
Возможности модуля Discriminant Analysis рассмотрим на примере определения пола у молодых пеночек-весничек. Визуально самцы и самки этого вида не различаются, а морфологические признаки (длина крыла, хвоста, цевки) у них сильно перекрываются. Это не позволяет с уверенностью определять пол весничек. Дискриминантный анализ позволяет решить подобную проблему.
Для запуска метода Дискриминантный анализ (Discriminant Analysis) в меню STATISTICA надо выбрать Multivfriate Exploratory Techniques (Многомерные исследовательские методы) и далее выбрать Discriminant Analysis. Откроется стартовая панель модуля дискриминантный анализ. Чтобы выбрать переменные для анализа, нужно нажать кнопку Variables. Появится окно, в котором необходимо выбрать группирующую переменную и зависимые переменные.
Результаты измерения пеночек-весничек
Самцы |
Самки |
||
Длина крыла, мм |
Длина хвоста, мм |
Длина крыла, мм |
Длина хвоста, мм |
65 |
50 |
59 |
44 |
61 |
47 |
59 |
46 |
64 |
48 |
54 |
45 |
63.5 |
51 |
57.5 |
43 |
63 |
47 |
61 |
46.5 |
62 |
46 |
60.5 |
46 |
63 |
48 |
57.5 |
45 |
63.5 |
48 |
58 |
44 |
62 |
47 |
60.5 |
45 |
64 |
46 |
60 |
45 |
Во вкладке Advanced открывшегося окна нужно выбрать метод дискриминантного анализа.
После выбора стандартного метода (Standart) дискриминантного анализа откроется окно результатов .
Информационная часть окна сообщает, что:
- Number of variables in model (число переменных в модели) равно 2;
- значение лямда Уилкса (Wilks Lambda) равно 0,31017; Wilks Lambda вычисляется как отношение детерминанта внутригрупповых дисперсий к детерминанту общей матрицы. Значения Wilks Lambda около нуля свидетельствуют о хорошей дискриминации, около 1, свидетельствуют о плохой дискриминации. Уровень значимости F-критерия меньше 0,05.
Результаты по переменным: в первом столбце приведены значения Wilks Lambda по переменным. Чем больше значение Wilks Lambda, тем желательнее присутствие этой переменной в процедуре дискриминации.
Значение Partial Lambda (частная лямда) является отношением лямбда Уилкса после добавления соответствующей переменной к лямбде Уилкса до добавления этой переменной. Чем меньше частная лямда, тем больше вклад переменной в общую дискриминацию. Длина крыла дает больший вклад в общую дискриминацию (частная лямда= 0,68).
F to remove (F-исключить) – это значения F-критерия, связанные с соответствующей частной лямбда Уилка. Значения Р-level – это уровни значимости критериев F- remove.
Толерантность = 1-R², чем меньше толерантность, тем меньше дополнительной информации, тем избыточнее переменная в модели.
Основа дискриминантного анализ – линейные функции (дискриминантные или классификационные функции), которые вычисляются для каждой группы и могут быть использованы для классификации наблюдений. Наблюдение приписывают той группе, для которой дискриминантная функция имеет наибольшее значение.
Дикриминантная функция для самцов (пример 1): Самцы (1)= 16,634
Длина крыла + 17,188 • Длина хвоста – 927,775.
Дикриминантная функция для самок (пример 1): Самки (2)= 15,121
Длина крыла + 16,298• Длина хвоста – 810,790.
Коэффициенты при переменных и свободные члены линейных функций находятся в разделе Функции классификации (Classification functions) во вкладке Классификация (окно результатов Discriminant Function Analysis) .
В рамке A priori classification probabilites (априорные вероятности классификации) приведены различные опции для классификации наблюдений по группам: Proportional to group sizes(пропорциональные размерам групп);Same for all groups (одинаковые для всех групп); User defined (заданные пользователем). Если есть предварительные сведения о возможном количественном соотношении наблюдений в группах, то желательно выбрать опцию User defined, если таких сведений нет и число наблюдений в группах примерно одинаково, то надо выбрать Same for all groups, в противном случае – Same for all groups.
В рамке Score to save for each case (сохранить для каждого наблюдения) приведены опции, при выборе которых можно сохранить тот или иной результат классификации: сохранить результаты классификации; сохранить расстояния; сохранить апостериорные вероятности.
Расстояние между группой самцов и самок оценивается на основе квадрата расстояния Махаланобиса (Результаты анализа дискриминантных функций)=8,006; F- статистика=18,9; Р=0,00.
Квадраты расстояний Махаланобиса до центров групп (самцы -G1; самки –G2) для каждого наблюдения. Меньшее из двух значений квадратов отклонений оценивает принадлежность к группе. Для наблюдения №15 значение квадрата отклонения от центра группы самцов=1,77; от центра группы самок =2,24(значения длины крыла и длины хвоста отклоняются от среднего значения самцов на меньшую величину). Апостериорная вероятность отнесения наблюдения №15 к группе самцов составляет 0,55; к группе самок – 0,44.
Наблюдение приписывается той группе, для которой имеется наибольшая апостериорная вероятность классификации.
На этом этапе удобно рассмотреть возможность классификации новых наблюдений. Для этого в таблицу исходных данных нужно добавить новое наблюдение: длина крыла 59, длина хвоста 47. Новое наблюдение с вероятностью 0,858 относится к группе самок. Расстояние нового наблюдения до центров групп минимально для группы самок=2,46. Для группы самцов составляет 6,07.
Задания для самостоятельной работы
Задание 1. В исследовании уток (чирок-свистунок) фиксировались их метрические данные и половая принадлежность: 1 - самец, 2 - самка. Последний признак у ряда особей не удалось определить (значение 0 в столбце пол). Найдите классифицирующую функцию, по которой можно было бы установить пол.
№ п\п |
Крыло |
Голова |
Клюв |
Лапы |
Вес |
Пол |
1. |
25,6 |
9,5 |
4,2 |
14,6 |
380 |
0 |
2. |
25,1 |
9,6 |
3,8 |
14,5 |
355 |
0 |
3. |
24,8 |
9,4 |
3,8 |
15 |
355 |
1 |
4. |
25,9 |
9,3 |
3,9 |
15,5 |
375 |
0 |
5. |
25,8 |
9,6 |
4,5 |
15,6 |
360 |
2 |
6. |
24,8 |
9,4 |
4,4 |
14,7 |
355 |
1 |
7. |
25,6 |
9,6 |
4,1 |
14,5 |
356 |
0 |
8. |
25,3 |
9,4 |
4,4 |
15,4 |
360 |
2 |
9. |
25,5 |
9,9 |
4 |
15,1 |
330 |
2 |
10. |
24,2 |
8,6 |
3,9 |
13,6 |
350 |
1 |
11. |
25 |
9,3 |
3,9 |
15,1 |
338 |
2 |
12. |
24,7 |
9,3 |
3,8 |
14,5 |
335 |
0 |
13. |
24,3 |
9,7 |
4 |
13,9 |
310 |
2 |
14. |
25,1 |
9,3 |
3,9 |
15,2 |
332 |
2 |
15. |
24,7 |
8,9 |
3,8 |
15,1 |
340 |
2 |
16. |
25,5 |
9,4 |
4,1 |
15,2 |
333 |
0 |
17. |
25,7 |
9,7 |
3,9 |
13,8 |
323 |
2 |
18. |
25,9 |
9,7 |
4 |
15,6 |
325 |
2 |
19. |
25,1 |
9,4 |
4,6 |
14,9 |
325 |
0 |
20. |
24,7 |
8,6 |
3,9 |
13,9 |
345 |
1 |
21. |
25,3 |
8,8 |
3,9 |
14,3 |
340 |
1 |
22. |
26,1 |
9,3 |
3,8 |
15 |
327 |
1 |
23. |
26 |
9,4 |
3,9 |
14,3 |
316 |
0 |
24. |
24,8 |
8,4 |
4 |
14,4 |
336 |
1 |
25. |
25,6 |
8,8 |
4,2 |
15 |
330 |
2 |
26. |
24,6 |
8,4 |
4 |
14,8 |
330 |
2 |
Задание 2. В исследовании куньих (куница и соболь) фиксировались их метрические данные: количество хвостовых позвонков (с), ширина барабанной камеры (Ш), длина барабанной камеры (Д), расстояние между барабанными камерами (Р), отношение ширины к длине камеры (Ш\Д), отношение расстояния между барабанными камерами к длине барабанной камеры (Р\Д) и принадлежность к подвиду: ТК- типичная куница, ТС- типичный соболь, АК – атипичная куница, АС – атипичный соболь. Последний признак у ряда особей не удалось определить (значение 0 в столбце подвид). Найдите классифицирующую функцию, по которой можно было бы установить подвид.
№ п/п |
с |
Ш |
Д |
Р |
Ш/Д |
Р/Д |
Подвид |
1. |
16 |
13,2 |
19,3 |
8,2 |
0,68 |
0,42 |
АК |
2. |
15 |
13,5 |
19,5 |
8,2 |
0,69 |
0,42 |
ТС |
3. |
16 |
12,8 |
20 |
9,5 |
0,64 |
0,48 |
АК |
4. |
13 |
13,8 |
18,8 |
7,4 |
0,73 |
0,39 |
АС |
5. |
15 |
14 |
19,9 |
9,5 |
0,70 |
0,49 |
ТС |
6. |
16 |
14,3 |
18,7 |
8,6 |
0,76 |
0,46 |
АК |
7. |
14 |
13,2 |
19,8 |
7,9 |
0,67 |
0,40 |
АС |
8. |
16 |
13,4 |
17,8 |
8,3 |
0,75 |
0,47 |
АК |
9. |
14 |
14,4 |
19,8 |
8,3 |
0,73 |
0,42 |
ТС |
10. |
15 |
14 |
18,1 |
9,5 |
0,77 |
0,52 |
0 |
11. |
14 |
13,5 |
18,7 |
9,3 |
0,72 |
0,50 |
0 |
Контрольные вопросы
1. Объясните применение в биологии дискриминантного анализа. 2.Определите разницу между кластерным и дискриминантным анализом. 3. Составьте план проведения дискриминантного анализа Ваших экспериментальных данных. 4. Объясните порядок составления дискриминантных (классификационных) уравнений.
СПИСОК УЧЕБНО-МЕТОДИЧЕСКОГО ОБЕСПЕЧЕНИЯ
Бейли Н. Математика в биологии и медицине. М.Мир, 1970. – 269 с.
Бетляева Ф.Х. Биометрическая обработка данных на основе программы STADIA. Самара, 2008, - 130 с.
Боровиков В.П. STATISTICA.Статистический анализ и обработка данных в среде Windows. М., 1997, - 608 с.
Боровиков В.П. Искусство анализа данных на компьютере. СПб. 2001,- 656 с.
Гашев С.Н. Статистический анализ для биологов. Тюмень: ТюмГУ, 1998,- 51 с.
Гашев С.Н., Беспоместных Г.Н. Математические и информационные методы в биологии. Тюмень: ТюмГУ, 2005,- 69 с.
Гельман В.Я. Медицинская информатика. СПб. 2002,- 480 с.
Кобзарь А.И. Современные методы в математике. М., 2006,-816 с.
Кулаичев А.П. Методы и средства комплексного анализа данных. М., 2006,-512 с.
Кулаичев А.П. Методы и средства анализа данных в среде Windows. М., 2002,-341 с.
Лакин Г.Ф. Биометрия. М., 1990,-352 с.
Петри А., Сэбин К. Наглядная статистика в медицине. М.:ГЭОТАР Media, 2003.-139 с.
Плохинский Н.А. Биометрия.М.: Изд-во МГУ,1970.- 366 с.
Пузаченко Ю.Г. Математические методы в экологических и географических исследованиях. М.:Академия,2004.- 416 с.
Селюков А.Г., Селюкова Г.П. Биологическая статистика. Тюмень: ТюмГУ,1994.- 24 с.
Селюков А.Г., Селюкова Г.П. Математические методы в биологии, ЭВМ и программирование. Тюмень: ТГУ, 1989. – 22 с.
Тюрин Ю.Н. Анализ данных на компьютере. М., 2003 ,- 544 с.
Фролов Ю.П.Математические методы в биологии. Самара,1996,-265 с.
Халафян А.А. STATISTICA 6. Статистический анализ данных.М.,2010,-528 с.
StatSoft.Inc. (2001) Электронный учебник по статистике. М.StatSoft.WEB: http://www.StatSoft.ru/home/textbook/default.htm