Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Биометрическая обработка данных на основе компь...doc
Скачиваний:
29
Добавлен:
11.11.2019
Размер:
1.7 Mб
Скачать

Раздел 8. Дискриминатный анализ

Этот метод многомерной статистики служит для дискриминации, т.е различения (дифференциации) и диагностирования (распознавания) биологических объектов и явлений, различия между которыми не очевидны. Как и в кластерном анализе, рассматриваемые объекты могут быть охарактеризованы многими параметрами. Однако задачи дискриминантного анализа прямо противоположные: не выделить из множества объектов группы близких, а отнести тот или иной объект к определенной, априорно выделенной группе.

Возможности модуля Discriminant Analysis рассмотрим на примере определения пола у молодых пеночек-весничек. Визуально самцы и самки этого вида не различаются, а морфологические признаки (длина крыла, хвоста, цевки) у них сильно перекрываются. Это не позволяет с уверенностью определять пол весничек. Дискриминантный анализ позволяет решить подобную проблему.

Для запуска метода Дискриминантный анализ (Discriminant Analysis) в меню STATISTICA надо выбрать Multivfriate Exploratory Techniques (Многомерные исследовательские методы) и далее выбрать Discriminant Analysis. Откроется стартовая панель модуля дискриминантный анализ. Чтобы выбрать переменные для анализа, нужно нажать кнопку Variables. Появится окно, в котором необходимо выбрать группирующую переменную и зависимые переменные.

Результаты измерения пеночек-весничек

Самцы

Самки

Длина крыла, мм

Длина хвоста, мм

Длина крыла, мм

Длина хвоста, мм

65

50

59

44

61

47

59

46

64

48

54

45

63.5

51

57.5

43

63

47

61

46.5

62

46

60.5

46

63

48

57.5

45

63.5

48

58

44

62

47

60.5

45

64

46

60

45

Во вкладке Advanced открывшегося окна нужно выбрать метод дискриминантного анализа.

После выбора стандартного метода (Standart) дискриминантного анализа откроется окно результатов .

Информационная часть окна сообщает, что:

- Number of variables in model (число переменных в модели) равно 2;

- значение лямда Уилкса (Wilks Lambda) равно 0,31017; Wilks Lambda вычисляется как отношение детерминанта внутригрупповых дисперсий к детерминанту общей матрицы. Значения Wilks Lambda около нуля свидетельствуют о хорошей дискриминации, около 1, свидетельствуют о плохой дискриминации. Уровень значимости F-критерия меньше 0,05.

Результаты по переменным: в первом столбце приведены значения Wilks Lambda по переменным. Чем больше значение Wilks Lambda, тем желательнее присутствие этой переменной в процедуре дискриминации.

Значение Partial Lambda (частная лямда) является отношением лямбда Уилкса после добавления соответствующей переменной к лямбде Уилкса до добавления этой переменной. Чем меньше частная лямда, тем больше вклад переменной в общую дискриминацию. Длина крыла дает больший вклад в общую дискриминацию (частная лямда= 0,68).

F to remove (F-исключить) – это значения F-критерия, связанные с соответствующей частной лямбда Уилка. Значения Р-level – это уровни значимости критериев F- remove.

Толерантность = 1-R², чем меньше толерантность, тем меньше дополнительной информации, тем избыточнее переменная в модели.

Основа дискриминантного анализ – линейные функции (дискриминантные или классификационные функции), которые вычисляются для каждой группы и могут быть использованы для классификации наблюдений. Наблюдение приписывают той группе, для которой дискриминантная функция имеет наибольшее значение.

Дикриминантная функция для самцов (пример 1): Самцы (1)= 16,634

Длина крыла + 17,188 • Длина хвоста – 927,775.

Дикриминантная функция для самок (пример 1): Самки (2)= 15,121

Длина крыла + 16,298• Длина хвоста – 810,790.

Коэффициенты при переменных и свободные члены линейных функций находятся в разделе Функции классификации (Classification functions) во вкладке Классификация (окно результатов Discriminant Function Analysis) .

В рамке A priori classification probabilites (априорные вероятности классификации) приведены различные опции для классификации наблюдений по группам: Proportional to group sizes(пропорциональные размерам групп);Same for all groups (одинаковые для всех групп); User defined (заданные пользователем). Если есть предварительные сведения о возможном количественном соотношении наблюдений в группах, то желательно выбрать опцию User defined, если таких сведений нет и число наблюдений в группах примерно одинаково, то надо выбрать Same for all groups, в противном случае – Same for all groups.

В рамке Score to save for each case (сохранить для каждого наблюдения) приведены опции, при выборе которых можно сохранить тот или иной результат классификации: сохранить результаты классификации; сохранить расстояния; сохранить апостериорные вероятности.

Расстояние между группой самцов и самок оценивается на основе квадрата расстояния Махаланобиса (Результаты анализа дискриминантных функций)=8,006; F- статистика=18,9; Р=0,00.

Квадраты расстояний Махаланобиса до центров групп (самцы -G1; самки –G2) для каждого наблюдения. Меньшее из двух значений квадратов отклонений оценивает принадлежность к группе. Для наблюдения №15 значение квадрата отклонения от центра группы самцов=1,77; от центра группы самок =2,24(значения длины крыла и длины хвоста отклоняются от среднего значения самцов на меньшую величину). Апостериорная вероятность отнесения наблюдения №15 к группе самцов составляет 0,55; к группе самок – 0,44.

Наблюдение приписывается той группе, для которой имеется наибольшая апостериорная вероятность классификации.

На этом этапе удобно рассмотреть возможность классификации новых наблюдений. Для этого в таблицу исходных данных нужно добавить новое наблюдение: длина крыла 59, длина хвоста 47. Новое наблюдение с вероятностью 0,858 относится к группе самок. Расстояние нового наблюдения до центров групп минимально для группы самок=2,46. Для группы самцов составляет 6,07.

Задания для самостоятельной работы

Задание 1. В исследовании уток (чирок-свистунок) фиксировались их метрические данные и половая принадлежность: 1 - самец, 2 - самка. Последний признак у ряда особей не удалось определить (значение 0 в столбце пол). Найдите классифицирующую функцию, по которой можно было бы установить пол.

п\п

Крыло

Голова

Клюв

Лапы

Вес

Пол

1.

25,6

9,5

4,2

14,6

380

0

2.

25,1

9,6

3,8

14,5

355

0

3.

24,8

9,4

3,8

15

355

1

4.

25,9

9,3

3,9

15,5

375

0

5.

25,8

9,6

4,5

15,6

360

2

6.

24,8

9,4

4,4

14,7

355

1

7.

25,6

9,6

4,1

14,5

356

0

8.

25,3

9,4

4,4

15,4

360

2

9.

25,5

9,9

4

15,1

330

2

10.

24,2

8,6

3,9

13,6

350

1

11.

25

9,3

3,9

15,1

338

2

12.

24,7

9,3

3,8

14,5

335

0

13.

24,3

9,7

4

13,9

310

2

14.

25,1

9,3

3,9

15,2

332

2

15.

24,7

8,9

3,8

15,1

340

2

16.

25,5

9,4

4,1

15,2

333

0

17.

25,7

9,7

3,9

13,8

323

2

18.

25,9

9,7

4

15,6

325

2

19.

25,1

9,4

4,6

14,9

325

0

20.

24,7

8,6

3,9

13,9

345

1

21.

25,3

8,8

3,9

14,3

340

1

22.

26,1

9,3

3,8

15

327

1

23.

26

9,4

3,9

14,3

316

0

24.

24,8

8,4

4

14,4

336

1

25.

25,6

8,8

4,2

15

330

2

26.

24,6

8,4

4

14,8

330

2

Задание 2. В исследовании куньих (куница и соболь) фиксировались их метрические данные: количество хвостовых позвонков (с), ширина барабанной камеры (Ш), длина барабанной камеры (Д), расстояние между барабанными камерами (Р), отношение ширины к длине камеры (Ш\Д), отношение расстояния между барабанными камерами к длине барабанной камеры (Р\Д) и принадлежность к подвиду: ТК- типичная куница, ТС- типичный соболь, АК – атипичная куница, АС – атипичный соболь. Последний признак у ряда особей не удалось определить (значение 0 в столбце подвид). Найдите классифицирующую функцию, по которой можно было бы установить подвид.

№ п/п

с

Ш

Д

Р

Ш/Д

Р/Д

Подвид

1.

16

13,2

19,3

8,2

0,68

0,42

АК

2.

15

13,5

19,5

8,2

0,69

0,42

ТС

3.

16

12,8

20

9,5

0,64

0,48

АК

4.

13

13,8

18,8

7,4

0,73

0,39

АС

5.

15

14

19,9

9,5

0,70

0,49

ТС

6.

16

14,3

18,7

8,6

0,76

0,46

АК

7.

14

13,2

19,8

7,9

0,67

0,40

АС

8.

16

13,4

17,8

8,3

0,75

0,47

АК

9.

14

14,4

19,8

8,3

0,73

0,42

ТС

10.

15

14

18,1

9,5

0,77

0,52

0

11.

14

13,5

18,7

9,3

0,72

0,50

0

Контрольные вопросы

1. Объясните применение в биологии дискриминантного анализа. 2.Определите разницу между кластерным и дискриминантным анализом. 3. Составьте план проведения дискриминантного анализа Ваших экспериментальных данных. 4. Объясните порядок составления дискриминантных (классификационных) уравнений.

СПИСОК УЧЕБНО-МЕТОДИЧЕСКОГО ОБЕСПЕЧЕНИЯ

  1. Бейли Н. Математика в биологии и медицине. М.Мир, 1970. – 269 с.

  2. Бетляева Ф.Х. Биометрическая обработка данных на основе программы STADIA. Самара, 2008, - 130 с.

  3. Боровиков В.П. STATISTICA.Статистический анализ и обработка данных в среде Windows. М., 1997, - 608 с.

  4. Боровиков В.П. Искусство анализа данных на компьютере. СПб. 2001,- 656 с.

  5. Гашев С.Н. Статистический анализ для биологов. Тюмень: ТюмГУ, 1998,- 51 с.

  6. Гашев С.Н., Беспоместных Г.Н. Математические и информационные методы в биологии. Тюмень: ТюмГУ, 2005,- 69 с.

  7. Гельман В.Я. Медицинская информатика. СПб. 2002,- 480 с.

  8. Кобзарь А.И. Современные методы в математике. М., 2006,-816 с.

  9. Кулаичев А.П. Методы и средства комплексного анализа данных. М., 2006,-512 с.

  10. Кулаичев А.П. Методы и средства анализа данных в среде Windows. М., 2002,-341 с.

  11. Лакин Г.Ф. Биометрия. М., 1990,-352 с.

  12. Петри А., Сэбин К. Наглядная статистика в медицине. М.:ГЭОТАР Media, 2003.-139 с.

  13. Плохинский Н.А. Биометрия.М.: Изд-во МГУ,1970.- 366 с.

  14. Пузаченко Ю.Г. Математические методы в экологических и географических исследованиях. М.:Академия,2004.- 416 с.

  15. Селюков А.Г., Селюкова Г.П. Биологическая статистика. Тюмень: ТюмГУ,1994.- 24 с.

  16. Селюков А.Г., Селюкова Г.П. Математические методы в биологии, ЭВМ и программирование. Тюмень: ТГУ, 1989. – 22 с.

  17. Тюрин Ю.Н. Анализ данных на компьютере. М., 2003 ,- 544 с.

  18. Фролов Ю.П.Математические методы в биологии. Самара,1996,-265 с.

  19. Халафян А.А. STATISTICA 6. Статистический анализ данных.М.,2010,-528 с.

  20. StatSoft.Inc. (2001) Электронный учебник по статистике. М.StatSoft.WEB: http://www.StatSoft.ru/home/textbook/default.htm