Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационные технологии. Учебное пособие.doc
Скачиваний:
38
Добавлен:
24.04.2019
Размер:
2.58 Mб
Скачать

53.2Алгоритм кластерного анализа

Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп, "сгустков" наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности.

Выбор конкретного метода кластерного анализа зависит от цели классификации.

Кластерный анализ используется при исследовании структуры каких–либо совокупностей.

От матрицы исходных данных

(16.5)

переходят к матрице нормированных значений Z с элементами:

, (16.6)

где:

j = 1, 2, 3, 4 – номер показателя, i = 1,2,..., n – номер наблюдения;

; (16.7)

(16.8)

В качестве расстояния между двумя наблюдениями zi и zν используется "взвешенное" евклидово расстояние, определяемое по формуле:

(16.9)

Полученные значения удобно представить в виде матрицы расстояний:

, (16.10)

Так как матрица R симметрическая, т.е. , то достаточно ограничиться записью наддиагональных элементов матрицы.

Используя матрицу расстояний, можно реализовать агломеративную иерархическую процедуру кластерного анализа. Расстояния между кластерами определяют по принципу «ближайшего соседа» или «дальнего соседа». В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором – между наиболее удаленными друг от друга.

Принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга.

На первом шаге алгоритма каждое наблюдение zi (i = 1, 2,..., n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и вновь строится матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.

Вопросы для самоконтроля

  1. В чем принципиальное отличие между дискриминантным и кластерным анализами при отнесении признака к какому-то либо существующему или вновь образующемуся классу?

  2. По каким критериям можно выбирать оптимальный способ классификации признака при дискриминантном анализе?

  3. Чем отличаются рандомизированные и нерандомизированные решающие правила при дискриминантном анализе?

  4. В чем разница между двумя общими методами дискриминантного анализа: стандартного и пошагового?

  5. При каком количестве обучающих выборок дискриминантный анализ может дать достаточно достоверную оценку разделения признаков?

  6. Что может служить мерой сходства между объектами в кластерном анализе?

  7. Чем отличаются методы одиночной, средней и полной связей в кластерном анализе?

  8. Какое количество кластеров закладывается на первом этапе классификации n объектов?

Литература

ОСНОВНАЯ

  1. Лакин, Г.Ф. Биометрия / Г.Ф. Лакин - М.: «Высшая школа», 1990. – 142 с.

  2. Плохинский, Н.А. Биометрия / Н.А. Плохинский - М.: «МГУ», 1970. – 368 с.

  3. Свалов, Н.Н. Вариационная статистика / Н.Н. Свалов - М.: «Лесная промышленность», 1977. – 177 с.

  4. Рокитский, П.Ф. Биологическая статистика: изд. 3 испр. / П.Ф. Рокитский - Минск: «Вышейшая школа», 1973. – 320 с.

  5. Жученко, Ю.М. Статистическая обработка информации с применением персональных компьютеров: практическое руководство для студентов 5 курса / Ю.М Жученко – Гомель: УО ГГУ им. Ф. Скорины, 2007.– 101 с.

  6. Зайцев Г.Н. Математическая статистика в экспериментальной ботанике / Г.Н. Зайцев - М.: «Наука», 1984. – 424 с.

ДОПОЛНИТЕЛЬНАЯ

  1. Мюллер, П. Таблицы по математической статистике / П. Мюллер [и др.] - М.: «Финансы и статистика», 1982. – 64 с.

  2. Павловский, З. Введение в математическую статистику / З. Павловский - М.: «Статистика», 1967. – 285 с.

  3. Карасев, А.И. Теория вероятностей и математическая статистика / А.И. Карасев - М.: «Статистика», 1979. – 279 с.

  4. Бейли, Н. Математика в биологии и медицине / Н. Бейли - М.: «Мир», 1970. – 167 с.

  5. Урбах, В.Ю. Статистический анализ в биологических и медицинских исследованиях / В.Ю. Урбах - М.: «Медицина», 1975. – 321 с.

  6. Боровиков, В.П. Популярное введение в программу STATISTICA / В.П. Боровиков - М.: «КомпьютерПресс», 1998. – 69 с.

  7. Лапач, С.Н. Статистические методы в медико-биологических исследованиях с использованием Excel / С.Н. Лапач [и др.] - К.: «МОРИОН», 2000. – 196 с.

  8. Реброва, О.Ю. Статистический анализ медицинских данных: применение пакета прикладных программ STATISTICA / Реброва О.Ю. - М.: «МедиаСфера», 2002. – 84 с.