4. Перечень рекомендуемой литературы:
Многомерный статистический анализ в социально-экономических исследованиях. – М.: Наука, 1974.
Портер М. Международная конкуренция: Пер. с англ. - М. , Международные отношения.- 1993.-896c.
Портер М. Конкуренция: Пер. с англ. – М.: «Вильямс», 2000. – 495с.
Сокал Р.Р. Кластер-анализ и классификация: предпосылки и основные направления // В кн. Классификация и кластер. – М.: Наука, 1980. – С.7-19.
Крускал Дж. Многомерное шкалирование и кластер-анализ. // В кн. Классификация и кластеры. – М.: Наука, 1980. – С.22-41.
Хартинган Дж.А. Задачи, связанные с функциями распределения в кластер-анализе. // В кн. Классификация и кластеры. – М.: Наука, 1980. – С.42-65.
Митропольский А.К. Техника статистических вычислений - М., Наука.- 1971.-576c.
5. Основные положения кластерного анализа и алгоритм его реализации
Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из этих объектов групп, “сгустков” наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности.
Выбор конкретного метода кластерного анализа зависит от цели классификации и в настоящее время весьма разнообразен, затрагивая целые математико-статистические разделы, начиная от традиционного – исследования операций и заканчивая, к примеру, многомерным шкалированием.
Кластерный анализ используется при исследовании структуры совокупностей менеджерских, социально-экономических, маркетинговых, коммерческих показателей или объектов: предприятий, фирм, корпораций, регионов, территорий, социологических анкет, коллективов, популяций и сообществ и т.д.
От матрицы исходных данных
переходим к матрице нормированных значений с элементами
где - номер показателя (столбцы), номер наблюдателя (строки);
; .
В качестве «расстояния» между наблюдениями и используют (чаще всего, и даже, в основном) «взвешенное» евклидовое расстояние, определяемое по формуле
, где - вес показателя; .
Если для всех , то получаем обычное евклидовое расстояние
,
Полученные расчетом для каждой ячейке значения удобно представить в виде матрицы расстояний
; .
Так как матрица симметрическая, т.е. , то достаточно ограничиться записью наддиагональных элементов матрицы.
Используя матрицу расстояний, можно реализовать подобную иерархическую «цементирующую» процедуру кластерного анализа. Расстояния между кластерами определяют по принципу «ближнего соседа» или «дальнего соседа». В первом случае за расстояние между ближайшими элементами этих кластеров, а во втором – между удаленными друг от друга.
Принцип работы иерархических «цементирующих» процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга.
На каждом шаге алгоритма каждое наблюдение ( ) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и вновь строится матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.
Например, получена матрица расстояний [3, с. 86-87]
Поскольку между кластерами 1 и 5 имеется минимальное расстояние, оцениваемое в 1, то объединению подлежат кластеры (1) и (5), т.е. по минимальным расстояниям объединяются и строки (1) и (5) и одновременно столбцы (1) и (5). В результате образуется также симметричный кластер, но уже размером , но с объединенными по минимальным расстояниям строками и столбцами (1) и (5), т.е.
Из полученного кластера выявляется минимальное “расстояние”, равное 2, которое имеет место между кластерами 3 и 5, подлежат дальнейшему объединению по “минимальным” расстояниям (фактические по счету строки и столбцы 3 и 4). Получаем кластер размером :
Анализ полученного кластера показывает, что минимальным «расстоянием» является расстояние 3, которое предполагает объединению кластеров (строк и столбцов), обозначенных нами как (1+5) и (3+4), т.е. объединению фактически по минимальным «расстояниям» подлежат строки и одновременно столбцы 1 и 3. Объединяя столбцы 1 и 3, не трудно определить содержание первой строки в виде
, что и соответствует содержанию первого столбца (в силу симметричности матрицы евклидового расстояния). Поэтому последняя матрица, объединяющая кластеры (1+5)+(1+4), позволяет выделить минимальное расстояние .
В результате итеративных процедур объединения кластеров получаем:
Результаты итеративных процедур объединения строк и столбцов кластеров позволяет построить дендрограмму взаимодействия с учетом минимальных, а главное относительно пропорциональных условных «расстояний».
1
2 3
4 5
Дендрограмма, характеризующая кластер условных «расстояний» примера, объединенного по выявленным ( ) минимально возможным «расстояниям».