Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дискриминантный, кластерный и факторный анализ.DOC
Скачиваний:
7
Добавлен:
26.09.2019
Размер:
85.5 Кб
Скачать

2. Выполнение кластерного анализа.

Кластерный анализ используется, когда заранее неизвестно, существует ли разделение совокупности объектов, описываемых количественными признаками, на какие-либо классы.

При кластерном анализе вычисляются в пространстве признаков расстояния между объектами и близко расположенные друг к другу объекты группируются в кластеры. Если на каком-то этапе анализа образованным кластерам удается дать содержательную интерпретацию, по смыслу конкретной задачи понять, в чем состоит различие между объектами, включенными в разные кластеры, то задача может считаться решенной, то есть найдена новая классификация объектов.

Далее на основе найденной классификации можно выполнить дискриминантный анализ и получить возможность классифицировать новые объекты.

Существуют разные стратегии проведения кластеризации: объединяющая и разделяющая. В каждой стратегии можно использовать разные метрики многомерного пространства признаков, основанные на разных формулах вычисления расстояний между объектами. Следует пробовать применять к конкретной задаче разные стратегии, пока не будет найдено решение задачи, или ни одна из стратегий не даст удовлетворительного решения.

  • Введите исходные данные для кластерного анализа, записанные в файле. Для этого в меню "Файл" выберите команду "Ввести" или нажмите кнопку "Открыть". В окне "Чтение файла" найдите в списке в левой части окна файл с именем cla и откройте его двойным щелчком правой клавиши мыши. (В ответ на вопрос "Очистить электронную таблицу?" нажмите кнопку "Yes"). В таблице представлены 20 объектов, описанные значениями четырех признаков Х1, Х2, Х3, Х4.

  • С помощью меню «Статист» или клавишей F9 откройте окно «Статистические методы». Выберите в этом окне «Многомерные методы»-«Кластерный». В следующем окне нажмите кнопку [Все], чтобы включить в анализ все четыре переменные, затем нажмите кнопку [Утвердить].

  • В следующем окне "Исходные данные" нажмите кнопку [Переменные-объекты]

  • В следующем окне "Метрика вычисления расстояний" нажмите кнопку [Евклид]

  • В следующем окне выбирается стратегия кластеризации - для стратегии "Объединяющая" нажмите кнопку [Ближайшего соседа]. (В ответ на вопрос "Выводить таблицу расстояний?" нажмите кнопку "No").

  • Результаты расчета появляются на листе Rez, а также выводятся в виде графика, который называется дендрограммой. В окне "Посмотрите график" нажмите кнопку [Оставить]. Переключитесь на лист Gr2 с дендрограммой.

Интерпретация результатов расчета.

Дендрограмма наглядно иллюстрирует процесс кластеризации. По вертикальной оси графика откладываются расстояния между объектами, номера которых записаны вдоль горизонтальной оси. (Множитель Е1* означает, что все отсчеты по вертикальной оси надо умножать на 10). Например, объекты 2 и 14 расположены ближе всего друг к другу (расстояние между ними равно 1), поэтому эти два объекта в первую очередь объединяются в кластер. Далее к ним добавляются расположенные рядом (на расстоянии не более 6,5) объекты 8, 6 и 18, и т.д. Однако в целом выбранная стратегия дала неудовлетворительные результаты: пара объектов 16 и 19 не могут быть объединены ни с какой другой группой объектов, так как находятся от них на максимально большом расстоянии 25; то же самое можно сказать об стоящих особняком объектах 7 и 4. Более точно расстояния между объектами и их группами приведены в списке на листе Rez.

  • Попробуйте применить другую стратегию кластеризации. С помощью меню «Статист» или клавишей F9 откройте окно «Статистические методы». Выберите в этом окне «Многомерные методы»-«Кластерный». В следующем окне нажмите кнопку [Все], чтобы включить в анализ все четыре переменные, затем нажмите кнопку [Утвердить].

  • В следующем окне "Исходные данные" нажмите кнопку [Переменные-объекты]

  • В следующем окне "Метрика вычисления расстояний" нажмите кнопку [Манхэттен]

  • В следующем окне выбирается стратегия кластеризации - для стратегии "Объединяющая" нажмите кнопку [Уорда]. (В ответ на вопрос "Выводить таблицу расстояний?" нажмите кнопку "No").

  • Результаты расчета появляются на листе Rez, а также выводятся в виде графика, который называется дендрограммой. В окне "Посмотрите график" нажмите кнопку [Оставить]. Переключитесь на лист Gr3 с новой дендрограммой.

Зафиксируйте полученную дендрограмму в рабочих тетрадях.

Интерпретация результатов расчета.

Теперь выбранная стратегия позволяет четко разделить все объекты на два кластера: один кластер составляют объекты 16, 19,10, 12, 9, 20, все остальные объекты образуют второй кластер. Расстояния между объектами внутри этих кластеров не превышают 16, в то время как расстояние между самими кластерами равно 48.

Запишите расстояние между кластерами, а также номера объектов, включаемых в каждый из двух кластеров, в рабочие тетради.

Далее необходимо найти конкретный смысл двух найденных кластеров, но для этого надо иметь содержательное описание признаков Х1, Х2, Х3, Х4, а также, по возможности, и другую содержательную информацию об объектах, чтобы посмотреть, чем отличаются объекты, относящиеся к двум разным кластерам. Если такой смысл будет найден, то можно утверждать о существовании двух классов рассматриваемых объектов.

  • Проверьте результаты кластеризации, применив разделяющую стратегию. С помощью меню «Статист» или клавишей F9 откройте окно «Статистические методы». Выберите в этом окне «Многомерные методы»-«Кластерный». В следующем окне нажмите кнопку [Все], чтобы включить в анализ все четыре переменные, затем нажмите кнопку [Утвердить].

  • В следующем окне "Исходные данные" нажмите кнопку [Переменные-объекты]

  • В следующем окне "Метрика вычисления расстояний" нажмите кнопку [Манхэттен]

  • В следующем окне выбирается стратегия кластеризации - для разделяющей стратегии необходимо сразу указать число итоговых кластеров - введите в поле "Число кластеров" значение 2 и нажмите кнопку [динамических сгущений]. (В ответ на вопрос "Выводить таблицу расстояний?" нажмите кнопку "No").

  • В окне "График проекции кластеров" нажмите кнопку [Утвердить]. В окне "Посмотрите график" нажмите кнопку [Оставить].

  • В следующем окне "График проекции кластеров" нажмите кнопку [Отменить].

  • На листе Rez приведены результаты разделения объектов на 2 кластера и средние внутрикластерные расстояния. (Звездочкой помечены объекты, являющиеся центральными в кластере). Эти результаты совпадают с результатами, полученными в предыдущем методе.

  • Переключитесь на лист Gr4 с графиком проекций кластеров на оси координат первых двух признаков Х1 иХ2. Как видно из графика, кластеры достаточно хорошо разделены в пространстве признаков.

  • Переключитесь на лист Dat и введите в столбец Х4 номера классов объектов (1 или 2) в соответствии с найденным их разбиением на два кластера. Примените к полученной таблице дискриминантный анализ, определите, чему равны расстояние Махаланобиса и его значимость, а также вероятности правильной классификации объектов.