Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3 часть SPSS.docx
Скачиваний:
4
Добавлен:
17.04.2019
Размер:
40.94 Кб
Скачать

12. Назначение содержание и возможности кластерного анализа

Кластерный анализ (КА) – методика, используемая для выявления групп объектов или людей, а также переменных, которые могут показывать относительное отличие от других групп (объектов или людей), переменных в совокупности данных. В результате кластерного анализа на основе предварительно заданных переменных формируются группы случаев (респондентов). Члены одной группы (кластера) должны обладать схожими проявлениями значений переменных, а члены разных групп – различающимися. После получения удовлетворительного кластерного решения изучаются характеристики людей внутри каждой группы.

Мы проводим кластерный анализ, так как нам надо разбить выборку респондентов на группы (кластеры), чтобы внутри групп собрались респонденты, сходные своими характеристиками, а непохожие респонденты попали в разные группы. Кластерный анализ предназначен для ситуаций, когда классы респондентов нам неизвестны, а мы хотим как раз открыть их. Более точно, кластерный анализ – это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям.

Кластерный анализ чаще всего используется как разведочный метод анализа данных, направленный на выявление областей концентраций в данных. Его реализация позволяет в дальнейшем предлагать заказчику полезные способы группировки электората, потребителей. В основе кластерного анализа лежит простая концепция распределения наблюдаемых данных по однородным группам в зависимости от их сходства (близости) друг с другом. Базисным критерием для выявления естественных группировок является расстояние между объектами. Иначе говоря, объекты, расположенные близко друг к другу, должны попасть в один и тот же кластер, в то время как достаточно далекие объекты должны быть в разных кластерных группах. В идеале объекты внутри кластера должны быть относительно однородными, но отличными от объектов из других кластеров.

Напомним, что кластерный анализ считается разведочным методом. Поэтому вряд ли можно ожидать от него единственного и определенного решения. КА является одним из полезных способов группировки данных. Разные методы кластеризации дают разные решения. Задача исследователя выбрать оптимальное решение для конкретной проблемы. Исследователь также может изменять и число кластеров (метод к- средних).

Итак, главная цель кластерного анализа - определить естественно возникающие группы в данных на основе их схожести.

Иерархические методы КА различаются по способам оценки расстояния между кластерами (их близости) при формировании кластеров. В зависимости от того, что берется за расстояние между объектами, выделяют различные методы. Метод «центроида», если это расстояние между центрами тяжести кластеров. Метод «ближайших соседей», если исследователь предполагает, что это кратчайшее возможное попарное расстояние между точками из разных кластеров, и наоборот метод «самого далекого соседа» если выбирается наибольшее попарное расстояние между точками. Если же имеется предпочтение включать в вычисление расстояние все объекты из кластера то используется метод межгруппового среднего связывания. Существуют и более специфические методы. Метод Варда построен на основе комбинации тех кластеров, которые приводят к наименьшим внутрикластерным суммам квадратов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]