Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответы Подшибякина часть 2.rtf
Скачиваний:
119
Добавлен:
13.02.2015
Размер:
2.09 Mб
Скачать

52. Кластерный анализ

Кластерный анализ уже многие годы активно используется в поли­тических исследованиях. С его помощью классифицируют граждан по политическим установкам, особенностям электорального поведения. Кластерный анализ — способ группировки много­мерных объектов, основанный на представлении результатов отдель­ных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек.

До конца 1950-х годов для аналогичных целей использовали другие конструкции: рас­познавание образа без учителя, стратификацию, таксономию, авто­матическую классификацию. Как научное направление кластерный анализ заявил о себе в середине 1960-х годов. Безусловными достоин­ствами кластерного анализа являются относительная простота исполь­зуемых алгоритмов, ясность прочтения визуализированного материала в виде дендрограммы или по упорядоченной матрице расстояний, воз­можность контролируемого вмешательства в работу алгоритма и изме­нение параметров задания. Отличительная особенность кластерного анализа от других методов многомерного анализа — жесткая зависи­мость результатов расчетов от предварительных установок исследова­теля на содержательном уровне. Развитию данного вида анализа спо­собствовали идеи немецкого биолога Ф. Гейнке, предложившего метод решения задачи группировки объектов по многим признакам. В 1913 г. польский антрополог К. Чекановский предложил идею «структурной классификации», которая содержала узловое понятие кластерного ана­лиза (выделение компактных групп объектов), а также метод, транс­формировавшийся позднее в алгоритм диагонализации матрицы связи.

В истории развития кластерного анализа легко прослеживаются три ключевые даты.

  1. В конце 1950-х годов анализ был обращен к наиболее естествен­ному пути нахождения образов: задавалось точное определение об­раза и отыскивалось скопление точек, обладающих соответствующи­ми свойствами. В данном случае кластер можно определить как такое скопление точек, в котором среднее межточечное расстояние меньше среднего расстояния от данных точек до остальных. Таким образом, речь шла о процедуре прямой классификации.

  2. В конце 1960-х годов набирает силу оптимизационное направ­ление, стремившееся направить кластерный анализ в традиционное математическое русло (поиск алгоритмов); в современной литературе описывается более 70 алгоритмов, пригодных для анализа социальных явлений.

  3. В середине 1970-х годов развивается аппроксимационное направ­ление, требующее соблюдения следующего условия: отношения, за­ложенные в исходных данных, необходимо наилучшим образом ап­проксимировать отношением, отвечающим нашему представлению о классификации; задача заключается в поиске эквивалентности, бли­жайшей к исходной толерантности.

  4. Кластерный анализ строится на статистической однородности групп наблюдений. Основная цель этого вида анализа — выделение в исходных многомерных данных таких подмножеств, чтобы объекты внутри групп были в известном смысле похожи друг на друга, а объек­ты из разнородных групп отличались. «Похожесть» — близость объек­тов в многомерном пространстве признаков. Задача кластерного ана­лиза — выделить в пространстве и визуализировать эти естественные скопления. Выделенные с помощью кластерного анализа изолирован­ные группы объектов могут трактоваться как качественно различные. Если в пространстве группы значительно удалены друг от друга, то можно предположить, что в основе разделения лежит некоторый ка­чественный, но скрытый признак, обусловливающий такое же четкое расслоение, как и наблюдаемая качественная переменная. Таким обра­зом, задачей становится поиск данной переменной и ее интерпретация (в этом случае кластерный анализ весьма приближается к факторному).

Кластерный анализ и визуализация данных используются для двух видов исходных данных: матриц близости, или расстояний между объ­ектами, и объектов, представленных как точки в многомерном простран­стве. Вторые легко могут быть сведены к матрицам близости и рассто­яния, но не наоборот. Общую схему проведения кластерного анализа можно свести к следующим этапам:

  • выбор переменных/объектов для кластеризации;

  • выбор способа измерения расстояния между объектами;

  • формирование кластеров на основе одного из алгоритмов (в па­кете SPSS чаще всего используют иерархическую кластериза­цию, несколько реже — метод ^-средних) и проверка достовер­ности разбиения на классы; последняя осуществляется на основе оценки устойчивости группировки при проведении повторного кластерного анализа на идентичной выборке объектов и на осно­ве оценки значимости разбиения по внешним критериям — тем признакам, которые не учитывались в анализе;

  • интерпретация результатов.

Основаниями для выделения различных типов кластерных алго­ритмов могут быть:

  1. характер отношения, который отыскивается как результат клас­сификации: а) разбиение с непересекающимися классами (отношения эквивалентности). Все объекты внутри найденного класса считают­ся тождественными, а объекты разных классов — нет; б) разбиение с пересекающимися классами. Задается по-разному: введением степени принадлежности объекта к классу в духе теорий размытых множеств, определением вероятности принадлежности объекта к классу или про­сто перечнем объектов в зоне пересечения; в) иерархическое дерево: сложная система разбиений. Может быть заранее задано число иско­мых классов; г) отношение произвольной структуры;

  2. степень участия человека в процедуре выделения кластеров: а) ма­шинный способ. Аналитик задает параметры классификации, получает разбиение на классы как готовый результат; б) человек участвует в про­цессе разбиения. Программа выдает не собственно классификацию, а информацию (все виды визуализации связи, упорядочение матриц свя­зи), на основании которой социолог принимает решение о разбиении объектов на группы;

  3. характер априорных сведений (задаваемые в статистической про­грамме параметры) для работы алгоритма: а) априорные сведения от­сутствуют (свободная классификация). Идеален вариант, когда про­грамма сама пытается обнаружить качественные отличия; б) задано число искомых классов; в) могут быть заданы пороговые значения величины близости объектов; г) заданы комбинированные сведения (число классов и пороги разных типов);

  4. характер работы алгоритма классификации. В зависимости от порядка просмотра точек выделяют процедуры: а) зависящие от по­рядка просмотра точек (весьма серьезный недостаток, характерный для эталонных процедур); б) не зависящие от порядка просмотра точек (иерархические алгоритмы).

Различают неэталонные (исходные принципы классификации не задаются) и эталонные процедуры. Во втором случае задаются исхо­дные зоны, поля, с помощью которых начинает работу алгоритм. Эта­лоны могут быть следующего вида: подмножество исходного множества (первоначальное разбиение на классы); отдельные объекты; отдельные зоны (точки) метрического пространства (центр тяжести класса). Кро­ме того, существует множество процедур кластеризации, работающих по другому принципу: иерархические алгоритмы, процедуры диагона- лизации, разрезание графов и т.д.