52. Кластерный анализ

Кластерный анализ уже многие годы активно используется в политических исследованиях. С его помощью классифицируют граждан по политическим установкам, особенностям электорального поведения. Кластерный анализ — способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек.

До конца 1950-х годов для аналогичных целей использовали другие конструкции: распознавание образа без учителя, стратификацию, таксономию, автоматическую классификацию. Как научное направление кластерный анализ заявил о себе в середине 1960-х годов. Безусловными достоинствами кластерного анализа являются относительная простота используемых алгоритмов, ясность прочтения визуализированного материала в виде дендрограммы или по упорядоченной матрице расстояний, возможность контролируемого вмешательства в работу алгоритма и изменение параметров задания. Отличительная особенность кластерного анализа от других методов многомерного анализа — жесткая зависимость результатов расчетов от предварительных установок исследователя на содержательном уровне. Развитию данного вида анализа способствовали идеи немецкого биолога Ф. Гейнке, предложившего метод решения задачи группировки объектов по многим признакам. В 1913 г. польский антрополог К. Чекановский предложил идею «структурной классификации», которая содержала узловое понятие кластерного анализа (выделение компактных групп объектов), а также метод, трансформировавшийся позднее в алгоритм диагонализации матрицы связи.

В истории развития кластерного анализа легко прослеживаются три ключевые даты.

В конце 1950-х годов анализ был обращен к наиболее естественному пути нахождения образов: задавалось точное определение образа и отыскивалось скопление точек, обладающих соответствующими свойствами. В данном случае кластер можно определить как такое скопление точек, в котором среднее межточечное расстояние меньше среднего расстояния от данных точек до остальных. Таким образом, речь шла о процедуре прямой классификации.
В конце 1960-х годов набирает силу оптимизационное направление, стремившееся направить кластерный анализ в традиционное математическое русло (поиск алгоритмов); в современной литературе описывается более 70 алгоритмов, пригодных для анализа социальных явлений.
В середине 1970-х годов развивается аппроксимационное направление, требующее соблюдения следующего условия: отношения, заложенные в исходных данных, необходимо наилучшим образом аппроксимировать отношением, отвечающим нашему представлению о классификации; задача заключается в поиске эквивалентности, ближайшей к исходной толерантности.
Кластерный анализ строится на статистической однородности групп наблюдений. Основная цель этого вида анализа — выделение в исходных многомерных данных таких подмножеств, чтобы объекты внутри групп были в известном смысле похожи друг на друга, а объекты из разнородных групп отличались. «Похожесть» — близость объектов в многомерном пространстве признаков. Задача кластерного анализа — выделить в пространстве и визуализировать эти естественные скопления. Выделенные с помощью кластерного анализа изолированные группы объектов могут трактоваться как качественно различные. Если в пространстве группы значительно удалены друг от друга, то можно предположить, что в основе разделения лежит некоторый качественный, но скрытый признак, обусловливающий такое же четкое расслоение, как и наблюдаемая качественная переменная. Таким образом, задачей становится поиск данной переменной и ее интерпретация (в этом случае кластерный анализ весьма приближается к факторному).

Кластерный анализ и визуализация данных используются для двух видов исходных данных: матриц близости, или расстояний между объектами, и объектов, представленных как точки в многомерном пространстве. Вторые легко могут быть сведены к матрицам близости и расстояния, но не наоборот. Общую схему проведения кластерного анализа можно свести к следующим этапам:

выбор переменных/объектов для кластеризации;
выбор способа измерения расстояния между объектами;
формирование кластеров на основе одного из алгоритмов (в пакете SPSS чаще всего используют иерархическую кластеризацию, несколько реже — метод ^-средних) и проверка достоверности разбиения на классы; последняя осуществляется на основе оценки устойчивости группировки при проведении повторного кластерного анализа на идентичной выборке объектов и на основе оценки значимости разбиения по внешним критериям — тем признакам, которые не учитывались в анализе;
интерпретация результатов.

Основаниями для выделения различных типов кластерных алгоритмов могут быть:

характер отношения, который отыскивается как результат классификации: а) разбиение с непересекающимися классами (отношения эквивалентности). Все объекты внутри найденного класса считаются тождественными, а объекты разных классов — нет; б) разбиение с пересекающимися классами. Задается по-разному: введением степени принадлежности объекта к классу в духе теорий размытых множеств, определением вероятности принадлежности объекта к классу или просто перечнем объектов в зоне пересечения; в) иерархическое дерево: сложная система разбиений. Может быть заранее задано число искомых классов; г) отношение произвольной структуры;
степень участия человека в процедуре выделения кластеров: а) машинный способ. Аналитик задает параметры классификации, получает разбиение на классы как готовый результат; б) человек участвует в процессе разбиения. Программа выдает не собственно классификацию, а информацию (все виды визуализации связи, упорядочение матриц связи), на основании которой социолог принимает решение о разбиении объектов на группы;
характер априорных сведений (задаваемые в статистической программе параметры) для работы алгоритма: а) априорные сведения отсутствуют (свободная классификация). Идеален вариант, когда программа сама пытается обнаружить качественные отличия; б) задано число искомых классов; в) могут быть заданы пороговые значения величины близости объектов; г) заданы комбинированные сведения (число классов и пороги разных типов);
характер работы алгоритма классификации. В зависимости от порядка просмотра точек выделяют процедуры: а) зависящие от порядка просмотра точек (весьма серьезный недостаток, характерный для эталонных процедур); б) не зависящие от порядка просмотра точек (иерархические алгоритмы).

Различают неэталонные (исходные принципы классификации не задаются) и эталонные процедуры. Во втором случае задаются исходные зоны, поля, с помощью которых начинает работу алгоритм. Эталоны могут быть следующего вида: подмножество исходного множества (первоначальное разбиение на классы); отдельные объекты; отдельные зоны (точки) метрического пространства (центр тяжести класса). Кроме того, существует множество процедур кластеризации, работающих по другому принципу: иерархические алгоритмы, процедуры диагона- лизации, разрезание графов и т.д.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 / 2216 17 18 19 20 21 22 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.08.201974.24 Кб15ответы по светотехнике.doc
#
17.04.201986.02 Кб28ответы по теплофизике.doc
#
13.02.201592.16 Кб10ответы по философии(только некоторые).doc
#
21.04.2019244.2 Кб11ответы по философии.docx
#
25.11.201991.12 Кб6ответы по этике.docx
#
13.02.20152.09 Mб119ответы Подшибякина часть 2.rtf
#
13.02.2015102.21 Кб83ответы политическая бюрократия.docx
#
03.09.2019229.23 Кб14ОТВЕТЫ ПРОШЛЫХ ЛЕТ 2!!!!.docx
#
03.09.2019261.56 Кб19ОТВЕТЫ ПРОШЛЫХ ЛЕТ!!!!.docx
#
13.02.201552.24 Кб41Ответы с 34 по Тарасовой.docx
#
13.02.2015116.74 Кб22Ответы СЗФ.doc