- •29. Понятие и виды документов
- •30.Традиционный/неформализованный анализ документов
- •31. Количественные методы анализа документов
- •32.Контент-анализ: понятие и виды
- •33.Процедуры контент-анализа
- •34. Ивент-анализ
- •35. Процедуры ивент-анализа.
- •36.Когнитивное картирование.
- •37. Когнитивное картирование
- •38. Интент-анализ
- •39. Процедуры интент-анализа
- •40.Дискурс-анализ
- •1.)Лингвистический анализ.
- •41. Статистический анализ в политологии.
- •42. Анализ одномерных распределений.
- •43. Анализ связи между двумя переменными
- •44. Изучение взаимосвязи между несколькими переменными
- •45.Статистика хи-квадрат (х2)
- •46. Корреляционный анализ
- •49. Процедуры множественного регрессионного анализа.
- •50. Факторный анализ
- •51. Процедура факторного анализа
- •52. Кластерный анализ
- •53.Процедуры кластерного анализа.
- •54.Сетевой анализ
- •55. Процедуры сетевого анализа
- •56. Политическая экспертиза: понятие и структура
- •57. Методы политической экспертизы
- •58. Мозговой штурм(брейнсторминг)
- •59. Swot
- •60. Методы качественного анализа в прикладном исследовании
52. Кластерный анализ
Кластерный анализ уже многие годы активно используется в политических исследованиях. С его помощью классифицируют граждан по политическим установкам, особенностям электорального поведения. Кластерный анализ — способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек.
До конца 1950-х годов для аналогичных целей использовали другие конструкции: распознавание образа без учителя, стратификацию, таксономию, автоматическую классификацию. Как научное направление кластерный анализ заявил о себе в середине 1960-х годов. Безусловными достоинствами кластерного анализа являются относительная простота используемых алгоритмов, ясность прочтения визуализированного материала в виде дендрограммы или по упорядоченной матрице расстояний, возможность контролируемого вмешательства в работу алгоритма и изменение параметров задания. Отличительная особенность кластерного анализа от других методов многомерного анализа — жесткая зависимость результатов расчетов от предварительных установок исследователя на содержательном уровне. Развитию данного вида анализа способствовали идеи немецкого биолога Ф. Гейнке, предложившего метод решения задачи группировки объектов по многим признакам. В 1913 г. польский антрополог К. Чекановский предложил идею «структурной классификации», которая содержала узловое понятие кластерного анализа (выделение компактных групп объектов), а также метод, трансформировавшийся позднее в алгоритм диагонализации матрицы связи.
В истории развития кластерного анализа легко прослеживаются три ключевые даты.
В конце 1950-х годов анализ был обращен к наиболее естественному пути нахождения образов: задавалось точное определение образа и отыскивалось скопление точек, обладающих соответствующими свойствами. В данном случае кластер можно определить как такое скопление точек, в котором среднее межточечное расстояние меньше среднего расстояния от данных точек до остальных. Таким образом, речь шла о процедуре прямой классификации.
В конце 1960-х годов набирает силу оптимизационное направление, стремившееся направить кластерный анализ в традиционное математическое русло (поиск алгоритмов); в современной литературе описывается более 70 алгоритмов, пригодных для анализа социальных явлений.
В середине 1970-х годов развивается аппроксимационное направление, требующее соблюдения следующего условия: отношения, заложенные в исходных данных, необходимо наилучшим образом аппроксимировать отношением, отвечающим нашему представлению о классификации; задача заключается в поиске эквивалентности, ближайшей к исходной толерантности.
Кластерный анализ строится на статистической однородности групп наблюдений. Основная цель этого вида анализа — выделение в исходных многомерных данных таких подмножеств, чтобы объекты внутри групп были в известном смысле похожи друг на друга, а объекты из разнородных групп отличались. «Похожесть» — близость объектов в многомерном пространстве признаков. Задача кластерного анализа — выделить в пространстве и визуализировать эти естественные скопления. Выделенные с помощью кластерного анализа изолированные группы объектов могут трактоваться как качественно различные. Если в пространстве группы значительно удалены друг от друга, то можно предположить, что в основе разделения лежит некоторый качественный, но скрытый признак, обусловливающий такое же четкое расслоение, как и наблюдаемая качественная переменная. Таким образом, задачей становится поиск данной переменной и ее интерпретация (в этом случае кластерный анализ весьма приближается к факторному).
Кластерный анализ и визуализация данных используются для двух видов исходных данных: матриц близости, или расстояний между объектами, и объектов, представленных как точки в многомерном пространстве. Вторые легко могут быть сведены к матрицам близости и расстояния, но не наоборот. Общую схему проведения кластерного анализа можно свести к следующим этапам:
выбор переменных/объектов для кластеризации;
выбор способа измерения расстояния между объектами;
формирование кластеров на основе одного из алгоритмов (в пакете SPSS чаще всего используют иерархическую кластеризацию, несколько реже — метод ^-средних) и проверка достоверности разбиения на классы; последняя осуществляется на основе оценки устойчивости группировки при проведении повторного кластерного анализа на идентичной выборке объектов и на основе оценки значимости разбиения по внешним критериям — тем признакам, которые не учитывались в анализе;
интерпретация результатов.
Основаниями для выделения различных типов кластерных алгоритмов могут быть:
характер отношения, который отыскивается как результат классификации: а) разбиение с непересекающимися классами (отношения эквивалентности). Все объекты внутри найденного класса считаются тождественными, а объекты разных классов — нет; б) разбиение с пересекающимися классами. Задается по-разному: введением степени принадлежности объекта к классу в духе теорий размытых множеств, определением вероятности принадлежности объекта к классу или просто перечнем объектов в зоне пересечения; в) иерархическое дерево: сложная система разбиений. Может быть заранее задано число искомых классов; г) отношение произвольной структуры;
степень участия человека в процедуре выделения кластеров: а) машинный способ. Аналитик задает параметры классификации, получает разбиение на классы как готовый результат; б) человек участвует в процессе разбиения. Программа выдает не собственно классификацию, а информацию (все виды визуализации связи, упорядочение матриц связи), на основании которой социолог принимает решение о разбиении объектов на группы;
характер априорных сведений (задаваемые в статистической программе параметры) для работы алгоритма: а) априорные сведения отсутствуют (свободная классификация). Идеален вариант, когда программа сама пытается обнаружить качественные отличия; б) задано число искомых классов; в) могут быть заданы пороговые значения величины близости объектов; г) заданы комбинированные сведения (число классов и пороги разных типов);
характер работы алгоритма классификации. В зависимости от порядка просмотра точек выделяют процедуры: а) зависящие от порядка просмотра точек (весьма серьезный недостаток, характерный для эталонных процедур); б) не зависящие от порядка просмотра точек (иерархические алгоритмы).
Различают неэталонные (исходные принципы классификации не задаются) и эталонные процедуры. Во втором случае задаются исходные зоны, поля, с помощью которых начинает работу алгоритм. Эталоны могут быть следующего вида: подмножество исходного множества (первоначальное разбиение на классы); отдельные объекты; отдельные зоны (точки) метрического пространства (центр тяжести класса). Кроме того, существует множество процедур кластеризации, работающих по другому принципу: иерархические алгоритмы, процедуры диагона- лизации, разрезание графов и т.д.