Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
готовые билеты по матстатистика к экзамену.doc
Скачиваний:
150
Добавлен:
13.05.2015
Размер:
1.22 Mб
Скачать

24. Кластерный анализ.

несмотря на загадочное название, кластерный анализ является всего лишь методом разбиения выборки на группы по каким-либо критериям. Синоним слова «кластер» - «тип».

Когда у нас есть только один показатель, к примеру, самооценка, то можно с лёгкостью выделить три типа людей: с низкой, средней и высокой самооценкой. Для этого не нужны сложные методы анализа, достаточно лишь среднего арифметического и стандартного отклонения.

Немного усложняется задача, когда показателя два. К примеру, самооценка и адекватность самооценки. Т.к. каждый показатель имеет три уровня (низкий, средний, высокий), то логично предположить, что типов людей будет 9:

Однако, мы можем поставить под сомнение то, что существуют люди со средней самооценкой и при этом неадекватной, поэтому аналитическое выделение 9-ти типов должно быть проверено на практике. Для этого можно использовать кластерный анализ.

А как быть, если показателей гораздо больше двух? Если классифицировать людей по двум признакам можно как стандартным методом, выявляя сочетания вручную, так и кластерным анализом, то классифицировать людей по большему количеству признаков уже намного труднее.

Чтобы облегчить задачу классификации людей по большому количеству признаков применяется кластерный анализ.

Пример кластерного анализа.

Мы будем классифицировать людей на основе шкал теста FPI. Для примера, попробуем классифицировать выборку из 45-ти человек. В конце процедуры мы узнаем какие существуют типы людей в данной выборке. Не исключено, что некоторые шкалы теста не различают людей, поэтому они будут удалены.

Первое, что нам нужно узнать - сколько типов в выборке целесообразно выделять. Для этого используем метод древовидной классификации.

Метод древовидной классификации – это пошаговый метод разбиения выборки на отдельные группы. Его принцип достаточно прост.

Шаг 1. Каждый человек признаётся единственным представителем своего кластера (типа). Количество типов равно объёму выборки.

Шаг 2. Находится несколько человек, которые наиболее похожи на первого. Теперь эти люди составляют один кластер. Количество кластеров уменьшается.

Шаг 3. Продолжаем искать кластеры, наиболее похожие друг на друга и объединять их. Теперь вся выборка разделена на некоторое количество групп, внутри которых люди очень схожи по своим характеристикам. Это продолжается, пока объединение не закончится и наступит последний шаг.

Шаг 4. Вся выборка объединяется в один кластер. Этот шаг не является информативным, так же как и первый шаг, но неизбежен в связи с процедурой.

Недостатки кластерного анализа:

Как и факторный анализ, он может давать неустойчивые кластеры. Повторите исследование на других людях и сравните результаты классификации. Скорее всего, они будут отличаться. На сколько – вопрос качества самого исследования.

Он реализует индуктивный метод исследования от частного к общему, что чревато антинаучными выводами. В идеале выборка для классификации должна быть очень большая, неоднородная, желательно подобранная методом стратификации или рандомизации. Наука движется по пути проверки гипотез, поэтому не нужно злоупотреблять кластерным анализом. Лучше всего использовать его для проверки гипотезы о наличии каких-либо типов, а не создавать классификацию на голом месте.

Как и любой метод многомерного шкалирования, кластерный анализ имеет множество особенностей, связанных с внутренними методами. Каков критерий объединения людей в кластеры, метод поиска различий, количество шагов до завершения алгоритма в методе к-средних и т.д. поэтому результаты могут меняться, хоть и несущественно, в зависимости от «настроек» процедуры.

Кластерный анализ (КА) строит систему классификации исследуемых объектов и переменных в виде дерева (дендрограммы) или осуществляет разбиение объектов на заданное число удаленных друг от друга классов.

Методы кластерного анализа можно расклассифицировать на:

-внутренние (признаки классификации равнозначны);

-внешние (существует один главный признак, остальные определяют его).

Внутренние методы в свою очередь можно разделить на:

-иерархические (процедура классификация имеет древовидную структуру);

-неиерархические.

Далее, иерархические подразделяются на:

-агломеративные (объединяющие);

-дивизивные (разъединяющие).

Необходимость в использовании методов кластерного анализа возникает в том случае, когда задано множество характеристик, по которым тестируется множество испытуемых; задача состоит в выделении классов (групп) испытуемых, близких по всему множеству характеристик (профилю). На первом этапе матрица смешения (оценки людей по различным характеристикам) преобразуется в матрицу расстояний. Для подсчета матрицы расстояния осуществляется подбор метрики, или метода вычисления расстояния между объектами в многомерном пространстве. Если объект описывается k признаками, то он может быть представлен как точка в k-мерном пространстве. Возможность измерения расстояний между объектами в k-мерном пространстве вводится через понятие метрики.