Скачиваний:
56
Добавлен:
01.05.2014
Размер:
6.31 Mб
Скачать

Кластерный анализ - Краткий обзор

Основная цель

Термин “Кластерный анализ” фактически охватывает ряд различных алгоритмов классификации. Общий вопрос, стоящий перед исследователями в фактически всех областях запроса - как организовать наблюдаемые данные в значимые структуры.

Например, биологам требуется выделить различные разновидности животных прежде, чем делать значимое описание различий между животными. Согласно современной классификации, используемой в биологии, человек принадлежит к приматам, млекопитающим, живородящим, позвоночным, и животным. Обратите внимание, что в этой классификации, чем выше уровень родства, тем менее подобными являются члены соответствующего классе. Человек имеет больше общего с другими приматами (например, обезьянами), чем с более "отдаленными" представителями млекопитающих (например, собаками), и т.д.

Статистическая оценка правдоподобия

Обратите внимание, что вышеупомянутые обсуждения относятся к алгоритмам кластеризации и ничего не говорят относительно статистической проверки значений. Фактически, кластерный анализ является не статистическим тестом, а совокупностью различных алгоритмов которые группируют объекты в кластеры.

Главное здесь - то, что, в отличие от многих других статистических процедур, методы кластерного анализа обычно используются, когда мы не имеем никаких априорных гипотез, но все еще находимся в исследовательской фазе нашей работы. В известном смысле, кластерный анализ находит "наиболее значимое из возможных решений". Следовательно, статистическая проверка гипотез действительно неприемлема в данном случае и даже в случаях, когда p-уровни известны (как в k-групповых средних).

Области применения

Методы кластеризации могут быть применены к широкому диапазону исследовательских проблем. Хартиган (1975) сделал превосходное объединение множества опубликованных исследований и изложил их результаты. Например, в области медицины, кластеризация болезней, методов лечения или симптомов болезней может привести к очень полезным результатам. В области психиатрии, точное определение кластеров симптомов паранойи, шизофрении, и т.д. является очень существенным для успешной терапии. В археологии, исследователи попытались установить принципы кластеризации каменных инструментов, погребальных предметов, и т.д., применяя технику кластерного анализа. В общем, всякий раз, когда требуется классифицировать "горы" информации в легко управляемые осмысленные группы, кластерный анализ является незаменимым инструментом.

Иерархическая группировка (Объединение) - Краткий обзор, Общая Логика

Примеры, данные в разделе Краткий обзор иллюстрируют цель объединения или иерархической группировки. Цель этого алгоритма - объединить вместе объекты (например, животных) в последовательно увеличивающиеся кластеры, используя некоторую меру подобия или расстояния. Типичный результат этого типа кластеризации - иерархическое дерево.

Иерархическое Дерево

Представьте график горизонтального иерархического дерева, в левой части графика в каждом кластере содержится по одному объекту. Теперь вообразите, что на каждом шаге, мы "ослабляем" наш критерий относительно существующих и не уникальных свойств объектов. Короче говоря, мы снижаем наш порог, от которого зависит объявить или нет несколько объектов членами одного кластера. В результате мы связываем вместе все больше и больше объектов и объединяем все большие и большие кластеры элементы, которых становятся все менее похожими друг на друга. На последнем шаге, все объекты объединяются вместе. На этих графиках, горизонтальная ось обозначает расстояние (на вертикальных графиках, вертикальная ось обозначает расстояние ).

Таким образом, для каждого узла в графе (означающего формирование очередного кластера) мы можем установить критическое расстояние, при котором соответствующие элементы были связаны вместе в один новый кластер. Когда данные имеют некую структуру (в понимании кластеров как группы схожих объектов), эта структура будет отражена в иерархическом дереве, в виде различных ветвей. Как результат анализа методом объединяющимся, мы можем выделить различные кластеры (ветви) и интерпретировать эти ветви в дальнейшем.

Соседние файлы в папке Разные полезные материалы