Скачиваний:
56
Добавлен:
01.05.2014
Размер:
6.31 Mб
Скачать

Двунаправленное объединение - Окно результатов

Кнопка Descriptive Statistics for Cases(Rows) выводит окно просмотра стандартных характеристик (математическое ожидание и среднее отклонение) для значений по каждой из переменных.

Кнопка Descriptive Statistics for Variables(Columns) выводит окно просмотра стандартных характеристик (математическое ожидание и среднее отклонение) для переменных (по столбцам).

Кнопка Render Data Matrix Нажатие ее приводит к появлению окна просмотра в матрицы всех данных, упорядоченной соответствии с результатами работы алгоритма. Напомним, что целью данного алгоритма является кластеризация одновременно и значений, и переменных, что означает переупорядочивание столбцов и строк матрицы с целью наибольшего сближения похожих точек.

Кнопка Two-way Joining Graph выводит графическое представление результатов анализа.

К внутригрупповых средних - Стартовая Панель

Кнопка Variables ее нажатие приводит к появлению стандартного окна выбора переменных. Выбранные переменные будут интерпретированы как размерности, если комбинированный список Cluster установлен в Cases, и будут интерпретированы как объекты, если Cluster установлен в Variables.

Комбинированный список Cluster позволяет выбрать кластеризацию переменных (Variables) или значений (Cases).

Поле редактирования Number of Clusters служит для задания желаемого числа кластеров, на которые алгоритм должен разделить исходные данные (см. Обзор методов кластеризации).

Поле редактирования Maximum number of Iterations задает максимальное количество итераций для алгоритма.

Комбинированный список Missing Data Deletion позволяет выбрать один из двух способов решения проблемы недостатка данных :

  • Casewise deletion of missing data - в этом случае объект будет исключен из анализа, если для него не хватает данных по какой-либо из компонент.

  • Substitution by Means - замена средними. При выборе данной опции недостающие поля данных будут замещены средними значениями по соответствующим размерностям. Усреднение проводится в зависимости от выбранного типа анализа, т.е. если кластеризуются значения, то среднее будет взято по ним, а если переменные, то усреднены будут данные по строкам (т.е. по остальным переменным).

К внутригрупповых средних - Панель Результатов

Кнопка Analysis of Variance предназначена для вывода результатов анализа характеристик случайных величин.

Кнопка Cluster Means & Distances , при нажатии на нее появляются два окна:

  • со средними значениями (центрами кластеров) по каждой из размерностей

  • с евклидовыми расстояниями между центрами кластеров (над диагональю) и их квадратами (под диагональю)

Кнопка Graph of Means выводит линейный график средних значений кластеров по всем переменным.

Кнопка Descriptive Statistics for each Cluster , нажатие на нее приводит появлению окон с описанием каждого кластера (математическое ожидание, СКО, СКОС).

Кнопка Members of Cluster & Distances отображает в отдельном окне для каждого кластера его содержимое (номера объектов и их удаление от центра кластера). Это позволяет нам легко обнаружить “плохие” объекты, слишком далеко отстоящие от центра своего кластера, но не настолько, чтобы быть отнесенными к другому кластеру.

Кнопка Save Classification & Distances позволяет пользователю сохранить на диске результаты кластеризации.

Панель результатов Объединения

Граф Результата

Результаты решения контрольного примера.

В качестве исходных данных были взяты результаты энцефалографического обследования 154 пациентов. Априорно, в зависимости от поставленного диагноза, все они были разделены на 4 группы. Номера соответствующих групп содержались в одном из столбцов исходных данных и использовались только для контроля результатов работы исследуемых алгоритмов.

Иерархическая группировка

Исследование иерархической группировки было проведено для всех типов правил связывания и всех мер расстояния. В результате было установлено, что наибольшее влияние на результат работы алгоритма оказывает выбор стратегии (правила связывания), а варьирование мер расстояния приводит в основном лишь к сдвигам дендрограммы по оси расстояний, не изменяя качественной картины в целом.

Большинство правил связывания не привели к получению сколько-нибудь удовлетворительных результатов. Так, например, при слабом связывании была получена достаточно четкая картина, но число кластеров составило 2 вместо 4 (см. Приложение Рис. 1). Стратегия сильного связывания, вопреки обычному, дала размытые кластеры, выделить среди которых нужные также не представилось возможным (см. Приложение Рис. 2). Дендрограммы, соответствующие экспериментам с остальными стратегиями связывания также приведены в Приложении.

Наилучшие результаты были достигнуты при использовании метода Ward’а. Независимо от выбора меры расстояния совершенно четко просматривались 4 кластера (см. Приложение Рис. 6). При сопоставлении результатов кластеризации с данными из контрольного столбца было выявлено хорошее взаимное соответствие:

Номер Кол-во эл-тов Кол-во правильно

кластера исходных получено идентифицированных эл-тов

1 37 37 36

2 49 42 42

3 35 46 33

4 33 29 28

О хорошем разделении данных кластеров можно также судить по графику расстояний связывания (см. Приложение Рис. 7).

Рассмотренный метод анализа данных может иметь большое практическое применение, т.к. позволяет в 68% случаев поставить диагноз с фактором уверенности 98% (диагнозы 1,2 и 4) и в оставшихся 32% случаев с уверенностью на 71% утверждать, что верен диагноз 3.

Двунаправленное объединение

Данный метод является достаточно сложным, т.к. осуществляется обработка не отдельных векторов, а всей совокупности данных. Это приводит к тому, что в нашем (относительно простом) случае метод становится неприменимым из-за нехватки памяти. Подобная ограниченность недопустима для большинства приложений, т.к. размерность реальных задач часто намного превышает рассматриваемый случай (154*5). Теоретические основы метода проработаны в литературе слабо, что затрудняет создание собственных систем на его основе.

К-внутригрупповых средних

Применение этого алгоритма позволило получить еще лучшие результаты, чем в иерархической группировке по Ward’у.

Номер Кол-во эл-тов Кол-во правильно

кластера исходных получено идентифицированных эл-тов

1 37 35 35

2 49 53 47

3 35 36 35

4 33 30 30

Теперь правильный (на 99%) диагноз можно поставить в 65% случаев, зато для остальных случаев фактор уверенности увеличивается до 88%.

Кроме заметно более высокой достоверности данный метод имеет еще одно весьма существенное преимущество: приблизительно в 6 раз меньшее время обработки данных, что позволяет снизить требования к применяемой аппаратуре. Вместе с этим, серьезным недостатком этого метода является потребность в априорной информации о количестве кластеров.

Соседние файлы в папке Разные полезные материалы