Скачиваний:
56
Добавлен:
01.05.2014
Размер:
6.31 Mб
Скачать

Двунаправленное объединение

В предыдущем параграфе обсуждается , что же кластеризовать значения или переменные, можно задаться вопросом, почему бы не кластеризовать одновременно и те и другие? Модуль кластерного анализа содержит двунаправленную процедуру объединения, предназначенную именно для этого. Двунаправленное объединение полезно в тех (относительно редких) случаях, когда предполагается, что и значения и переменные будет одновременно способствовать выявлению наиболее полной модели деления на кластеры. Например, возвращаясь к примеру, данному выше, медицинский исследователь может пожелать идентифицировать кластеры пациентов, которые похожи в отношении к конкретным кластерам параметров физического состояния. Трудность в интерпретации этих результатов может возникнуть из того, что сходство между различными кластерами может быть вызвано несколько различными наборами переменных. Таким образом, возникающие в результате структуры (кластеры) являются по своей природе неоднородными. Это, на первый взгляд, может показаться неудачным, и действительно, в сравнении с другими рассмотренными методами кластеризации, двунаправленное объединение является наименее часто используема. Однако, некоторые исследователи полагают, что этот метод дает мощный инструмент анализа данных. За дополнительной информацией можно обратиться к детализированному описанию этого метода в ( Hartigan, 1975).

Объединение (Кластеризация по дереву)

Кнопка Variables ее нажатие приводит к появлению стандартного окна выбора переменных. Выбранные переменные будут интерпретированы как размерности, если комбинированный список Cluster установлен в Cases, и будут интерпретированы как объекты, если Cluster установлен в Variables.

Комбинированный список Input Data позволяет выбрать в качестве входных данных алгоритма Raw Data (данные из выбранных столбцов) или Distance Matrix (матрицу). Входная матрица может быть как матрицей расстояний между объектами, так и матрицей корреляции. STATISTICA автоматически определяет тип содержимого в соответствии с форматом матрицы. При обработке матрица корреляции приводится к матрице расстояний.

Комбинированный список Cluster позволяет выбрать кластеризацию переменных (Variables) или значений (Cases).

Комбинированный список Amalgamation (linkage) Rules задает стратегию объединения кластеров (см. Обзор метода).

Комбинированный список Distance Measures задает тип меры расстояния, используемой алгоритмом (см. Обзор метода).

Если в данном поле выбрано значение Power Distances (степенная мера), становятся доступными поля редактирования параметров p и r.

Если в качестве источника данных выбрана матрица (Distance Matrix), то значение списка автоматически устанавливается в Dissimilarities from Matrix (несходство из матрицы). Если используется матрица корреляции (выражающая наоборот меру подобия), она конвертируется в матрицу расстояний.

Комбинированный список Missing Data Deletion позволяет выбрать один из двух способов решения проблемы недостатка данных :

  • Casewise deletion of missing data - в этом случае объект будет исключен из анализа, если для него не хватает данных по какой-либо из компонент.

  • Substitution by Means - замена средними. При выборе данной опции недостающие поля данных будут замещены средними значениями по соответствующим размерностям. Усреднение проводится в зависимости от выбранного типа анализа, т.е. если кластеризуются значения, то среднее будет взято по ним, а если переменные, то усреднены будут данные по строкам (т.е. по остальным переменным).

Флаг Batch Processing and Printing - данная опция доступна только если в качестве выходного устройства выбран принтер или файл. Если данный флаг установлен, все данные выводятся автоматически по окончании обработки.

Соседние файлы в папке Разные полезные материалы