- •Глава 6 обучение без учителя и группировка
- •6.1. Введение
- •6.2. Плотность смеси и идентифицируемость
- •6.3. Оценки по максимуму правдоподобия
- •6.4. Приложение к случаю нормальных смесей
- •6.4.1. Случай 1. Неизвестны средние векторы
- •6.4.2. Пример
- •25 Выборок из смеси с нормальным распределением
- •6.4.3. Случай 2. Все параметры неизвестны
- •6.4.4. Простая приближенная процедура
- •6.5. Байесовское обучение без учителя
- •6.5.1. Байесовский классификатор
- •6.5.2. Обучение вектору параметров
- •6.5.3. Пример
- •6.5.4. Аппроксимация на основе принятия направленных решений
- •6.6. Описание данных и группировка
- •6.7. Меры подобия
- •6.8. Функции критериев для группировки
- •6.8.1. Критерий суммы квадратов ошибок
- •6.8.2. Родственные критерии минимума дисперсии
- •6.8.3.Критерии рассеяния
- •6.9. Итеративная оптимизация
- •6.10. Иерархическая группировка
- •6.10.1. Определения
- •6.10.2. Агломеративная иерархическая группировка
- •6.10.3. Пошаговая оптимальная иерархическая группировка
- •6.10.4. Иерархическая группировка и соответствующая метрика
- •6.11. Методы использующие теорию графов
- •6.12. Проблема обоснованности
- •6.13. Представление данных в пространстве меньшей размерности и многомерное масштабирование
- •6.14. Группировка и уменьшение размерности
- •6.15. Библиографические и исторические сведения
6.11. Методы использующие теорию графов
В двух или трех примерах мы использовали линейные графы, чтобы с иной точки зрения взглянуть на природу некоторых процедур группировки. Если формулы, использующие нормальные смеси и разделения на основе минимальной дисперсии, кажется, возвращают нас к изображению групп как изолированных скоплений точек, то язык и понятия теории графов дают возможность рассмотреть более скрытые структуры. К сожалению, немногое из таких возможностей изучалось систематически, и пока не существует единого подхода к постановке задач группировки как задач теории графов. Таким образом, эффективное использование этих идей — это пока еще во многом искусство, и читатель, желающий исследовать такие возможности, должен быть достаточно изобретателен.
Мы начнем наш краткий обзор методов теории графов, вернувшись к рассмотрению простой процедуры, которая строила графы, показанные на рис. 6.8. Здесь было выбрано пороговое расстоянии d0 и считалось, что две точки находятся в той же группе, если расстояние между ними меньше d0. Эту процедуру легко обобщить для применения к произвольным мерам подобия. Предположим, что мы выбрали пороговое значение s0, и будем говорить, что x подобен x', если s(x, x')> s0. Это определяет матрицу подобия S=[sij] размера nХп.
Эта матрица определяет граф подобия, в котором вершины соответствуют точкам и ребро соединяет вершины i и j тогда и только тогда, когда sij =l.
Группировка, полученная при помощи алгоритма единственной связи и модифицированного алгоритма полной связи, легко описывается при помощи этого графа.
Рис. 6.19.Группы, образованные удалением несовместимых ребер (Цань, 1971). а —множество точек, б —минимальное покрывающее дерево,в —группы.
В случае алгоритма единственной связи две выборки х и х' находятся в одной группе тогда и только тогда, когда существует цепь x1, x2, . . ., хk, такая, что х подобен x1, x1 подобен x2 и т. д. для всей цепи. Следовательно, такая группировка соответствует связанным компонентам в графе подобия. В случае алгоритма полной связи все выборки в данной группе должны быть подобны друг другу, и ни одна выборка не должна находиться более чем в одной группе. Если мы опускаем второе требование, то тогда такая группировка соответствует максимальным полным подграфам в графе подобия, причем в «наибольших» подграфах ребра объединяют все пары вершин. (В общем случае группы, полученные с помощью алгоритма полной связи, можно найти среди максимальных полных подграфов, но их нельзя определить, не зная степени подобия.)
В предыдущем разделе мы заметили, что алгоритм ближайшего соседа можно рассматривать как алгоритм нахождения минимального покрывающего дерева. Обратно, при данном минимальном покрывающем дереве можно найти группировки, полученные по алгоритму ближайшего соседа. Удаление самого длинного ребра вызывает разделение на две группы, удаление следующего по длине ребра — разделение на три группы' и т. д. Это дает способ получения делимой иерархической процедуры и предлагает другие возможности деления графа на подграфы. Например, при выборе ребра — кандидата на удаление мы можем сравнить его длину с длинами других ребер, прилегающих к его вершинам. Назовем ребро несовместимым, если его длина l значительно больше l (с чертой) — средней длины всех других ребер, прилегающих к его вершинам. На рис. 6.19 показаны минимальное покрывающее дерево для двумерного множества точек и группы, полученные систематическим удалением всех ребер, чья длина l больше 2l(с чертой). Отметим чувствительность этого критерия к локальным условиям, дающую результаты, которые значительно отличаются от простого удаления двух самых длинных ребер.
Когда точки данных располагаются в длинные цепочки, минимальное покрывающее дерево образует естественный скелет для цепочки. Если мы определим диаметральный путь как самый длинный путь по дереву, то тогда цепочка будет характеризоваться глубиной отклонения от диаметрального пути. Напротив, для большого, равномерно расположенного облака точек дерево не будет иметь явно диаметрального пути, а будет иметь несколько различных путей, близких к диаметральному. Для любого из них некоторое число вершин будет находиться вне пути. В то время как небольшие изменения в расположении точек данных могут вызвать значительное перераспределение минимального покрывающего дерева, они обычно мало влияют на такие статистики.
Рис. 6.20.Минимальное покрывающее дерево с бимодальным распределением длин ребер
Одной из полезных статистик, которую можно получить из минимального покрывающего дерева, является распределение длин ребер. На рис. 6.20 представлен случай, когда плотное облако располагается внутри редкого. Длины ребер минимального покрывающего дерева образуют две различные группы, которые легко обнаружить процедурой минимальной дисперсии. Убирая все ребра длиннее некоторого промежуточного значения, мы можем выделить плотное облако как наибольшую связанную компоненту оставшегося графа. Хотя более сложные конфигурации нельзя так легко изобразить, гибкость подхода, использующего теорию графов, позволяет его применить для широкого круга задач группировки.