- •Глава 6 обучение без учителя и группировка
- •6.1. Введение
- •6.2. Плотность смеси и идентифицируемость
- •6.3. Оценки по максимуму правдоподобия
- •6.4. Приложение к случаю нормальных смесей
- •6.4.1. Случай 1. Неизвестны средние векторы
- •6.4.2. Пример
- •25 Выборок из смеси с нормальным распределением
- •6.4.3. Случай 2. Все параметры неизвестны
- •6.4.4. Простая приближенная процедура
- •6.5. Байесовское обучение без учителя
- •6.5.1. Байесовский классификатор
- •6.5.2. Обучение вектору параметров
- •6.5.3. Пример
- •6.5.4. Аппроксимация на основе принятия направленных решений
- •6.6. Описание данных и группировка
- •6.7. Меры подобия
- •6.8. Функции критериев для группировки
- •6.8.1. Критерий суммы квадратов ошибок
- •6.8.2. Родственные критерии минимума дисперсии
- •6.8.3.Критерии рассеяния
- •6.9. Итеративная оптимизация
- •6.10. Иерархическая группировка
- •6.10.1. Определения
- •6.10.2. Агломеративная иерархическая группировка
- •6.10.3. Пошаговая оптимальная иерархическая группировка
- •6.10.4. Иерархическая группировка и соответствующая метрика
- •6.11. Методы использующие теорию графов
- •6.12. Проблема обоснованности
- •6.13. Представление данных в пространстве меньшей размерности и многомерное масштабирование
- •6.14. Группировка и уменьшение размерности
- •6.15. Библиографические и исторические сведения
6.10.3. Пошаговая оптимальная иерархическая группировка
Мы заметили раньше, что, если группы растут за счет слияние ближайшей пары групп, результат напоминает минимальную дисперсию. Однако, когда мера расстояния между группами выбран;. произвольно, редко можно утверждать, что результирующее разделение приводит к экстремуму какой-либо конкретной функции критерия. В действительности иерархическая группировка определяет группу как какой-то результат после применения процедуры группировки. Однако простая модификация позволяет получить пошаговую процедуру оптимизации для получения экстремума функции критерия. Это делается простой заменой шага 3 в элементарной агломеративной процедуре группировки (разд. 6.10.2) на
3'. Найти пару разделенных групп Xi Xj,, слияние которых увеличит (или уменьшит) функцию критерия минимально.
Это гарантирует нам, что на каждой итерации мы сделали лучший шаг, даже если окончательное разделение не будет оптимальным.
Мы видели ранее, что использованиеdmax вызывает наименьшее возможное увеличение диаметра разделения на каждом шаге. Приведем еще один простой пример с функцией критерия суммы квадратичных ошибок /g. С помощью анализа, очень сходного с использованным в разд. 6.9, мы находим, что пара групп, слияние которых увеличивает Je на минимально возможную величину, это такая пара, для которой «расстояние» минимально. Следовательно, при выборе групп для слияния этот критерий учитывает как число выборок в каждой группе, так и расстояние между группами. В общем случае использование de приведет к тенденции увеличения размера групп за счет присоединения одиночных или малых групп к большим, а не за счет слияния групп средних размеров. Хотя окончательное разделение может не минимизировать Je, оно обычно дает хорошую начальную точку для дальнейшей итерационной оптимизации.
6.10.4. Иерархическая группировка и соответствующая метрика
Предположим, что мы не имеем возможности снабдить метрикой наши данные, но что можем измеритьстепень различия (х,х') для каждой пары выборок, где (х,х')>0, причем равенство нулю выполняется тогда и только тогда, когда х=х'. Тогда все еще можно использовать агломеративную процедуру, учитывая, что пара ближайших групп — это пара с наименьшими различиями. Интересно, что если мы определяем различия между двумя группами как
или
то иерархическая процедура группировки даст функцию расстояния для данного множества из п выборок. Более того, упорядочение расстояний между выборками будет инвариантно относительно любого монотонного преобразования величин различий.
Чтобы увидеть, как это происходит, начнем с определения величины vk для группировки на уровне k. Для уровня 1 имеем v1=0. Для всех более высоких уровней vk равна минимальному различию между парами разных групп на уровне (k—1).
При внимательном рассмотрении станет ясно, что как с min, так и с max величина vk либо остается такой же, либо увеличивается при увеличении k. Более того, мы предполагаем, что нет двух одинаковых выборок в множестве, так что v2>0. Следовательно, 0= v1< v2 v3 … vn.
Теперь можно определить расстояние d(x,х') между х и х' как величину группировки на нижнем уровне, для которой х и х' находятся в одной группе. Чтобы убедиться, что это действительно функция расстояния, или метрика, мы должны показать следующее:
1) d(x, x')=0 x=x',
2) d(x, x')=d(x', x),
3) d(x, x")d(x, x')+d(x', x").
Легко видеть, что первое требование удовлетворяется. Самый низкий уровень, на котором х и х' могут быть в одной группе, это уровень 1, так что d(x, x')=υ1=0.
Обратно, если d(x, x')=0, то из υ2=0 следует, что х и х' должны быть в одной группе на уровне 1, и поэтому х=х'. Правильность второго требования немедленно следует из определения d(x, x'). Остается третье требование — неравенство треугольника. Пусть d(x, x')= υi и d(x', x'')=υj, так что х и х' находятся в одной группе на уровне i, а х' и х" — в одной группе на уровне j. Из-за иерархического объединения групп одна из этих групп включает другую. Если k=max(i, j), ясно, что на уровне k х, х' и х" находятся в одной группе, и, следовательно, что
d(x', x'')≤ υk
Но так как значения υk монотонно не уменьшаются, то υk=max(υi, υj), и поэтому
d(x', x'')≤ max (d(x, x'), d(x', x'')).
Это называется ультраметрическим неравенством. Оно даже сильнее, чем неравенство треугольника, так как max(d(x, х'), d(x', x"))≤d(x, x')+d(x', х"). Таким образом, удовлетворяются все условия, и мы получили подлинную метрику для сравнения n выборок.