- •Глава 6 обучение без учителя и группировка
- •6.1. Введение
- •6.2. Плотность смеси и идентифицируемость
- •6.3. Оценки по максимуму правдоподобия
- •6.4. Приложение к случаю нормальных смесей
- •6.4.1. Случай 1. Неизвестны средние векторы
- •6.4.2. Пример
- •25 Выборок из смеси с нормальным распределением
- •6.4.3. Случай 2. Все параметры неизвестны
- •6.4.4. Простая приближенная процедура
- •6.5. Байесовское обучение без учителя
- •6.5.1. Байесовский классификатор
- •6.5.2. Обучение вектору параметров
- •6.5.3. Пример
- •6.5.4. Аппроксимация на основе принятия направленных решений
- •6.6. Описание данных и группировка
- •6.7. Меры подобия
- •6.8. Функции критериев для группировки
- •6.8.1. Критерий суммы квадратов ошибок
- •6.8.2. Родственные критерии минимума дисперсии
- •6.8.3.Критерии рассеяния
- •6.9. Итеративная оптимизация
- •6.10. Иерархическая группировка
- •6.10.1. Определения
- •6.10.2. Агломеративная иерархическая группировка
- •6.10.3. Пошаговая оптимальная иерархическая группировка
- •6.10.4. Иерархическая группировка и соответствующая метрика
- •6.11. Методы использующие теорию графов
- •6.12. Проблема обоснованности
- •6.13. Представление данных в пространстве меньшей размерности и многомерное масштабирование
- •6.14. Группировка и уменьшение размерности
- •6.15. Библиографические и исторические сведения
6.4.4. Простая приближенная процедура
Из различных способов, которые используются для упрощения вычисления и ускорения сходимости, мы кратко рассмотрим один элементарный приближенный метод. Из соотношения (17) ясно, что вероятность (i|xk,i) велика, когда квадрат махалонобисова расстояния (xk-i)t i-1 (xk-i) мал. Предположим, что мы просто вычисляем квадрат евклидова расстояния || xk-i ||2 и находим среднее m ближайшее к xk, и аппроксимируем(i|xk, i) как
Тогда итеративное применение формулы (15) приводит к следующей процедуре2 нахождения 1,…, c:
Процедура: Базовые Изоданные
1. Выбираем некоторые начальные значения для средних 1,…, c
Цикл: 2. Классифицируем п выборок, разбивая их на классы по ближайшим средним.
3. Вновь вычисляем средние как средние значения выборок в своем классе.
4. Если какое-нибудь среднее изменило значение, переходим к Циклу; иначе останов.
Это типичные для некоторого класса процедуры, известные как процедуры группировки (кластер-процедуры). Позже мы поместим ее в класс итерационных оптимизационных процедур, поскольку средние имеют тенденцию изменяться так, чтобы минимизировать функцию критерия квадратичной ошибки. В настоящий момент мы рассматриваем это просто как приближенный способ получения оценки по максимуму правдоподобия для средних. Полученные значения можно принять за ответ или использовать как начальные точки для более точных вычислений.
Интересно посмотреть, как эта процедура ведет себя на примере данных из табл.6.1. Рис. 6.4 показывает последовательность значений для 1 и 2, полученных для нескольких различных начальных точек. Так как взаимная замена 1 и 2 просто взаимозаменяет метки, присвоенные данным, траектория симметрична относительно линии 1= 2. Траектория приводит или к точке 1=- 2,176
Рис. 6.4.Траектории для процедуры. Базовые изоданные.
2= 1,684, или к ее отображению. Это близко к решению, найденному методом максимума правдоподобия (1=—2,130 и 2=1,668), и траектории в общем сходны с траекториями, показанными на рис. 6.3. В общем случае, когда пересечение между плотностями компонент мало, можно ожидать, что метод максимального правдоподобия и процедура Изоданные дадут похожие результаты.
6.5. Байесовское обучение без учителя
6.5.1. Байесовский классификатор
Методы максимума правдоподобия не рассматривают вектор параметров как случайный — он просто неизвестный. Предварительное знание о возможных значениях необязательно, хотя на практике такое знание можно использовать для выбора хорошей начальной точки при процедуре подъема на вершину. В этом разделе мы используем байесовский подход к обучению без учителя. Предположим, что — случайная величина с известным априорным распределением р(), и будем использовать выборки для вычисления апостериорной плотности р(|X).Весьма интересно, что такой анализ в основном будет подобен анализу байесовского обучения с учителем, что указывает на большое формальное сходство задач.
Начнем с четкого определения основных предположений. Предполагаем, что
1. Число классов известно.
2. Априорные вероятности Р(ωj)для каждого класса известны, j=1, ..., с.
3. Вид условных по классу плотностей p(x|ωj, j) известен, j=1, ..., с., но вектор параметров =(1, . . ., c) неизвестен.
4. Часть знаний о заключена в известной априорной плотности p()
5. Остальная часть знаний о содержится в множестве X из п выборок х1, . . ., хn извлеченных независимо из смеси с плотностью
После этого мы могли бы непосредственно начать вычислениеp(|X). Однако давайте сначала посмотрим, как эта плотность используется для определения байесовского классификатора. Предположим, что состояние природы выбирается с вероятностью Р(ωj) и вектор признаков х выбран в соответствии с вероятностным законом p(x|ωj, j). Чтобы вывести байесовский классификатор, мы должны использовать всю имеющуюся информацию для вычисления апостериорной вероятности Р(ωj|х).
Покажем явно роль выборок, записав это в видеР(ωj|х, X). По правилу Байеса
Так как выбор состояния природы ωj был сделан независимо от ранее полученных выборок: Р(ωj|X)= Р(ωj), то мы получим
Введем вектор неизвестных параметров, написав
Поскольку сам х не зависит от выборок, то p(x|, i, X)=p(x|i, i). Аналогично, так как знание состояния природы при выбранном х нам ничего не говорит о распределении имеем р(|i , X)=p(|X).
Таким образом, получаем
То есть наша наилучшая оценка для p(x|i) получена p(x|i, i) по i. Хорошая это или плохая оценка, зависит от природы p(|X), и мы должны, наконец, заняться этой плотностью.