- •Глава 6 обучение без учителя и группировка
- •6.1. Введение
- •6.2. Плотность смеси и идентифицируемость
- •6.3. Оценки по максимуму правдоподобия
- •6.4. Приложение к случаю нормальных смесей
- •6.4.1. Случай 1. Неизвестны средние векторы
- •6.4.2. Пример
- •25 Выборок из смеси с нормальным распределением
- •6.4.3. Случай 2. Все параметры неизвестны
- •6.4.4. Простая приближенная процедура
- •6.5. Байесовское обучение без учителя
- •6.5.1. Байесовский классификатор
- •6.5.2. Обучение вектору параметров
- •6.5.3. Пример
- •6.5.4. Аппроксимация на основе принятия направленных решений
- •6.6. Описание данных и группировка
- •6.7. Меры подобия
- •6.8. Функции критериев для группировки
- •6.8.1. Критерий суммы квадратов ошибок
- •6.8.2. Родственные критерии минимума дисперсии
- •6.8.3.Критерии рассеяния
- •6.9. Итеративная оптимизация
- •6.10. Иерархическая группировка
- •6.10.1. Определения
- •6.10.2. Агломеративная иерархическая группировка
- •6.10.3. Пошаговая оптимальная иерархическая группировка
- •6.10.4. Иерархическая группировка и соответствующая метрика
- •6.11. Методы использующие теорию графов
- •6.12. Проблема обоснованности
- •6.13. Представление данных в пространстве меньшей размерности и многомерное масштабирование
- •6.14. Группировка и уменьшение размерности
- •6.15. Библиографические и исторические сведения
6.3. Оценки по максимуму правдоподобия
Предположим теперь, что нам дано множество X = {x1, . .. , хn} n непомеченных выборок, извлеченных независимо из смеси с плотностью (1)
где вектор параметров фиксирован, но неизвестен. Правдоподобие наблюдаемых выборок по определению — это совместная плотность
Оценка по максимуму правдоподобия — это то значение , которое максимизирует p(X|).
Если мы предположим, чтоp(X|) - дифференцируемая функция по , то можем получить некоторые интересные необходимые условия для . Пусть l—логарифм правдоподобия, и пусть il — градиент l по отношению к i. Тогда
и
Если мы предположим, что элементы векторов i и j, функционально независимы при ij, и если вводим апостериорную вероятность
то видим, что градиент логарифма правдоподобия можно записать в удобной форме:
Поскольку градиент должен обратиться в нуль при i, которое максимизирует l, оценка по максимуму правдоподобия i; должна удовлетворять условиям
Обратно, среди решений этих уравнений дляi; мы найдем решение, удовлетворяющее максимуму правдоподобия.
Нетрудно обобщить эти результаты, включив априорные вероятностиР(i) в неизвестные величины. В этом случае поиск максимального значения р (X|) распространяется на и Р(i) при ограничениях
и
Пусть (i) — оценка по максимуму правдоподобия для Р(i), и пусть i—оценка по максимуму правдоподобия для i,. Прилежный читатель сможет показать, что если функция правдоподобия дифференцируема и если Р`(i)0 для любого i, то Р`(i) и `i должны удовлетворять соотношениям
И
где
6.4. Приложение к случаю нормальных смесей
Посмотрим, как эти общие результаты применяются в случае, когда плотности компонент нормально распределены, p(x|i,i)N(i,i). Следующая таблица иллюстрирует несколько различных ситуаций, которые могут возникнуть в зависимости от того, какие параметры известны () и какие неизвестны (?):
Случай |
i, |
i |
Р(i,) |
с |
1 |
? |
|
|
|
2 |
? |
? |
? |
|
3 |
? |
? |
? |
? |
Случай 1 самый простой, и мы его рассмотрим подробно из педагогических соображений. Случай 2 более реальный, хотя несколько более сложный. Случай 3 представляет собой задачу, которая возникает, когда мы сталкиваемся с полностью неизвестным множеством данных. К сожалению, он не может быть решен методами максимума правдоподобия. Мы отложим на конец главы обсуждение того, что можно сделать, когда число классов неизвестно.
6.4.1. Случай 1. Неизвестны средние векторы
Если единственными неизвестными величинами являются векторы средних значений i, то i, можно идентифицировать с i и использовать соотношения (6) для получения необходимых условий оценки по максимуму правдоподобия вектора i. Поскольку
то
Таким образом, из условия (6) для оценки по максимуму правдоподобия j получим
После умножения на j и перестановки членов получаем формулу
которая интуитивно оправданна. Она показывает, что оценка для i — это просто взвешенное среднее выборок. Вес k-й выборки есть оценка правдоподобия того, что xk принадлежит i-му классу. Если оказалось, что Р(i|хk, ) равно единице для нескольких выборок и нулю для остальных, то i есть среднее выборок, которые оценены как принадлежащие i-му классу. В более общем смысле предположим, что `i достаточно близко к действительному значению i, и что Р(i|хk, i) есть в сущности верная апостериорная вероятность для i. Если рассматривать Р(i|хk, ) как долю тех выборок, имеющих значениеxk, которые принадлежат i-му классу, то видим, что соотношение (12) определяет i, как среднее выборок i -го класса.
Ксожалению, соотношение (12) не определяет i явно, и если мы подставим
с p(х|i, i)N(i, i), то получим сложную комбинацию из попарно совместных нелинейных уравнений. Решение этих уравнений обычно не единственно, и мы должны проверить все полученные решения, чтобы найти то, которое действительно максимизирует правдоподобие.
Если у нас есть какой-то способ получения достаточно хороших начальных оценокi(0) для неизвестных средних, уравнение (12) предполагает следующую итерационную схему для улучшения оценки:
Это—градиентный метод подъема или процедура восхождения на вершину для максимизации логарифма функции правдоподобия. Если перекрытие между плотностями компонент невелико, то связь между классами будет малой и сходимость будет быстрой. Однако, когда вычисление закончено, нам достаточно убедиться, что градиент равен 0. Как и все процедуры восхождения на вершину, эта тоже не гарантирует, что найденный максимум — глобальный.