Скачиваний:
110
Добавлен:
01.05.2014
Размер:
10.78 Mб
Скачать

6.3. Оценки по максимуму правдоподобия

Предположим теперь, что нам дано множество X = {x1, . .. , хn} n непомеченных выборок, извлеченных независимо из смеси с плотностью (1)

где вектор параметров  фиксирован, но неизвестен. Правдоподобие наблюдаемых выборок по определению — это совместная плотность

Оценка по максимуму правдоподобия — это то значение , которое максимизирует p(X|).

Если мы предположим, чтоp(X|) - дифференцируемая функция по , то можем получить некоторые интересные необходимые условия для . Пусть l—логарифм правдоподобия, и пусть il — градиент l по отношению к i. Тогда

и

Если мы предположим, что элементы векторов i и j, функционально независимы при ij, и если вводим апостериорную вероятность

то видим, что градиент логарифма правдоподобия можно записать в удобной форме:

Поскольку градиент должен обратиться в нуль при i, которое максимизирует l, оценка по максимуму правдоподобия i; должна удовлетворять условиям

Обратно, среди решений этих уравнений дляi; мы найдем реше­ние, удовлетворяющее максимуму правдоподобия.

Нетрудно обобщить эти результаты, включив априорные вероятностиР(i) в неизвестные величины. В этом случае поиск максимального значения р (X|) распространяется на и Р(i) при ограничениях

и

Пусть (i) — оценка по максимуму правдоподобия для Р(i), и пусть i—оценка по максимуму правдоподобия для i,. Прилежный читатель сможет показать, что если функция прав­доподобия дифференцируема и если Р`(i)0 для любого i, то Р`(i) и `i должны удовлетворять соотношениям

И

где

6.4. Приложение к случаю нормальных смесей

Посмотрим, как эти общие результаты применяются в случае, когда плотности компонент нормально распределены, p(x|i,i)N(i,i). Следующая таблица иллюстрирует несколько различ­ных ситуаций, которые могут возникнуть в зависимости от того, какие параметры известны () и какие неизвестны (?):

Случай

i,

i

Р(i,)

с

1

?

2

?

?

?

3

?

?

?

?

Случай 1 самый простой, и мы его рассмотрим подробно из педа­гогических соображений. Случай 2 более реальный, хотя несколько более сложный. Случай 3 представляет собой задачу, которая возникает, когда мы сталкиваемся с полностью неизвестным множеством данных. К сожалению, он не может быть решен методами максимума правдоподобия. Мы отложим на конец главы обсуждение того, что можно сделать, когда число классов неизвестно.

6.4.1. Случай 1. Неизвестны средние векторы

Если единственными неизвестными величинами являются век­торы средних значений i, то i, можно идентифицировать с i и использовать соотношения (6) для получения необходимых усло­вий оценки по максимуму правдоподобия вектора i. Поскольку

то

Таким образом, из условия (6) для оценки по максимуму правдо­подобия j получим

После умножения на j и перестановки членов получаем формулу

которая интуитивно оправданна. Она показывает, что оценка для i — это просто взвешенное среднее выборок. Вес k-й выборки есть оценка правдоподобия того, что xk принадлежит i-му классу. Если оказалось, что Р(i|хk, ) равно единице для нескольких выборок и нулю для остальных, то i есть среднее выборок, которые оценены как принадлежащие i-му классу. В более общем смысле предпо­ложим, что `i достаточно близко к действительному значению i, и что Р(i|хk, i) есть в сущности верная апостериорная вероятность для i. Если рассматривать Р(i|хk, ) как долю тех выборок, имеющих значениеxk, которые принадлежат i-му классу, то видим, что соотношение (12) определяет i, как среднее выборок i -го класса.

Ксожалению, соотношение (12) не определяет i явно, и если мы подставим

с p(х|i, i)N(i, i), то получим сложную комбинацию из по­парно совместных нелинейных уравнений. Решение этих уравнений обычно не единственно, и мы должны проверить все полученные решения, чтобы найти то, которое действительно максимизирует правдоподобие.

Если у нас есть какой-то способ получения достаточно хороших начальных оценокi(0) для неизвестных средних, уравнение (12) предполагает следующую итерационную схему для улучшения оценки:

Это—градиентный метод подъема или процедура восхождения на вершину для максимизации логарифма функции правдоподо­бия. Если перекрытие между плотностями компонент невелико, то связь между классами будет малой и сходимость будет быстрой. Од­нако, когда вычисление закончено, нам достаточно убедиться, что градиент равен 0. Как и все процедуры восхождения на вершину, эта тоже не гарантирует, что найденный максимум — глобальный.

Соседние файлы в папке Анализ и интерпретация данных