Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Анализ и интерпретация данных / Глава_6.DOC

Скачиваний:

110

Добавлен:

01.05.2014

Размер:

10.78 Mб

Скачать

☆

<<< < Предыдущая 12 / 192 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

6.3. Оценки по максимуму правдоподобия

Предположим теперь, что нам дано множество X = {x₁, . .. , х_n} n непомеченных выборок, извлеченных независимо из смеси с плотностью (1)

где вектор параметров  фиксирован, но неизвестен. Правдоподобие наблюдаемых выборок по определению — это совместная плотность

Оценка по максимуму правдоподобия — это то значение , которое максимизирует p(X|).

Если мы предположим, чтоp(X|) - дифференцируемая функция по , то можем получить некоторые интересные необходимые условия для . Пусть l—логарифм правдоподобия, и пусть __il — градиент l по отношению к _i. Тогда

Если мы предположим, что элементы векторов _i и _j, функционально независимы при ij, и если вводим апостериорную вероятность

то видим, что градиент логарифма правдоподобия можно записать в удобной форме:

Поскольку градиент должен обратиться в нуль при _i, которое максимизирует l, оценка по максимуму правдоподобия _i; должна удовлетворять условиям

Обратно, среди решений этих уравнений для_i; мы найдем решение, удовлетворяющее максимуму правдоподобия.

Нетрудно обобщить эти результаты, включив априорные вероятностиР(_i) в неизвестные величины. В этом случае поиск максимального значения р (X|) распространяется на  и Р(_i) при ограничениях

Пусть (_i) — оценка по максимуму правдоподобия для Р(_i), и пусть _i—оценка по максимуму правдоподобия для _i,. Прилежный читатель сможет показать, что если функция правдоподобия дифференцируема и если Р`(_i)0 для любого i, то Р`(_i) и `_i должны удовлетворять соотношениям

где

6.4. Приложение к случаю нормальных смесей

Посмотрим, как эти общие результаты применяются в случае, когда плотности компонент нормально распределены, p(x|_i,_i)N(_i,_i). Следующая таблица иллюстрирует несколько различных ситуаций, которые могут возникнуть в зависимости от того, какие параметры известны () и какие неизвестны (?):

Случай	_i,	_i	Р(_i,)	с
1	?			
2	?	?	?	
3	?	?	?	?

Случай 1 самый простой, и мы его рассмотрим подробно из педагогических соображений. Случай 2 более реальный, хотя несколько более сложный. Случай 3 представляет собой задачу, которая возникает, когда мы сталкиваемся с полностью неизвестным множеством данных. К сожалению, он не может быть решен методами максимума правдоподобия. Мы отложим на конец главы обсуждение того, что можно сделать, когда число классов неизвестно.

6.4.1. Случай 1. Неизвестны средние векторы

Если единственными неизвестными величинами являются векторы средних значений _i, то _i, можно идентифицировать с _i и использовать соотношения (6) для получения необходимых условий оценки по максимуму правдоподобия вектора _i. Поскольку

то

Таким образом, из условия (6) для оценки по максимуму правдоподобия _j получим

После умножения на _j и перестановки членов получаем формулу

которая интуитивно оправданна. Она показывает, что оценка для _i — это просто взвешенное среднее выборок. Вес k-й выборки есть оценка правдоподобия того, что x_k принадлежит i-му классу. Если оказалось, что Р(_i|х_k, ) равно единице для нескольких выборок и нулю для остальных, то _i есть среднее выборок, которые оценены как принадлежащие i-му классу. В более общем смысле предположим, что `_i достаточно близко к действительному значению _i, и что Р(_i|х_k, _i) есть в сущности верная апостериорная вероятность для _i. Если рассматривать Р(_i|х_k, ) как долю тех выборок, имеющих значениеx_k, которые принадлежат i-му классу, то видим, что соотношение (12) определяет _i, как среднее выборок i -го класса.

Ксожалению, соотношение (12) не определяет _i явно, и если мы подставим

с p(х|_i, _i)N(_i, _i), то получим сложную комбинацию из попарно совместных нелинейных уравнений. Решение этих уравнений обычно не единственно, и мы должны проверить все полученные решения, чтобы найти то, которое действительно максимизирует правдоподобие.

Если у нас есть какой-то способ получения достаточно хороших начальных оценок_i(0) для неизвестных средних, уравнение (12) предполагает следующую итерационную схему для улучшения оценки:

Это—градиентный метод подъема или процедура восхождения на вершину для максимизации логарифма функции правдоподобия. Если перекрытие между плотностями компонент невелико, то связь между классами будет малой и сходимость будет быстрой. Однако, когда вычисление закончено, нам достаточно убедиться, что градиент равен 0. Как и все процедуры восхождения на вершину, эта тоже не гарантирует, что найденный максимум — глобальный.

<<< < Предыдущая 12 / 192 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

Соседние файлы в папке Анализ и интерпретация данных

#
01.05.20142.53 Mб114Глава_3.doc
#
01.05.20144.12 Mб108Глава_4.doc
#
01.05.20142.76 Mб106Глава_5.DOC
#
01.05.201410.78 Mб110Глава_6.DOC