Скачиваний:
114
Добавлен:
01.05.2014
Размер:
2.53 Mб
Скачать

3.2. Оценка по максимуму правдоподобия

3.2.1. Общая идея метода

Предположим, что мы разбили множество выборок на классы, так что получено с классов выборок χ1,…, χc, причем выборки в каждом классе χj получены независимо в соответствии с вероят­ностным законом p(x|ωj). Предполагается, что плотность p(x|ωj) задана в известной параметрической форме и, следовательно, одно­значно определяется вектором параметров θj. Мы могли, например, получить распределение p(x|ωj)~Nj, ∑j), в котором компоненты θj составлены из компонент μj и ∑j. Чтобы явно выразить зависи­мость p(x|ωj) от θj, запишем p(x|ωj) в виде 2 p(x|ωj, θj). Задача состоит в использовании информации, получаемой из выборок, для удовлетворительной оценки векторов параметров θ1,…, θc.

Для облегчения задачи предположим, что выборки, принадле­жащие χi, не содержат информации о θj, если i≠j, т. е. предпола­гается функциональная независимость параметров, принадлежащих разным классам 3. Это дает возможность иметь дело с каждым клас­сом в отдельности и упростить обозначения, исключив индексы принадлежности классу. В результате получается с отдельных задач, формулируемых следующим образом: на основании множе­ства χ независимо от полученных выборок в соответствии с вероят­ностным законом p(x|θ) оценить неизвестный па­раметрический вектор θ.

Предположим, что χ содержит п выборок: χ ={x1, ..., хn}. Так как выборки получены незави­симо, имеем

p(χ |θ)=p(xk|θ). (1)

Рис. 3.1. Оценка по максимуму правдоподобия для параметра θ.

Рассматриваемая как функция от θ, плотность p(χ|θ) называется правдо­подобием величины θ отно­сительно данного множества выборок. Оценка по максимуму прав­доподобия величины θ есть по определению такая величина , при которой плотность p(χ|θ) максимальна (рис. 3.1).

Интуитивно это означает, что в некотором смысле такое значение величины θ наилучшим образом соответствует реально наблюдаемым выборкам.

Для целей анализа обычно удобнее иметь дело с логарифмом правдоподобия, нежели с самой его величиной. Так как логарифм есть монотонно возрастающая функция, то максимуму логарифма правдоподобия и максимуму правдоподобия соответствует одна и та же величина . Если p(χ|θ) есть гладкая дифференцируемая функция θ, то определяется посредством обычных методов диффе­ренциального исчисления. Пусть θ есть p-компонентный вектор θ=(θ1,..., θp)t, пусть также—оператор градиента,

= (2)

и пусть - функция логарифма правдоподобия

= log p () (3)

Тогда

= (4)

и

= (5)

Совокупность условий, необходимых для определения оценки по максимуму правдоподобия величины , может быть получена, таким образом, из решения системы р уравнений =0.

3.2.2. Случай многомерного нормального распределения: неизвестно среднее значение

Для иллюстрации применения полученных результатов к кон­кретному случаю предположим, что выборки производятся из нормально распределенной совокупности со средним значением и ковариационной матрицей. Для простоты сначала рассмотрим случай, когда неизвестно только среднее значение. Тогда

log p ()=

и

Если отождествить и , то из уравнения (5) увидим, что оценка по максимуму правдоподобия для должна удовлетворять урав­нению

После умножения на и преобразования получим

(6)

Этот результат весьма убедителен. Он свидетельствует о том, что оценка по максимуму правдоподобия при неизвестном среднем по совокупности в точности равна среднему арифметическому выбо­рок — выборочному среднему. Если представить п выборок геомет­рически в виде облака точек, то выборочное среднее будет центром этого облака. Помимо всего, выборочное среднее имеет ряд досто­инств с точки зрения статистических свойств, в связи с чем эта весьма наглядная оценка часто оказывается предпочтительнее, не говоря уже о том, что она представляет максимально правдоподоб­ное решение.

Соседние файлы в папке Анализ и интерпретация данных