- •Глава 3 оценка параметров и обучение с учителем
- •3.1. Оценка параметров и обучение с учителем
- •3.2. Оценка по максимуму правдоподобия
- •3.2.1. Общая идея метода
- •3.2.2. Случай многомерного нормального распределения: неизвестно среднее значение
- •3.2.3. Общий многомерный нормальный случай
- •3.3. Байесовский классификатор
- •3.3.1. Плотности, условные по классу
- •3.3.2. Распределение параметров
- •3.4. Обучение при восстановлении среднего значения нормальной плотности
- •3.4.1. Случай одной переменной: p(|)
- •3.4.2. Случай одной переменной: p(X|)
- •3.4.3. Случай многих переменных
- •3.5. Байесовское обучение в общем случае
- •3.6. Достаточные статистики
- •3.7. Достаточные статистики и семейство экспоненциальных функций
- •3.8. Проблемы размерности
- •3.8.1. Неожиданная трудность
- •3.8.2. Оценка ковариационной матрицы
- •3.8.3. Емкость разделяющей плоскости
- •3.8.4. Уровень ошибки усредненный по задачам
- •3.9. Оценка уровня ошибки
- •3.10. Библиографические и исторические сведения
3.2. Оценка по максимуму правдоподобия
3.2.1. Общая идея метода
Предположим, что мы разбили множество выборок на классы, так что получено с классов выборок χ1,…, χc, причем выборки в каждом классе χj получены независимо в соответствии с вероятностным законом p(x|ωj). Предполагается, что плотность p(x|ωj) задана в известной параметрической форме и, следовательно, однозначно определяется вектором параметров θj. Мы могли, например, получить распределение p(x|ωj)~N (μj, ∑j), в котором компоненты θj составлены из компонент μj и ∑j. Чтобы явно выразить зависимость p(x|ωj) от θj, запишем p(x|ωj) в виде 2 p(x|ωj, θj). Задача состоит в использовании информации, получаемой из выборок, для удовлетворительной оценки векторов параметров θ1,…, θc.
Для облегчения задачи предположим, что выборки, принадлежащие χi, не содержат информации о θj, если i≠j, т. е. предполагается функциональная независимость параметров, принадлежащих разным классам 3. Это дает возможность иметь дело с каждым классом в отдельности и упростить обозначения, исключив индексы принадлежности классу. В результате получается с отдельных задач, формулируемых следующим образом: на основании множества χ независимо от полученных выборок в соответствии с вероятностным законом p(x|θ) оценить неизвестный параметрический вектор θ.
Предположим, что χ содержит п выборок: χ ={x1, ..., хn}. Так как выборки получены независимо, имеем
p(χ |θ)=p(xk|θ). (1)
Рис. 3.1. Оценка по максимуму правдоподобия для параметра θ.
Рассматриваемая как функция от θ, плотность p(χ|θ) называется правдоподобием величины θ относительно данного множества выборок. Оценка по максимуму правдоподобия величины θ есть по определению такая величина , при которой плотность p(χ|θ) максимальна (рис. 3.1).
Интуитивно это означает, что в некотором смысле такое значение величины θ наилучшим образом соответствует реально наблюдаемым выборкам.
Для целей анализа обычно удобнее иметь дело с логарифмом правдоподобия, нежели с самой его величиной. Так как логарифм есть монотонно возрастающая функция, то максимуму логарифма правдоподобия и максимуму правдоподобия соответствует одна и та же величина . Если p(χ|θ) есть гладкая дифференцируемая функция θ, то определяется посредством обычных методов дифференциального исчисления. Пусть θ есть p-компонентный вектор θ=(θ1,..., θp)t, пусть также—оператор градиента,
= (2)
и пусть - функция логарифма правдоподобия
= log p () (3)
Тогда
= (4)
и
= (5)
Совокупность условий, необходимых для определения оценки по максимуму правдоподобия величины , может быть получена, таким образом, из решения системы р уравнений =0.
3.2.2. Случай многомерного нормального распределения: неизвестно среднее значение
Для иллюстрации применения полученных результатов к конкретному случаю предположим, что выборки производятся из нормально распределенной совокупности со средним значением и ковариационной матрицей. Для простоты сначала рассмотрим случай, когда неизвестно только среднее значение. Тогда
log p ()=
и
Если отождествить и , то из уравнения (5) увидим, что оценка по максимуму правдоподобия для должна удовлетворять уравнению
После умножения на и преобразования получим
(6)
Этот результат весьма убедителен. Он свидетельствует о том, что оценка по максимуму правдоподобия при неизвестном среднем по совокупности в точности равна среднему арифметическому выборок — выборочному среднему. Если представить п выборок геометрически в виде облака точек, то выборочное среднее будет центром этого облака. Помимо всего, выборочное среднее имеет ряд достоинств с точки зрения статистических свойств, в связи с чем эта весьма наглядная оценка часто оказывается предпочтительнее, не говоря уже о том, что она представляет максимально правдоподобное решение.