- •Глава 3 оценка параметров и обучение с учителем
- •3.1. Оценка параметров и обучение с учителем
- •3.2. Оценка по максимуму правдоподобия
- •3.2.1. Общая идея метода
- •3.2.2. Случай многомерного нормального распределения: неизвестно среднее значение
- •3.2.3. Общий многомерный нормальный случай
- •3.3. Байесовский классификатор
- •3.3.1. Плотности, условные по классу
- •3.3.2. Распределение параметров
- •3.4. Обучение при восстановлении среднего значения нормальной плотности
- •3.4.1. Случай одной переменной: p(|)
- •3.4.2. Случай одной переменной: p(X|)
- •3.4.3. Случай многих переменных
- •3.5. Байесовское обучение в общем случае
- •3.6. Достаточные статистики
- •3.7. Достаточные статистики и семейство экспоненциальных функций
- •3.8. Проблемы размерности
- •3.8.1. Неожиданная трудность
- •3.8.2. Оценка ковариационной матрицы
- •3.8.3. Емкость разделяющей плоскости
- •3.8.4. Уровень ошибки усредненный по задачам
- •3.9. Оценка уровня ошибки
- •3.10. Библиографические и исторические сведения
3.2.3. Общий многомерный нормальный случай
В общем и более типичном многомерном нормальном случае неизвестны как среднее , так и ковариационная матрица . Как раз эти неизвестные параметры и образуют компоненты параметрического вектора . Рассмотрим одномерный случай, приняв и. Здесь имеем
log p ()=
и
Тогда уравнение (5) приводит к следующим условиям:
и
где и — оценки по максимуму правдоподобия соответственно для и . После подстановки и несложных преобразований получим следующие оценки по максимуму правдоподобия дляи :
, (7)
. (8)
Хотя анализ многомерного случая в основном носит аналогичный характер, он значительно более трудоемок. Из литературы 4 хорошо известно, что оценка по максимуму правдоподобия для и дается выражениями
(9)
и
(10)
Таким образом, еще раз подтверждается, что оценка по максимуму правдоподобия для среднего значения вектора — это выборочное среднее. Оценка по максимуму правдоподобия для ковариационной матрицы — это среднее арифметическое n матриц . Так как подлинная ковариационная матрица и есть, ожидаемое значение матрицыто полученный результат также весьма естествен.
3.3. Байесовский классификатор
Читателям, знакомым с математической статистикой, известно, что оценка по максимуму правдоподобия для ковариационной матрицы смещена, т. е. ожидаемое значение не равно . Несмещенная оценка для задается выборочной ковариационной матрицей
. (11)
Очевидно, что так что эти две оценки, по существу, совпадают при большомп. Однако наличие двух сходных и тем не менее разных оценок для ковариационной матрицы смущает многих исследователей, так как, естественно, возникает вопрос: какая же из них «верная»? Ответить на это можно, сказав, что каждая из этих оценок ни верна, ни ложна: они просто различны. Наличие двух различных оценок на деле показывает, что единой оценки, включающей все свойства, которые только можно пожелать, не существует. Для наших целей сформулировать наиболее желательные свойства довольно сложно — нам нужна такая оценка, которая позволила бы наилучшим образом проводить классификацию. Хотя разрабатывать классификатор, используя оценки по максимуму правдоподобия для неизвестных параметров, обычно представляется разумным и логичным, вполне естествен вопрос, а нет ли других оценок, обеспечивающих еще лучшее качество работы. В данном разделе мы рассмотрим этот вопрос с байесовской точки зрения.
3.3.1. Плотности, условные по классу
Сущность байесовской классификации заложена в расчете апостериорных вероятностей . Байесовское правило позволяет вычислять эти вероятности по априорным вероятностям и условным по классу плотностям, однако возникает вопрос: как быть, если эти величины неизвестны? Общий ответ таков: лучшее, что мы можем сделать,—это вычислить , используя всю информацию, имеющуюся в распоряжении. Часть этой информации может быть априорной, как, например, знание о виде неизвестных функций плотности и диапазонах значений неизвестных параметров. Часть этой информации может содержаться в множестве выборок. Пусть обозначает множество выборок, тогда мы подчеркнем роль выборок, сказав, что цель заключается в вычислении апостериорных вероятностей . По этим вероятностям мы можем построить байесовский классификатор.
Согласно байесовскому правилу 5,
= (12)
Это уравнение означает, что мы можем использовать информацию, получаемую из выборок, для определения как условных по классу плотностей, так и априорных вероятностей.
Мы могли бы придерживаться этой общности, однако впредь будем предполагать, что истинные значения априорных вероятностей известны, так что =.Кроме того, так как в данном случае мы имеем дело с наблюдаемыми значениями, то можно разделить выборки по классам вс подмножеств причем выборки из принадлежат . Во многих случаях, в частности во всех, с которыми мы будем иметь дело, выборки из не оказывают влияния на , если ij. Отсюда вытекают два упрощающих анализа следствия. Во-первых, это позволяет нам иметь дело с каждым классом в отдельности, используя для определения только выборки из . Вместе с принятым нами предположением, что априорные вероятности известны, это следствие позволяет записать уравнение (12) в виде
=
Во-вторых, так как каждый класс может рассматриваться независимо, можно отказаться от ненужных различий классов и упростить записи. По существу, здесь имеется с отдельных задач следующего вида: требуется определить , используя множество выборок, взятых независимо в соответствии с фиксированным, но неизвестным вероятностным законом р(х). Это и составляет главную задачу байесовского обучения.