- •Глава 3 оценка параметров и обучение с учителем
- •3.1. Оценка параметров и обучение с учителем
- •3.2. Оценка по максимуму правдоподобия
- •3.2.1. Общая идея метода
- •3.2.2. Случай многомерного нормального распределения: неизвестно среднее значение
- •3.2.3. Общий многомерный нормальный случай
- •3.3. Байесовский классификатор
- •3.3.1. Плотности, условные по классу
- •3.3.2. Распределение параметров
- •3.4. Обучение при восстановлении среднего значения нормальной плотности
- •3.4.1. Случай одной переменной: p(|)
- •3.4.2. Случай одной переменной: p(X|)
- •3.4.3. Случай многих переменных
- •3.5. Байесовское обучение в общем случае
- •3.6. Достаточные статистики
- •3.7. Достаточные статистики и семейство экспоненциальных функций
- •3.8. Проблемы размерности
- •3.8.1. Неожиданная трудность
- •3.8.2. Оценка ковариационной матрицы
- •3.8.3. Емкость разделяющей плоскости
- •3.8.4. Уровень ошибки усредненный по задачам
- •3.9. Оценка уровня ошибки
- •3.10. Библиографические и исторические сведения
3.3.2. Распределение параметров
Хотя требуемая плотность p(х) неизвестна, предположим, что она имеет известную параметрическую форму. Единственно, что предполагается неизвестным, это величина параметрического вектора . Тот факт, что р(х) неизвестна, но имеет известный параметрический вид, выразим утверждением, что функция p(x|) полностью известна. При байесовском подходе предполагается, что неизвестный параметрический вектор есть случайная переменная. Всю информацию о до наблюдения выборок дает известная априорная плотность p(). Наблюдение выборок превращает ее в апостериорную плотность p(|), которая, как можно надеяться, имеет крутой подъем вблизи истинного значения .
Основная наша цель—это вычисление плотности p(x|), достаточно достоверной для того, чтобы прийти к получению неизвестной p(х). Это вычисление мы выполняем посредством интегрирования объединенной плотности р(х, |) по . Получаем
=
причем интегрирование производится по всему пространству параметра 6. Теперь р(х, |) всегда можно представить как произведение р(х, |). Так как х и выборки из получаются независимо, то первый множитель есть просто p(x|). Распределение величины х, таким образом, полностью известно, если известна величина параметрического вектора. В результате имеем
p(x|) = (14)
Это важнейшее уравнение связывает «условную по классу» плотность p(x|) с апостериорной плотностью p(|) неизвестного параметрического вектора. Если вблизи некоторого значения функция p(|) имеет острый пик, то p(x|) p(x|), так что решение может быть получено подстановкой оценки в качестве истинной величины вектора параметров. Вообще, если существует большая неопределенность относительно точного значения , это уравнение приводит к средней плотности p(x\) по возможным значениям . Таким образом, в случае, когда неизвестные плотности имеют известный параметрический вид, выборки влияют на p(x\) через апостериорную плотность р(|).
3.4. Обучение при восстановлении среднего значения нормальной плотности
3.4.1. Случай одной переменной: p(|)
В данном разделе мы рассмотрим вычисление апостериорной плотности p(|) и требуемой плотности р(x|) для случая, когда р(x |)~N(,), а вектор среднего значения есть неизвестный вектор параметров. Для простоты начнем с одномерного случая, при котором
р(x |)~N(,), (15)
где единственной неизвестной величиной является среднее значение . Предположим, что любое исходное знание, которое мы можем иметь о, можно выразить посредствомизвестной априорной плотности р(). Кроме того, можно предположить, что
p()~N(,), (16)
где и известны. Грубо говоря, величинаесть наше лучшее исходное предположение относительно, аотражает неуверенность в отношении этого предположения. Предположение о том, что априорное распределение для нормальное, в дальнейшем упростит математические выражения. Однако решающее предположение заключается не столько в том, что априорное распределениенормально, сколько в том, что оно существует и известно.
Выбрав априорную плотность для , можно представить ситуацию следующим образом. Вообразим, что величина , получена из множества, подчиняющегося вероятностному закону р(). Будучи однажды получена, эта величина представляет истинное значение и полностью определяет плотность для х. Предположим теперь, что из полученного множества независимо взято п выборок x1, . . . , xn. Положив ={x1, . . . , xn}, воспользуемся байесовским правилом, чтобы получить выражение
(17)
где — масштабный множитель, зависящий от , но не зависящий от . Из этого уравнения видно, как наблюдение выборочного множества влияет на наше представление об истинном значении , «превращая» априорную плотность р() в апостериорную плотностьp(|). Так как p(xk|)N(,) иp()N(,) то имеем
(18)
где множители, не зависящие от , включены в константы и. Таким образом, p(|), представляющая собой экспоненциальную функцию квадратичной функции от , также является нормальной плотностью. Так как это остается в силе для любого числа выборок, тоp(|) остается нормальной, когда число п выборок возрастает, и p(|) называют воспроизводящей плотностью. Если воспользоваться p(|)~N(,), то значенияимогут быть найдены приравниванием коэффициентов из уравнения (18) соответствующим коэффициентам из выражения
p(|) = (19)
Отсюда получаем
(20)
и
, (21)
где mn есть выборочное среднее
. (22)
Решая уравнения в явном виде относительно и, получаем
(23)
и
. (24)
Из этих уравнений видно, как комбинация априорной информации и эмпирической информации выборок дает апостериорную плотность p(|). Грубо говоря, представляет наше лучшее предположение относительно после наблюдения п выборок, а отражает нашу неуверенность относительно этого предположения. Так как монотонно убывает с ростом n, стремясь к /п при стремлении п к бесконечности, каждое добавочное наблюдение уменьшает нашу неуверенность относительно истинного значения . При возрастании п. функция p(|) все более заостряется, стремясь к дельта-функции при n. Такое поведение обычно называется байесовским обучением (рис. 3.2).
Рис. 3.2. Обучение среднему при нормальной плотности.
Вообще представляет линейную комбинациюmn и с неотрицательными коэффициентами, сумма которых равна единице. Поэтому значение , всегда лежит между mn и . Привеличинастремится к выборочному среднему при стремлениип к бесконечности. Если , то получаем вырожденный случай, при котором априорная уверенность в том, что =, настолько тверда, что никакое число наблюдений не сможет изменить нашего мнения. При другой крайности, когда, мы настолько не уверены в априорном предположении, что принимаем=mn , исходя при оценке только из выборок. Вообще относительный баланс между исходным представлением и опытными данными определяется отношением к , называемым иногдадогматизмом. Если догматизм не бесконечен, то после получения достаточного числа выборок предполагаемые конкретные значения ине играют роли, астремится к выборочному среднему.