- •Глава 3 оценка параметров и обучение с учителем
- •3.1. Оценка параметров и обучение с учителем
- •3.2. Оценка по максимуму правдоподобия
- •3.2.1. Общая идея метода
- •3.2.2. Случай многомерного нормального распределения: неизвестно среднее значение
- •3.2.3. Общий многомерный нормальный случай
- •3.3. Байесовский классификатор
- •3.3.1. Плотности, условные по классу
- •3.3.2. Распределение параметров
- •3.4. Обучение при восстановлении среднего значения нормальной плотности
- •3.4.1. Случай одной переменной: p(|)
- •3.4.2. Случай одной переменной: p(X|)
- •3.4.3. Случай многих переменных
- •3.5. Байесовское обучение в общем случае
- •3.6. Достаточные статистики
- •3.7. Достаточные статистики и семейство экспоненциальных функций
- •3.8. Проблемы размерности
- •3.8.1. Неожиданная трудность
- •3.8.2. Оценка ковариационной матрицы
- •3.8.3. Емкость разделяющей плоскости
- •3.8.4. Уровень ошибки усредненный по задачам
- •3.9. Оценка уровня ошибки
- •3.10. Библиографические и исторические сведения
3.4.2. Случай одной переменной: p(X|)
После получения апостериорной плотности p(|) остается только определить «условную по классу» плотность p(x|) 7. Из уравнений (14), (15) и (19) имеем
где
.
Следовательно, поскольку плотность p(x|) как функция х пропорциональна ехр [-(1/2)(x-)2 /(+)] плотностьp(x|) распределена нормально со средним и дисперсией+:
p(x|) N(,+ ). (25)
Другими словами, для получения «условной по классу» плотности p(x|), имеющей параметрическую форму p(x|) N(,), следует просто заменитьнаина+. По сути дела, с условным средним обращаются так, как если бы оно было истинным средним, а увеличение дисперсии характеризует дополнительную неопределенностьх из-за недостаточно точного представления о среднем значении . Это и является окончательным результатом: плотность p(x|) есть требуемая условная по классу плотность p(x|, ), которая с априорными вероятностями P() составляет вероятностную информацию, требуемую для построения байесовского классификатора.
3.4.3. Случай многих переменных
Исследовать случай многих переменных можно, непосредственно обобщив случай с одной переменной. Поэтому мы ограничимся лишь беглым наброском относящихся к нему доказательств. Как и прежде, положим, что
p(x|) N(,) (26)
p() N(,) (27)
где , ипредполагаются известными. После того как получено множество, содержащее п независимых выборок x1, . . ., xn, можно применить байесовское правило и получить выражение
,
которое представим в виде
.
Таким образом, p(|) N(,) и мы снова получили воспроизводящую плотность. Приравнивая коэффициенты, получим уравнения, аналогичные (20) и (21):
(28)
и
, (29)
где mn есть выборочное среднее
(30)
Решение этих уравнений относительно и , можно облегчить, если принять во внимание матричное тождество
(A-1+B-1)-1=A(A+B)-1B=B(A+B)-1A,
справедливое для двух любых невырожденных матриц А и В размера dxd. После несложных преобразований приходим к окончательному результату:
(31)
и
(32)
Для доказательства того, что p(x|) N(,+), надо, как и прежде, произвести интегрирование
.
Вместе с тем к тому же результату можно прийти с меньшими затратами, если принять во внимание, что х можно рассматривать как сумму двух случайных переменных — случайного вектора , такого, что p(|) N(,), и независимого случайного векторау, такого, что p(y)~N (0, ). В связи с тем что сумма двух независимых нормально распределенных векторов есть также нормально распределенный вектор со средним значением, равным сумме средних значений, и ковариационной матрицей, равной сумме ковариационных матриц, получим
p(x|) N(,+) (33)
что и завершает наше обобщение.
3.5. Байесовское обучение в общем случае
Только что мы видели, каким образом может использоваться байесовский подход для получения требуемой плотности р (х|) в конкретном случае многих нормально распределенных переменных. Этот подход можно распространить на любую ситуацию, при которой допускается параметризация неизвестной плотности. Основные допущения при этом следующие:
1). Вид плотности p(x|) предполагается известным, хотя точное значение параметрического вектора неизвестно.
2). Предполагается, что наше исходное представление о величине основано на известной априорной плотностиp().
3). Все прочие знания о мы получаем из множества , содержащего п выборок x1, . . ., хn извлекаемых независимо в соответствии с неизвестным вероятностным законом р(x).
Основная задача состоит в вычислении апостериорной плотности p(|), так как, имея ее, можно посредством соотношения (14) вычислить р(х|):
(14)
Согласно байесовском правилу, имеем
, (34)
а в соответствии с предположением о независимости
(35)
Нами получено формальное решение данной задачи. Как оно соотносится с решением по максимуму правдоподобия, видно из выражений (14) и (34). Предположим, что p(x|) имеет острый пик при =. Если априорная плотность р () при =не равна нулю и не претерпевает больших изменений в окрестности этой точки, тоp(|) также имеет пик в этой точке. Из (14), таким образом, следует, что р (х|) будет примерно представлять p(x|) , и результат этот можно было бы получить, используя оценку по максимуму правдоподобия, как если бы она и была истинным значением. Если же пик p(x|) не настолько остр, чтобы можно было пренебречь влиянием априорной информации или неопределенностью истинного значения величины , то способ использования имеющейся информации для расчета требуемой плотности р (х|) подсказывается байесовским решением.
Хотя нами получено формальное байесовское решение задачи, остается еще ряд интересных вопросов. Один из них относится к трудностям проведения указанных вычислений. Другой вопрос имеет отношение к сходимости р (х|) к р (х). Сначала кратко обсудим вопрос сходимости, а позже вернемся к вопросу о вычислениях.
Для четкого обозначения числа выборок в множестве, используем запись вида ={x1, . . ., хn). Далее из соотношения (35) для п>1 получим
.
Подставляя это выражение в (34) и применяя байесовское правило, получим для определения апостериорной плотности следующее рекуррентное соотношение:
(36)
Многократно применяя эту формулу с учетом того, что р (|)=р(), получим последовательность плотностей р(),p(|x1), р (|х1, x2) и т. д. Это и есть так называемый рекурсивный байесовский подход к оценке параметров. Если последовательность плотностей имеет тенденцию сходиться к дельта-функции Дирака с центром вблизи истинного значения параметра, то это часто называют байесовским обучением.
Для большинства обычно встречающихся плотностей р (х|) последовательность апостериорных плотностей сходится к дельта-функции. Это, грубо говоря, означает, что в случае большого числа выборок существует лишь одно значение, которое приводит р(х|) к такому соответствию с реальностью, т. е. что может быть однозначноопределено изр (х|). В этом случае говорят, что плотность р(х|)идентифицируема. Для строгого доказательства сходимости при указанных условиях нужна точная формулировка требуемых свойств величин р (х|) ир () и тщательное обоснование выводов, но серьезных трудностей это не представляет.
Существуют, однако, случаи, при которых одно и то же значение р(х|) получается более чем для одного значения . В таких случаях величина не может быть определена однозначно изp(x|),a р (|) будет иметь пик вблизи каждого из указанных значений . К счастью, эта неопределенность исчезает при интегрировании соотношения (14), так как p(х|) одинакова для всех указанных значений . Таким образом, р (х|) будет неизбежно сходиться кр (х) независимо от того, идентифицируема или нет p(х|). Хотя в связи с этим проблема идентифицируемости начинает казаться чем-то не заслуживающим внимания, из гл. 6 мы увидим, что она приобретает первостепенное значение в случае обучения без учителя.