- •Глава 3 оценка параметров и обучение с учителем
- •3.1. Оценка параметров и обучение с учителем
- •3.2. Оценка по максимуму правдоподобия
- •3.2.1. Общая идея метода
- •3.2.2. Случай многомерного нормального распределения: неизвестно среднее значение
- •3.2.3. Общий многомерный нормальный случай
- •3.3. Байесовский классификатор
- •3.3.1. Плотности, условные по классу
- •3.3.2. Распределение параметров
- •3.4. Обучение при восстановлении среднего значения нормальной плотности
- •3.4.1. Случай одной переменной: p(|)
- •3.4.2. Случай одной переменной: p(X|)
- •3.4.3. Случай многих переменных
- •3.5. Байесовское обучение в общем случае
- •3.6. Достаточные статистики
- •3.7. Достаточные статистики и семейство экспоненциальных функций
- •3.8. Проблемы размерности
- •3.8.1. Неожиданная трудность
- •3.8.2. Оценка ковариационной матрицы
- •3.8.3. Емкость разделяющей плоскости
- •3.8.4. Уровень ошибки усредненный по задачам
- •3.9. Оценка уровня ошибки
- •3.10. Библиографические и исторические сведения
3.6. Достаточные статистики
На практике формальное решение задачи, задаваемое (14), (34) и (35), лишено привлекательности из-за большого объема вычислений. В задачах классификации образов нередко приходится иметь дело с десятками и сотнями неизвестных параметров и тысячами выборок, что крайне затрудняет непосредственное вычисление и составление таблиц для p(|) или р(|). Вся надежда на то, что для преодоления трудности вычислений можно будет найти параметрическую формуp(х), которая, с одной стороны, будет соответствовать существу поставленной задачи, а с другой стороны, даст возможность получить удовлетворительное аналитическое решение.
Рассмотрим, какого рода упрощения можно достичь при решении задачи обучения среднему значению в случае многих нормально распределенных переменных. Если предположить, что априорная плотность p() нормальна, то апостериорная плотность р(|) также будет нормальной. В равной степени важно и то, что, согласно(31) и (32), главная цель наших действий по обработке данных — это просто вычисление выборочного среднего mn. В этой статистике, вычисление которой не требует сложных математических преобразований, содержится вся информация, получаемая из выборок и требуемая для получения неизвестного среднего по множеству. Может показаться, что простота эта связана всего лишь с еще одним хорошим свойством, присущим именно нормальному распределению, а в других случаях ее трудно было бы ожидать. Хотя это в большой степени и верно, однако существует группа распределений, для которых можно получить решения, удобные с точки зрения вычислений, причем простота их применения заложена в понятии достаточной статистики.
Прежде всего заметим, что любая функция выборок является статистикой. Грубо говоря, достаточная статистика s есть такая функция 8 выборок , которая содержит полную информацию об оценке некоторого параметра . Интуитивно может показаться, что под этим определением достаточной статистики подразумевается удовлетворение требованию p(|s,)=p(|s). Отсюда, однако, последует необходимость обращения с как со случайной величиной, из-за чего придется ограничиться байесовским подходом. Стандартное определение поэтому формулируется в следующем виде: говорят, что статистика s будет достаточной для , если p(|s, ) не зависит от . Полагая случайной величиной, можно написать
,
откуда становится очевидным, что , если s достаточна для . И обратно, если s есть статистика, для которой , и если p(|s) 0, то легко показать, что p(|s, ) не зависит от . Таким образом, интуитивное и стандартное определения, по сути дела, эквивалентны.
Основной теоремой для достаточных статистик является теорема факторизации, которая утверждает, что s достаточна для тогда и только тогда, когда р(|) можно представить как произведение двух функций, одна из которых зависит только от s и , а другая — только от выборок. К достоинствам теоремы следует отнести то, что при определении достаточной статистики она позволяет вместо рассмотрения сравнительно сложной плотности p(|s, ) воспользоваться более простой функцией вида
.
К тому же, согласно теореме факторизации, выясняется, что свойства достаточной статистики полностью определяются плотностью р (х|) и не связаны с удачным выбором априорной плотности р(). Доказательство теоремы факторизации для непрерывного случая несколько затруднительно, так как включает вырожденные ситуации. В связи с тем что это доказательство все же представляет определенный интерес, мы приведем его для простейшего дискретного случая.
Теорема факторизации. Статистика s достаточна для тогда и только тогда, когда вероятность Р (|) можно записать в виде произведения
. (37)
Доказательство. а) Допустим сначала, что s достаточна для , т. е. P(|s, ) не зависит от . Так как наша цель состоит в том, чтобы показать, что P(|) можно представить в виде произведения, сосредоточим внимание на выражении Р(|) черезP(,s|). Проделаем это, суммируя совместные вероятности P(,s|) для всех значенийs:
Но, поскольку s=, возможно лишь одно значение для s, так что
P(|)=P(|s,)P(s|).
Кроме того, так как, согласно предположению, P(|s,) не зависит от , первый множитель зависит только от . Отождествляя P(s|)c g(s, ), можно видеть, что вероятность Р(|) представима в виде произведения, что и требовалось доказать.
б) Для того чтобы показать, что из существования представления Р(|) в виде произведенияg(s, ) h() следует достаточность статистики s для , надо показать, что такое представление означает независимость условной вероятности P(|s, ) от . Так как s=, то установление величины s сводит возможные множества выборок к некоторому множеству . Формально это означает, что ={|=s}. Если пусто, то никакие заданные значения выборок не могут привести к требуемой величине s, и P(s|)=0. Исключив такие случаи, т. е. рассматривая только те значения s, которые могут быть получены, придем к выражению
.
Знаменатель выражения можно вычислить, просуммировав значения числителя для всех значений . Так как числитель будет равен нулю в случае , то можно ограничиться суммированием только для . Таким образом,
.
Но в соответствии с соображениями, которыми мы руководствовались ранее, P(,s|)= Р(|), так как s=. Кроме того, следует иметь в виду, что, согласно принятой гипотезе, Р(|) =g(s, ) h() . Таким образом, приходим к выражению
,
которое не зависит от . Отсюда, согласно определению, s достаточна для .
Как будет показано, существуют простые способы построения достаточных статистик. Например, можно определить s как вектор, компоненты которого представлены п выборками x1, . . ., хn, так что g(s, )=p(|) и h()=1. Можно даже построить скалярную достаточную статистику, пользуясь приемом вписания цифр в десятичных разложениях компонент для п выборок. Достаточные статистики такого сорта существенного интереса не представляют, так как не приводят к более простым результатам. Возможность представления функции p(|) в виде произведения g(s, ) h() интересна только в случае, когда функция g и достаточная статистика s просты 9.
Следует также заметить, что выражение p(|) в виде произведения g(s, ) h(), очевидно, не единственно. Если f(s) есть любая функция от s, то g' (s, )= f (s) g(s, ) и h' ()=h()/f (s} есть эквивалентные множители. Такого рода неопределенность можно исключить, введя понятие ядра плотности
,
которое инвариантно для этого вида оценок.
Каково же значение достаточных статистик и ядер плотности при оценке параметров? Общий ответ состоит в том, что функции плотности, содержащие достаточные статистики и простые ядра плотности, используются при практическом оценивании параметров для классификации образов. В случае оценки по максимуму правдоподобия, когда отыскивается величина , которая максимизирует p(|) =g(s, ) h() , можно вполне удовлетвориться величиной g(s, ). В этом случае нормирование посредством (38) не дает больших преимуществ, если (s, ) не проще, чем g(s, ). Удобство применения ядра плотности выявляется в байесовском случае. Если подставить в (34) p(|) =g(s, ) h(), то получим
(39)
Если наше апостериорное знание о очень неопределенно, тор () близка к постоянной, мало меняясь с изменением . Если р () близка к равномерной, то р (|) примерно равна ядру плотности. Грубо говоря, ядро плотности представляет апостериорное распределение параметрического вектора в случае, когда априорное распределение равномерно10. Даже когда априорное распределение сильно отличается от равномерного, ядро плотности обычно дает асимптотическое распределение вектора параметров. В частности, когда р(х|) не дифференцируема и число выборок велико,g(s, ) обычно имеет острый пик при некотором значении =. Если априорная плотность р () непрерывна при =ир () не равна нулю, то функция p(|) приближается к ядру плотности (s, ).