Скачиваний:
114
Добавлен:
01.05.2014
Размер:
2.53 Mб
Скачать

3.6. Достаточные статистики

На практике формальное решение задачи, задаваемое (14), (34) и (35), лишено привлекательности из-за большого объема вычисле­ний. В задачах классификации образов нередко приходится иметь дело с десятками и сотнями неизвестных параметров и тысячами выборок, что крайне затрудняет непосредственное вычисление и составление таблиц для p(|) или р(|). Вся надежда на то, что для преодоления трудности вычислений можно будет найти пара­метрическую формуp(х), которая, с одной стороны, будет соот­ветствовать существу поставленной задачи, а с другой стороны, даст возможность получить удовлетворительное аналитическое ре­шение.

Рассмотрим, какого рода упрощения можно достичь при решении задачи обучения среднему значению в случае многих нормально распределенных переменных. Если предположить, что априорная плотность p() нормальна, то апостериорная плотность р(|) также будет нормальной. В равной степени важно и то, что, согласно(31) и (32), главная цель наших действий по обработке данных — это просто вычисление выборочного среднего mn. В этой статистике, вычисление которой не требует сложных математических преобра­зований, содержится вся информация, получаемая из выборок и требуемая для получения неизвестного среднего по множеству. Может показаться, что простота эта связана всего лишь с еще одним хорошим свойством, присущим именно нормальному распределению, а в других случаях ее трудно было бы ожидать. Хотя это в большой степени и верно, однако существует группа распределений, для ко­торых можно получить решения, удобные с точки зрения вычисле­ний, причем простота их применения заложена в понятии достаточ­ной статистики.

Прежде всего заметим, что любая функция выборок является статистикой. Грубо говоря, достаточная статистика s есть такая функция 8 выборок , которая содержит полную информацию об оценке некоторого параметра . Интуитивно может показаться, что под этим определением достаточной статистики подразумева­ется удовлетворение требованию p(|s,)=p(|s). Отсюда, одна­ко, последует необходимость обращения с как со случайной вели­чиной, из-за чего придется ограничиться байесовским подходом. Стандартное определение поэтому формулируется в следующем виде: говорят, что статистика s будет достаточной для , если p(|s, ) не зависит от . Полагая случайной величиной, можно написать

,

откуда становится очевидным, что , если s достаточ­на для . И обратно, если s есть статистика, для которой , и если p(|s) 0, то легко показать, что p(|s, ) не за­висит от . Таким образом, интуитивное и стандартное определения, по сути дела, эквивалентны.

Основной теоремой для достаточных статистик является теорема факторизации, которая утверждает, что s достаточна для тогда и только тогда, когда р(|) можно представить как произведение двух функций, одна из которых зависит только от s и , а другая — только от выборок. К достоинствам теоремы следует отнести то, что при определении достаточной статистики она позволяет вместо рас­смотрения сравнительно сложной плотности p(|s, ) воспользо­ваться более простой функцией вида

.

К тому же, согласно теореме факторизации, выясняется, что свойства достаточной статистики полностью определяются плотно­стью р (х|) и не связаны с удачным выбором априорной плотности р(). Доказательство теоремы факторизации для непрерывного случая несколько затруднительно, так как включает вырожденные ситуации. В связи с тем что это доказательство все же представляет определенный интерес, мы приведем его для простейшего дискрет­ного случая.

Теорема факторизации. Статистика s достаточна для тогда и только тогда, когда вероятность Р (|) можно за­писать в виде произведения

. (37)

Доказательство. а) Допустим сначала, что s достаточна для , т. е. P(|s, ) не зависит от . Так как наша цель состоит в том, чтобы показать, что P(|) можно представить в виде про­изведения, сосредоточим внимание на выражении Р(|) черезP(,s|). Проделаем это, суммируя совместные вероятности P(,s|) для всех значенийs:

Но, поскольку s=, возможно лишь одно значение для s, так что

P(|)=P(|s,)P(s|).

Кроме того, так как, согласно предположению, P(|s,) не зависит от , первый множитель зависит только от . Отождествляя P(s|)c g(s, ), можно видеть, что вероятность Р(|) представима в виде произведения, что и требовалось доказать.

б) Для того чтобы показать, что из существования представления Р(|) в виде произведенияg(s, ) h() следует достаточность ста­тистики s для , надо показать, что такое представление означает независимость условной вероятности P(|s, ) от . Так как s=, то установление величины s сводит возможные множества выборок к некоторому множеству . Формально это означает, что ={|=s}. Если пусто, то никакие заданные значения выборок не могут привести к требуемой величине s, и P(s|)=0. Исключив такие случаи, т. е. рассматривая только те значения s, которые могут быть получены, придем к выражению

.

Знаменатель выражения можно вычислить, просуммировав зна­чения числителя для всех значений . Так как числитель будет ра­вен нулю в случае , то можно ограничиться суммированием только для . Таким образом,

.

Но в соответствии с соображениями, которыми мы руководство­вались ранее, P(,s|)= Р(|), так как s=. Кроме того, следует иметь в виду, что, согласно принятой гипотезе, Р(|) =g(s, ) h() . Таким образом, приходим к выражению

,

которое не зависит от . Отсюда, согласно определению, s достаточ­на для .

Как будет показано, существуют простые способы построения достаточных статистик. Например, можно определить s как вектор, компоненты которого представлены п выборками x1, . . ., хn, так что g(s, )=p(|) и h()=1. Можно даже построить скалярную достаточную статистику, пользуясь приемом вписания цифр в деся­тичных разложениях компонент для п выборок. Достаточные ста­тистики такого сорта существенного интереса не представляют, так как не приводят к более простым результатам. Возможность пред­ставления функции p(|) в виде произведения g(s, ) h() ин­тересна только в случае, когда функция g и достаточная статистика s просты 9.

Следует также заметить, что выражение p(|) в виде произве­дения g(s, ) h(), очевидно, не единственно. Если f(s) есть любая функция от s, то g' (s, )= f (s) g(s, ) и h' ()=h()/f (s} есть эк­вивалентные множители. Такого рода неопределенность можно ис­ключить, введя понятие ядра плотности

,

которое инвариантно для этого вида оценок.

Каково же значение достаточных статистик и ядер плотности при оценке параметров? Общий ответ состоит в том, что функции плот­ности, содержащие достаточные статистики и простые ядра плот­ности, используются при практическом оценивании параметров для классификации образов. В случае оценки по максимуму правдопо­добия, когда отыскивается величина , которая максимизирует p(|) =g(s, ) h() , можно вполне удовлетвориться величиной g(s, ). В этом случае нормирование посредством (38) не дает боль­ших преимуществ, если (s, ) не проще, чем g(s, ). Удобство при­менения ядра плотности выявляется в байесовском случае. Если подставить в (34) p(|) =g(s, ) h(), то получим

(39)

Если наше апостериорное знание о очень неопределенно, тор () близка к постоянной, мало меняясь с изменением . Если р () близка к равномерной, то р (|) примерно равна ядру плот­ности. Грубо говоря, ядро плотности представляет апостериорное распределение параметрического вектора в случае, когда априорное распределение равномерно10. Даже когда априорное распределение сильно отличается от равномерного, ядро плотности обычно дает асимптотическое распределение вектора параметров. В частности, когда р(х|) не дифференцируема и число выборок велико,g(s, ) обычно имеет острый пик при некотором значении =. Если апри­орная плотность р () непрерывна при =ир () не равна нулю, то функция p(|) приближается к ядру плотности (s, ).

Соседние файлы в папке Анализ и интерпретация данных