Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Анализ и интерпретация данных / Глава_3.doc

Скачиваний:

114

Добавлен:

01.05.2014

Размер:

2.53 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 126 7 8 9 10 11 12 > Следующая >>>

3.6. Достаточные статистики

На практике формальное решение задачи, задаваемое (14), (34) и (35), лишено привлекательности из-за большого объема вычислений. В задачах классификации образов нередко приходится иметь дело с десятками и сотнями неизвестных параметров и тысячами выборок, что крайне затрудняет непосредственное вычисление и составление таблиц для p(|) или р(|). Вся надежда на то, что для преодоления трудности вычислений можно будет найти параметрическую формуp(х), которая, с одной стороны, будет соответствовать существу поставленной задачи, а с другой стороны, даст возможность получить удовлетворительное аналитическое решение.

Рассмотрим, какого рода упрощения можно достичь при решении задачи обучения среднему значению в случае многих нормально распределенных переменных. Если предположить, что априорная плотность p() нормальна, то апостериорная плотность р(|) также будет нормальной. В равной степени важно и то, что, согласно(31) и (32), главная цель наших действий по обработке данных — это просто вычисление выборочного среднего m_n. В этой статистике, вычисление которой не требует сложных математических преобразований, содержится вся информация, получаемая из выборок и требуемая для получения неизвестного среднего по множеству. Может показаться, что простота эта связана всего лишь с еще одним хорошим свойством, присущим именно нормальному распределению, а в других случаях ее трудно было бы ожидать. Хотя это в большой степени и верно, однако существует группа распределений, для которых можно получить решения, удобные с точки зрения вычислений, причем простота их применения заложена в понятии достаточной статистики.

Прежде всего заметим, что любая функция выборок является статистикой. Грубо говоря, достаточная статистика s есть такая функция ^⁸ выборок , которая содержит полную информацию об оценке некоторого параметра . Интуитивно может показаться, что под этим определением достаточной статистики подразумевается удовлетворение требованию p(|s,)=p(|s). Отсюда, однако, последует необходимость обращения с как со случайной величиной, из-за чего придется ограничиться байесовским подходом. Стандартное определение поэтому формулируется в следующем виде: говорят, что статистика s будет достаточной для , если p(|s, ) не зависит от . Полагая случайной величиной, можно написать

откуда становится очевидным, что , если s достаточна для . И обратно, если s есть статистика, для которой , и если p(|s) 0, то легко показать, что p(|s, ) не зависит от . Таким образом, интуитивное и стандартное определения, по сути дела, эквивалентны.

Основной теоремой для достаточных статистик является теорема факторизации, которая утверждает, что s достаточна для тогда и только тогда, когда р(|) можно представить как произведение двух функций, одна из которых зависит только от s и , а другая — только от выборок. К достоинствам теоремы следует отнести то, что при определении достаточной статистики она позволяет вместо рассмотрения сравнительно сложной плотности p(|s, ) воспользоваться более простой функцией вида

К тому же, согласно теореме факторизации, выясняется, что свойства достаточной статистики полностью определяются плотностью р (х|) и не связаны с удачным выбором априорной плотности р(). Доказательство теоремы факторизации для непрерывного случая несколько затруднительно, так как включает вырожденные ситуации. В связи с тем что это доказательство все же представляет определенный интерес, мы приведем его для простейшего дискретного случая.

Теорема факторизации. Статистика s достаточна для тогда и только тогда, когда вероятность Р (|) можно записать в виде произведения

. (37)

Доказательство. а) Допустим сначала, что s достаточна для , т. е. P(|s, ) не зависит от . Так как наша цель состоит в том, чтобы показать, что P(|) можно представить в виде произведения, сосредоточим внимание на выражении Р(|) черезP(,s|). Проделаем это, суммируя совместные вероятности P(,s|) для всех значенийs:

Но, поскольку s=, возможно лишь одно значение для s, так что

P(|)=P(|s,)P(s|).

Кроме того, так как, согласно предположению, P(|s,) не зависит от , первый множитель зависит только от . Отождествляя P(s|)c g(s, ), можно видеть, что вероятность Р(|) представима в виде произведения, что и требовалось доказать.

б) Для того чтобы показать, что из существования представления Р(|) в виде произведенияg(s, ) h() следует достаточность статистики s для , надо показать, что такое представление означает независимость условной вероятности P(|s, ) от . Так как s=, то установление величины s сводит возможные множества выборок к некоторому множеству . Формально это означает, что ={|=s}. Если пусто, то никакие заданные значения выборок не могут привести к требуемой величине s, и P(s|)=0. Исключив такие случаи, т. е. рассматривая только те значения s, которые могут быть получены, придем к выражению

Знаменатель выражения можно вычислить, просуммировав значения числителя для всех значений . Так как числитель будет равен нулю в случае , то можно ограничиться суммированием только для . Таким образом,

Но в соответствии с соображениями, которыми мы руководствовались ранее, P(,s|)= Р(|), так как s=. Кроме того, следует иметь в виду, что, согласно принятой гипотезе, Р(|) =g(s, ) h() . Таким образом, приходим к выражению

которое не зависит от . Отсюда, согласно определению, s достаточна для .

Как будет показано, существуют простые способы построения достаточных статистик. Например, можно определить s как вектор, компоненты которого представлены п выборками x₁, . . ., х_n, так что g(s, )=p(|) и h()=1. Можно даже построить скалярную достаточную статистику, пользуясь приемом вписания цифр в десятичных разложениях компонент для п выборок. Достаточные статистики такого сорта существенного интереса не представляют, так как не приводят к более простым результатам. Возможность представления функции p(|) в виде произведения g(s, ) h() интересна только в случае, когда функция g и достаточная статистика s просты ^⁹.

Следует также заметить, что выражение p(|) в виде произведения g(s, ) h(), очевидно, не единственно. Если f(s) есть любая функция от s, то g' (s, )= f (s) g(s, ) и h' ()=h()/f (s} есть эквивалентные множители. Такого рода неопределенность можно исключить, введя понятие ядра плотности

которое инвариантно для этого вида оценок.

Каково же значение достаточных статистик и ядер плотности при оценке параметров? Общий ответ состоит в том, что функции плотности, содержащие достаточные статистики и простые ядра плотности, используются при практическом оценивании параметров для классификации образов. В случае оценки по максимуму правдоподобия, когда отыскивается величина , которая максимизирует p(|) =g(s, ) h() , можно вполне удовлетвориться величиной g(s, ). В этом случае нормирование посредством (38) не дает больших преимуществ, если (s, ) не проще, чем g(s, ). Удобство применения ядра плотности выявляется в байесовском случае. Если подставить в (34) p(|) =g(s, ) h(), то получим

(39)

Если наше апостериорное знание о очень неопределенно, тор () близка к постоянной, мало меняясь с изменением . Если р () близка к равномерной, то р (|) примерно равна ядру плотности. Грубо говоря, ядро плотности представляет апостериорное распределение параметрического вектора в случае, когда априорное распределение равномерно^¹⁰. Даже когда априорное распределение сильно отличается от равномерного, ядро плотности обычно дает асимптотическое распределение вектора параметров. В частности, когда р(х|) не дифференцируема и число выборок велико,g(s, ) обычно имеет острый пик при некотором значении =. Если априорная плотность р () непрерывна при =ир () не равна нулю, то функция p(|) приближается к ядру плотности (s, ).