Скачиваний:
114
Добавлен:
01.05.2014
Размер:
2.53 Mб
Скачать

3.4.2. Случай одной переменной: p(X|)

После получения апостериорной плотности p(|) остается только определить «условную по классу» плотность p(x|) 7. Из уравнений (14), (15) и (19) имеем

где

.

Следовательно, поскольку плотность p(x|) как функция х пропорциональна ехр [-(1/2)(x-)2 /(+)] плотностьp(x|) распределена нормально со средним и дисперсией+:

p(x|) N(,+ ). (25)

Другими словами, для получения «условной по классу» плотно­сти p(x|), имеющей параметрическую форму p(x|) N(,), следует просто заменитьнаина+. По сути дела, с ус­ловным средним обращаются так, как если бы оно было истин­ным средним, а увеличение дисперсии характеризует дополнитель­ную неопределенностьх из-за недостаточно точного представления о среднем значении . Это и является окончательным результатом: плотность p(x|) есть требуемая условная по классу плотность p(x|, ), которая с априорными вероятностями P() составляет вероятностную информацию, требуемую для построения байесов­ского классификатора.

3.4.3. Случай многих переменных

Исследовать случай многих переменных можно, непосредственно обобщив случай с одной переменной. Поэтому мы ограничимся лишь беглым наброском относящихся к нему доказательств. Как и прежде, положим, что

p(x|) N(,) (26)

p() N(,) (27)

где , ипредполагаются известными. После того как получено множество, содержащее п независимых выборок x1, . . ., xn, можно применить байесовское правило и получить выражение

,

которое представим в виде

.

Таким образом, p(|) N(,) и мы снова получили вос­производящую плотность. Приравнивая коэффициенты, получим уравнения, аналогичные (20) и (21):

(28)

и

, (29)

где mn есть выборочное среднее

(30)

Решение этих уравнений относительно и , можно облегчить, если принять во внимание матричное тождество

(A-1+B-1)-1=A(A+B)-1B=B(A+B)-1A,

справедливое для двух любых невырожденных матриц А и В раз­мера dxd. После несложных преобразований приходим к окон­чательному результату:

(31)

и

(32)

Для доказательства того, что p(x|) N(,+), надо, как и прежде, произвести интегрирование

.

Вместе с тем к тому же результату можно прийти с меньшими затратами, если принять во внимание, что х можно рассматривать как сумму двух случайных переменных — случайного вектора , такого, что p(|) N(,), и независимого случайного векторау, такого, что p(y)~N (0, ). В связи с тем что сумма двух незави­симых нормально распределенных векторов есть также нормально распределенный вектор со средним значением, равным сумме сред­них значений, и ковариационной матрицей, равной сумме ковари­ационных матриц, получим

p(x|) N(,+) (33)

что и завершает наше обобщение.

3.5. Байесовское обучение в общем случае

Только что мы видели, каким образом может использоваться бай­есовский подход для получения требуемой плотности р (х|) в кон­кретном случае многих нормально распределенных переменных. Этот подход можно распространить на любую ситуацию, при которой допускается параметризация неизвестной плотности. Основные допу­щения при этом следующие:

1). Вид плотности p(x|) предполагается известным, хотя точное значение параметрического вектора неизвестно.

2). Предполагается, что наше исходное представление о величине основано на известной априорной плотностиp().

3). Все прочие знания о мы получаем из множества , содер­жащего п выборок x1, . . ., хn извлекаемых независимо в соответ­ствии с неизвестным вероятностным законом р(x).

Основная задача состоит в вычислении апостериорной плотно­сти p(|), так как, имея ее, можно посредством соотношения (14) вычислить р(х|):

(14)

Согласно байесовском правилу, имеем

, (34)

а в соответствии с предположением о независимости

(35)

Нами получено формальное решение данной задачи. Как оно соотносится с решением по максимуму правдоподобия, видно из выражений (14) и (34). Предположим, что p(x|) имеет острый пик при =. Если априорная плотность р () при =не равна нулю и не претерпевает больших изменений в окрестности этой точки, тоp(|) также имеет пик в этой точке. Из (14), таким образом, сле­дует, что р (х|) будет примерно представлять p(x|) , и результат этот можно было бы получить, используя оценку по максимуму правдоподобия, как если бы она и была истинным значением. Если же пик p(x|) не настолько остр, чтобы можно было пренебречь влиянием априорной информации или неопределенностью истин­ного значения величины , то способ использования имеющейся информации для расчета требуемой плотности р (х|) подсказыва­ется байесовским решением.

Хотя нами получено формальное байесовское решение задачи, остается еще ряд интересных вопросов. Один из них относится к трудностям проведения указанных вычислений. Другой вопрос имеет отношение к сходимости р (х|) к р (х). Сначала кратко обсудим во­прос сходимости, а позже вернемся к вопросу о вычислениях.

Для четкого обозначения числа выборок в множестве, использу­ем запись вида ={x1, . . ., хn). Далее из соотношения (35) для п>1 получим

.

Подставляя это выражение в (34) и применяя байесовское правило, получим для определения апостериорной плотности сле­дующее рекуррентное соотношение:

(36)

Многократно применяя эту формулу с учетом того, что р (|)=р(), получим последовательность плотностей р(),p(|x1), р (1, x2) и т. д. Это и есть так называемый рекурсивный байесовский подход к оценке параметров. Если последовательность плотностей имеет тенденцию сходиться к дельта-функции Дирака с центром вблизи истинного значения параметра, то это часто называют бай­есовским обучением.

Для большинства обычно встречающихся плотностей р (х|) последовательность апостериорных плотностей сходится к дельта-функции. Это, грубо говоря, означает, что в случае большого числа выборок существует лишь одно значение, которое приводит р(х|) к такому соответствию с реальностью, т. е. что может быть однозначноопределено изр (х|). В этом случае говорят, что плот­ность р(х|)идентифицируема. Для строгого доказательства схо­димости при указанных условиях нужна точная формулировка требуемых свойств величин р (х|) ир () и тщательное обоснование вы­водов, но серьезных трудностей это не представляет.

Существуют, однако, случаи, при которых одно и то же значение р(х|) получается более чем для одного значения . В таких слу­чаях величина не может быть определена однозначно изp(x|),a р (|) будет иметь пик вблизи каждого из указанных значений . К счастью, эта неопределенность исчезает при интегрировании соот­ношения (14), так как p(х|) одинакова для всех указанных зна­чений . Таким образом, р (х|) будет неизбежно сходиться кр (х) независимо от того, идентифицируема или нет p(х|). Хотя в связи с этим проблема идентифицируемости начинает казаться чем-то не заслуживающим внимания, из гл. 6 мы увидим, что она приобретает первостепенное значение в случае обучения без учителя.

Соседние файлы в папке Анализ и интерпретация данных