Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Анализ и интерпретация данных / Глава_3.doc

Скачиваний:

114

Добавлен:

01.05.2014

Размер:

2.53 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 125 6 7 8 9 10 11 12 > Следующая >>>

3.4.2. Случай одной переменной: p(X|)

После получения апостериорной плотности p(|) остается только определить «условную по классу» плотность p(x|) ^⁷. Из уравнений (14), (15) и (19) имеем

где

Следовательно, поскольку плотность p(x|) как функция х пропорциональна ехр [-(1/2)(x-)² /(+)] плотностьp(x|) распределена нормально со средним и дисперсией+:

p(x|) N(,+ ). (25)

Другими словами, для получения «условной по классу» плотности p(x|), имеющей параметрическую форму p(x|) N(,), следует просто заменитьнаина+. По сути дела, с условным средним обращаются так, как если бы оно было истинным средним, а увеличение дисперсии характеризует дополнительную неопределенностьх из-за недостаточно точного представления о среднем значении . Это и является окончательным результатом: плотность p(x|) есть требуемая условная по классу плотность p(x|, ), которая с априорными вероятностями P() составляет вероятностную информацию, требуемую для построения байесовского классификатора.

3.4.3. Случай многих переменных

Исследовать случай многих переменных можно, непосредственно обобщив случай с одной переменной. Поэтому мы ограничимся лишь беглым наброском относящихся к нему доказательств. Как и прежде, положим, что

p(x|) N(,) (26)

p() N(,) (27)

где , ипредполагаются известными. После того как получено множество, содержащее п независимых выборок x₁, . . ., x_n, можно применить байесовское правило и получить выражение

которое представим в виде

Таким образом, p(|) N(,) и мы снова получили воспроизводящую плотность. Приравнивая коэффициенты, получим уравнения, аналогичные (20) и (21):

(28)

, (29)

где m_n есть выборочное среднее

(30)

Решение этих уравнений относительно и , можно облегчить, если принять во внимание матричное тождество

(A^-1+B^-1)^-1=A(A+B)^-1B=B(A+B)^-1A,

справедливое для двух любых невырожденных матриц А и В размера dxd. После несложных преобразований приходим к окончательному результату:

(31)

(32)

Для доказательства того, что p(x|) N(,+), надо, как и прежде, произвести интегрирование

Вместе с тем к тому же результату можно прийти с меньшими затратами, если принять во внимание, что х можно рассматривать как сумму двух случайных переменных — случайного вектора , такого, что p(|) N(,), и независимого случайного векторау, такого, что p(y)~N (0, ). В связи с тем что сумма двух независимых нормально распределенных векторов есть также нормально распределенный вектор со средним значением, равным сумме средних значений, и ковариационной матрицей, равной сумме ковариационных матриц, получим

p(x|) N(,+) (33)

что и завершает наше обобщение.

3.5. Байесовское обучение в общем случае

Только что мы видели, каким образом может использоваться байесовский подход для получения требуемой плотности р (х|) в конкретном случае многих нормально распределенных переменных. Этот подход можно распространить на любую ситуацию, при которой допускается параметризация неизвестной плотности. Основные допущения при этом следующие:

1). Вид плотности p(x|) предполагается известным, хотя точное значение параметрического вектора неизвестно.

2). Предполагается, что наше исходное представление о величине основано на известной априорной плотностиp().

3). Все прочие знания о мы получаем из множества , содержащего п выборок x₁, . . ., х_n извлекаемых независимо в соответствии с неизвестным вероятностным законом р(x).

Основная задача состоит в вычислении апостериорной плотности p(|), так как, имея ее, можно посредством соотношения (14) вычислить р(х|):

(14)

Согласно байесовском правилу, имеем

, (34)

а в соответствии с предположением о независимости

(35)

Нами получено формальное решение данной задачи. Как оно соотносится с решением по максимуму правдоподобия, видно из выражений (14) и (34). Предположим, что p(x|) имеет острый пик при =. Если априорная плотность р () при =не равна нулю и не претерпевает больших изменений в окрестности этой точки, тоp(|) также имеет пик в этой точке. Из (14), таким образом, следует, что р (х|) будет примерно представлять p(x|) , и результат этот можно было бы получить, используя оценку по максимуму правдоподобия, как если бы она и была истинным значением. Если же пик p(x|) не настолько остр, чтобы можно было пренебречь влиянием априорной информации или неопределенностью истинного значения величины , то способ использования имеющейся информации для расчета требуемой плотности р (х|) подсказывается байесовским решением.

Хотя нами получено формальное байесовское решение задачи, остается еще ряд интересных вопросов. Один из них относится к трудностям проведения указанных вычислений. Другой вопрос имеет отношение к сходимости р (х|) к р (х). Сначала кратко обсудим вопрос сходимости, а позже вернемся к вопросу о вычислениях.

Для четкого обозначения числа выборок в множестве, используем запись вида ={x₁, . . ., х_n). Далее из соотношения (35) для п>1 получим

Подставляя это выражение в (34) и применяя байесовское правило, получим для определения апостериорной плотности следующее рекуррентное соотношение:

(36)

Многократно применяя эту формулу с учетом того, что р (|)=р(), получим последовательность плотностей р(),p(|x₁), р (|х₁, x₂) и т. д. Это и есть так называемый рекурсивный байесовский подход к оценке параметров. Если последовательность плотностей имеет тенденцию сходиться к дельта-функции Дирака с центром вблизи истинного значения параметра, то это часто называют байесовским обучением.

Для большинства обычно встречающихся плотностей р (х|) последовательность апостериорных плотностей сходится к дельта-функции. Это, грубо говоря, означает, что в случае большого числа выборок существует лишь одно значение, которое приводит р(х|) к такому соответствию с реальностью, т. е. что может быть однозначноопределено изр (х|). В этом случае говорят, что плотность р(х|)идентифицируема. Для строгого доказательства сходимости при указанных условиях нужна точная формулировка требуемых свойств величин р (х|) ир () и тщательное обоснование выводов, но серьезных трудностей это не представляет.

Существуют, однако, случаи, при которых одно и то же значение р(х|) получается более чем для одного значения . В таких случаях величина не может быть определена однозначно изp(x|),a р (|) будет иметь пик вблизи каждого из указанных значений . К счастью, эта неопределенность исчезает при интегрировании соотношения (14), так как p(х|) одинакова для всех указанных значений . Таким образом, р (х|) будет неизбежно сходиться кр (х) независимо от того, идентифицируема или нет p(х|). Хотя в связи с этим проблема идентифицируемости начинает казаться чем-то не заслуживающим внимания, из гл. 6 мы увидим, что она приобретает первостепенное значение в случае обучения без учителя.

<<< < Предыдущая 1 2 3 45 / 125 6 7 8 9 10 11 12 > Следующая >>>

Соседние файлы в папке Анализ и интерпретация данных

#
01.05.20142.53 Mб114Глава_3.doc
#
01.05.20144.12 Mб108Глава_4.doc
#
01.05.20142.76 Mб106Глава_5.DOC
#
01.05.201410.78 Mб110Глава_6.DOC