Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Анализ и интерпретация данных / Глава_3.doc

Скачиваний:

114

Добавлен:

01.05.2014

Размер:

2.53 Mб

Скачать

☆

<<< < Предыдущая 1 2 34 / 124 5 6 7 8 9 10 11 12 > Следующая >>>

3.3.2. Распределение параметров

Хотя требуемая плотность p(х) неизвестна, предположим, что она имеет известную параметрическую форму. Единственно, что предполагается неизвестным, это величина параметрического вектора . Тот факт, что р(х) неизвестна, но имеет известный параметрический вид, выразим утверждением, что функция p(x|) полностью известна. При байесовском подходе предполагается, что неизвестный параметрический вектор есть случайная переменная. Всю информацию о до наблюдения выборок дает известная априорная плотность p(). Наблюдение выборок превращает ее в апостериорную плотность p(|), которая, как можно надеяться, имеет крутой подъем вблизи истинного значения .

Основная наша цель—это вычисление плотности p(x|), достаточно достоверной для того, чтобы прийти к получению неизвестной p(х). Это вычисление мы выполняем посредством интегрирования объединенной плотности р(х, |) по . Получаем

причем интегрирование производится по всему пространству параметра ^⁶. Теперь р(х, |) всегда можно представить как произведение р(х, |). Так как х и выборки из получаются независимо, то первый множитель есть просто p(x|). Распределение величины х, таким образом, полностью известно, если известна величина параметрического вектора. В результате имеем

p(x|) = (14)

Это важнейшее уравнение связывает «условную по классу» плотность p(x|) с апостериорной плотностью p(|) неизвестного параметрического вектора. Если вблизи некоторого значения функция p(|) имеет острый пик, то p(x|)  p(x|), так что решение может быть получено подстановкой оценки в качестве истинной величины вектора параметров. Вообще, если существует большая неопределенность относительно точного значения , это уравнение приводит к средней плотности p(x\) по возможным значениям . Таким образом, в случае, когда неизвестные плотности имеют известный параметрический вид, выборки влияют на p(x\) через апостериорную плотность р(|).

3.4. Обучение при восстановлении среднего значения нормальной плотности

3.4.1. Случай одной переменной: p(|)

В данном разделе мы рассмотрим вычисление апостериорной плотности p(|) и требуемой плотности р(x|) для случая, когда р(x |)~N(,), а вектор среднего значения есть неизвестный вектор параметров. Для простоты начнем с одномерного случая, при котором

р(x |)~N(,), (15)

где единственной неизвестной величиной является среднее значение . Предположим, что любое исходное знание, которое мы можем иметь о, можно выразить посредствомизвестной априорной плотности р(). Кроме того, можно предположить, что

p()~N(,), (16)

где и известны. Грубо говоря, величинаесть наше лучшее исходное предположение относительно, аотражает неуверенность в отношении этого предположения. Предположение о том, что априорное распределение для нормальное, в дальнейшем упростит математические выражения. Однако решающее предположение заключается не столько в том, что априорное распределениенормально, сколько в том, что оно существует и известно.

Выбрав априорную плотность для , можно представить ситуацию следующим образом. Вообразим, что величина , получена из множества, подчиняющегося вероятностному закону р(). Будучи однажды получена, эта величина представляет истинное значение и полностью определяет плотность для х. Предположим теперь, что из полученного множества независимо взято п выборок x₁, . . . , x_n. Положив ={x₁, . . . , x_n}, воспользуемся байесовским правилом, чтобы получить выражение

(17)

где — масштабный множитель, зависящий от , но не зависящий от . Из этого уравнения видно, как наблюдение выборочного множества влияет на наше представление об истинном значении , «превращая» априорную плотность р() в апостериорную плотностьp(|). Так как p(x_k|)N(,) иp()N(,) то имеем

(18)

где множители, не зависящие от , включены в константы и. Таким образом, p(|), представляющая собой экспоненциальную функцию квадратичной функции от , также является нормальной плотностью. Так как это остается в силе для любого числа выборок, тоp(|) остается нормальной, когда число п выборок возрастает, и p(|) называют воспроизводящей плотностью. Если воспользоваться p(|)~N(,), то значенияимогут быть найдены приравниванием коэффициентов из уравнения (18) соответствующим коэффициентам из выражения

p(|) = (19)

Отсюда получаем

(20)

, (21)

где m_n есть выборочное среднее

. (22)

Решая уравнения в явном виде относительно и, получаем

(23)

. (24)

Из этих уравнений видно, как комбинация априорной информации и эмпирической информации выборок дает апостериорную плотность p(|). Грубо говоря, представляет наше лучшее предположение относительно после наблюдения п выборок, а отражает нашу неуверенность относительно этого предположения. Так как монотонно убывает с ростом n, стремясь к /п при стремлении п к бесконечности, каждое добавочное наблюдение уменьшает нашу неуверенность относительно истинного значения . При возрастании п. функция p(|) все более заостряется, стремясь к дельта-функции при n. Такое поведение обычно называется байесовским обучением (рис. 3.2).

Рис. 3.2. Обучение среднему при нормальной плотности.

Вообще представляет линейную комбинациюm_n и с неотрицательными коэффициентами, сумма которых равна единице. Поэтому значение , всегда лежит между m_n и . Привеличинастремится к выборочному среднему при стремлениип к бесконечности. Если , то получаем вырожденный случай, при котором априорная уверенность в том, что =, настолько тверда, что никакое число наблюдений не сможет изменить нашего мнения. При другой крайности, когда, мы настолько не уверены в априорном предположении, что принимаем=m_n , исходя при оценке только из выборок. Вообще относительный баланс между исходным представлением и опытными данными определяется отношением к , называемым иногдадогматизмом. Если догматизм не бесконечен, то после получения достаточного числа выборок предполагаемые конкретные значения ине играют роли, астремится к выборочному среднему.