Добавил:

Studfiles2 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Санкт-Петербургский государственный электротехнический университет "ЛЭТИ"

Предмет:

Анализ и интерпретация данных

Файл:

Анализ и интерпретация данных / Глава_6.DOC

Скачиваний:

110

Добавлен:

01.05.2014

Размер:

10.78 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 45 / 195 6 7 8 9 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

6.4.4. Простая приближенная процедура

Из различных способов, которые используются для упрощения вычисления и ускорения сходимости, мы кратко рассмотрим один элементарный приближенный метод. Из соотношения (17) ясно, что вероятность (_i|x_k,_i) велика, когда квадрат махалонобисова расстояния (x_k-_i)^t _i^-1 (x_k-_i) мал. Предположим, что мы просто вычисляем квадрат евклидова расстояния || x_k-_i ||² и находим среднее _m ближайшее к x_k, и аппроксимируем(_i|x_k, _i) как

Тогда итеративное применение формулы (15) приводит к следующей процедуре^² нахождения ₁,…, _c:

Процедура: Базовые Изоданные

1. Выбираем некоторые начальные значения для средних ₁,…, _c

Цикл: 2. Классифицируем п выборок, разбивая их на классы по ближайшим средним.

3. Вновь вычисляем средние как средние значения выборок в своем классе.

4. Если какое-нибудь среднее изменило значение, переходим к Циклу; иначе останов.

Это типичные для некоторого класса процедуры, известные как процедуры группировки (кластер-процедуры). Позже мы поместим ее в класс итерационных оптимизационных процедур, поскольку средние имеют тенденцию изменяться так, чтобы минимизировать функцию критерия квадратичной ошибки. В настоящий момент мы рассматриваем это просто как приближенный способ получения оценки по максимуму правдоподобия для средних. Полученные значения можно принять за ответ или использовать как начальные точки для более точных вычислений.

Интересно посмотреть, как эта процедура ведет себя на примере данных из табл.6.1. Рис. 6.4 показывает последовательность значений для ₁ и ₂, полученных для нескольких различных начальных точек. Так как взаимная замена ₁ и ₂ просто взаимозаменяет метки, присвоенные данным, траектория симметрична относительно линии ₁= ₂. Траектория приводит или к точке ₁=- 2,176

Рис. 6.4.Траектории для процедуры. Базовые изоданные.

₂= 1,684, или к ее отображению. Это близко к решению, найденному методом максимума правдоподобия (₁=—2,130 и ₂=1,668), и траектории в общем сходны с траекториями, показанными на рис. 6.3. В общем случае, когда пересечение между плотностями компонент мало, можно ожидать, что метод максимального правдоподобия и процедура Изоданные дадут похожие результаты.

6.5. Байесовское обучение без учителя

6.5.1. Байесовский классификатор

Методы максимума правдоподобия не рассматривают вектор параметров  как случайный — он просто неизвестный. Предварительное знание о возможных значениях  необязательно, хотя на практике такое знание можно использовать для выбора хорошей начальной точки при процедуре подъема на вершину. В этом разделе мы используем байесовский подход к обучению без учителя. Предположим, что  — случайная величина с известным априорным распределением р(), и будем использовать выборки для вычисления апостериорной плотности р(|X).Весьма интересно, что такой анализ в основном будет подобен анализу байесовского обучения с учителем, что указывает на большое формальное сходство задач.

Начнем с четкого определения основных предположений. Предполагаем, что

1. Число классов известно.

2. Априорные вероятности Р(ω_j)для каждого класса известны, j=1, ..., с.

3. Вид условных по классу плотностей p(x|ω_j, _j) известен, j=1, ..., с., но вектор параметров =(₁, . . ., _c) неизвестен.

4. Часть знаний о  заключена в известной априорной плотности p()

5. Остальная часть знаний о  содержится в множестве X из п выборок х₁, . . ., х_n извлеченных независимо из смеси с плотностью

После этого мы могли бы непосредственно начать вычислениеp(|X). Однако давайте сначала посмотрим, как эта плотность используется для определения байесовского классификатора. Предположим, что состояние природы выбирается с вероятностью Р(ω_j) и вектор признаков х выбран в соответствии с вероятностным законом p(x|ω_j, _j). Чтобы вывести байесовский классификатор, мы должны использовать всю имеющуюся информацию для вычисления апостериорной вероятности Р(ω_j|х).

Покажем явно роль выборок, записав это в видеР(ω_j|х, X). По правилу Байеса

Так как выбор состояния природы ω_j был сделан независимо от ранее полученных выборок: Р(ω_j|X)= Р(ω_j), то мы получим

Введем вектор неизвестных параметров, написав

Поскольку сам х не зависит от выборок, то p(x|, _i, X)=p(x|_i_, _i). Аналогично, так как знание состояния природы при выбранном х нам ничего не говорит о распределении  имеем р(|_i , X)=p(|X).

Таким образом, получаем

То есть наша наилучшая оценка для p(x|_i) получена p(x|_i_, _i) по _i. Хорошая это или плохая оценка, зависит от природы p(|X), и мы должны, наконец, заняться этой плотностью.

<<< < Предыдущая 1 2 3 45 / 195 6 7 8 9 10 11 12 13 14 15 16 17 18 19 > Следующая >>>

Соседние файлы в папке Анализ и интерпретация данных

#
01.05.20142.53 Mб114Глава_3.doc
#
01.05.20144.12 Mб108Глава_4.doc
#
01.05.20142.76 Mб106Глава_5.DOC
#
01.05.201410.78 Mб110Глава_6.DOC