Скачиваний:
110
Добавлен:
01.05.2014
Размер:
10.78 Mб
Скачать

6.4.4. Простая приближенная процедура

Из различных способов, которые используются для упрощения вычисления и ускорения сходимости, мы кратко рассмотрим один элементарный приближенный метод. Из соотношения (17) ясно, что вероятность (i|xk,i) велика, когда квадрат махалонобисова расстояния (xk-i)t i-1 (xk-i) мал. Предположим, что мы просто вычисляем квадрат евклидова расстояния || xk-i ||2 и находим среднее m ближайшее к xk, и аппроксимируем(i|xk, i) как

Тогда итеративное применение формулы (15) приводит к следую­щей процедуре2 нахождения 1,…, c:

Процедура: Базовые Изоданные

1. Выбираем некоторые начальные значения для средних 1,…, c

Цикл: 2. Классифицируем п выборок, разбивая их на классы по ближайшим средним.

3. Вновь вычисляем средние как средние значения выборок в своем классе.

4. Если какое-нибудь среднее изменило значение, переходим к Циклу; иначе останов.

Это типичные для некоторого класса процедуры, известные как процедуры группировки (кластер-процедуры). Позже мы поместим ее в класс итерационных оптимизационных процедур, поскольку сред­ние имеют тенденцию изменяться так, чтобы минимизировать функ­цию критерия квадратичной ошибки. В настоящий момент мы рас­сматриваем это просто как приближенный способ получения оценки по максимуму правдоподобия для средних. Полученные зна­чения можно принять за ответ или использовать как начальные точки для более точных вычислений.

Интересно посмотреть, как эта процедура ведет себя на примере данных из табл.6.1. Рис. 6.4 показывает последовательность значений для 1 и 2, полученных для нескольких различных начальных точек. Так как взаимная замена 1 и 2 просто взаимозаменяет метки, присвоенные данным, траектория симметрична относительно линии 1= 2. Траектория приводит или к точке 1=- 2,176

Рис. 6.4.Траектории для процедуры. Базовые изоданные.

2= 1,684, или к ее отображению. Это близко к решению, найденно­му методом максимума правдоподобия (1=—2,130 и 2=1,668), и траектории в общем сходны с траекториями, показанными на рис. 6.3. В общем случае, когда пересечение между плотностями компонент мало, можно ожидать, что метод максимального правдо­подобия и процедура Изоданные дадут похожие результаты.

6.5. Байесовское обучение без учителя

6.5.1. Байесовский классификатор

Методы максимума правдоподобия не рассматривают вектор параметров как случайный — он просто неизвестный. Предварительное знание о возможных значениях необязательно, хотя на практике такое знание можно использовать для выбора хорошей начальной точки при процедуре подъема на вершину. В этом разделе мы используем байесовский подход к обучению без учителя. Предположим, что — случайная величина с известным априорным распределением р(), и будем использовать выборки для вычисления апостериорной плотности р(|X).Весьма интересно, что такой анализ в основном будет подобен анализу байесовского обучения с учителем, что указывает на большое формальное сходство задач.

Начнем с четкого определения основных предположений. Предполагаем, что

1. Число классов известно.

2. Априорные вероятности Рj)для каждого класса известны, j=1, ..., с.

3. Вид условных по классу плотностей p(xj, j) известен, j=1, ..., с., но вектор параметров =(1, . . ., c) неизвестен.

4. Часть знаний о заключена в известной априорной плотности p()

5. Остальная часть знаний о содержится в множестве X из п выборок х1, . . ., хn извлеченных независимо из смеси с плотностью

После этого мы могли бы непосредственно начать вычислениеp(|X). Однако давайте сначала посмотрим, как эта плотность ис­пользуется для определения байесовского классификатора. Пред­положим, что состояние природы выбирается с вероятностью Рj) и вектор признаков х выбран в соответствии с вероятностным зако­ном p(xj, j). Чтобы вывести байесовский классификатор, мы должны использовать всю имеющуюся информацию для вычисле­ния апостериорной вероятности Рj|х).

Покажем явно роль выборок, записав это в видеРj|х, X). По правилу Байеса

Так как выбор состояния природы ωj был сделан независимо от ранее полученных выборок: Рj|X)= Рj), то мы получим

Введем вектор неизвестных параметров, написав

Поскольку сам х не зависит от выборок, то p(x|, i, X)=p(x|i, i). Аналогично, так как знание состояния природы при выбранном х нам ничего не говорит о распределении имеем р(|i , X)=p(|X).

Таким образом, получаем

То есть наша наилучшая оценка для p(x|i) получена p(x|i, i) по i. Хорошая это или плохая оценка, зависит от при­роды p(|X), и мы должны, наконец, заняться этой плотностью.

Соседние файлы в папке Анализ и интерпретация данных