Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Zadachi_taxonomii.doc
Скачиваний:
16
Добавлен:
22.12.2018
Размер:
407.55 Кб
Скачать

11. Метод опорных векторов

Метод опорных векторов — это набор схожих алгоритмов вида «обучение с учителем», использующихся для задач классификации и регрессионного анализа. Этот метод принадлежит к семейству линейных классификаторов. Особым свойством метода опорных векторов является непрерывное уменьшение эмпирической ошибки классификации и увеличение зазора. Поэтому этот метод также известен как метод классификатора с максимальным зазором.

Основная идея метода опорных векторов — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей наши классы. Разделяющей гиперплоскостью будет гиперплоскость, максимизирующая расстояние до двух параллельных гиперплоскостей. Алгоритм работает в предположении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора.

Разделяющая граница

<w,x>-w0=0

Ширина полосы максимальна 2/||w||->max

При наличии объектов, попадающих в полосу вводится штраф

Сводится к задаче выпуклого квадратичного программирования

Решается с помощью множителей Лагранжа

Опорные вектора – объекты по которым проходят границы полосы

15.Оценка качества распознавания

При решении задач распознавания зачастую требуется оценить качество разработанного алгоритма классификации. В ряде случаев требуется сравнить два алгоритма для выяснения лучшего.

При тренировке классификаторов существует опасность того, что классификатор будет слишком хорошо подогнан под тренировочные данные, что может привести к плохим результатам на новых (unseen) данных. Эта проблема называется <перетренировкой> или <переобучением> классификатора.

Оценка

Обычно оценка производительности производится экспериментально, поскольку для аналитической оценки требуется построить формальную спецификацию задачи, а многие из задач распознавания существенно неформальны. Экспериментальная оценка обычно измеряет производительность классификатора. Под производительностью в данном случае понимается его способность принимать верные решения (вероятность верной классификации).

Базовые характеристики

Базовыми характеристиками качества классификации являются уровни ошибок первого и второго рода (error rates). Ошибка первого рода - это "ложный пропуск" (false negative), когда интересующее нас событие ошибочно не обнаруживается. Ошибка второго рода - "ложное обнаружение" (false positive), когда при отсутствии события ошибочно выносится решение о его присутствии.

ROC-кривая

Классификатор может содержать некоторые дополнительные параметры, позволяющие уже после проведенного обучения варьировать соотношение верных и ложных обнаружений.

16. Эффект переобучённости. Представительность выборки Простое определение представительности выборки могло бы выглядеть так: «Представительной считается такая обучающая выборка , которая в заданном пространстве признаков и заданном классе решающих функций позволяет построить правило распознавания новых объектов (контрольной выборки ) с ошибкой, не превышающей заданной величины».

К сожалению, такое определение логично, но не конструктивно. Обучение делается на имеющемся материале, а проверка качества обучения будет делаться на материале, которого в процессе обучения нет и о котором нет никакой предварительной информации. Так что проверить, хорошо ли она будет распознаваться, не возможно.