- •1. Типы измерительных шкал. Теория измерений.
- •2. Меры близости между объектами в пространстве разнотипных шкал.
- •5. Статистическая постановка задачи распознавания. Байесово решающее правило.
- •6.Классификация алгоритмов распознавания
- •7. Параметрические и непараметрические алгоритмы восстановления плотностей.
- •8 Линейный дискриминант Фишера
- •10. Метод потенциальных функций
- •11. Метод опорных векторов
- •15.Оценка качества распознавания
- •18. Классификация методов таксономии
- •30. Алгоритм grad.
- •26. Задача частичного обучения. Основные подходы к ее обучению.
- •37 Функция конкурентного сходства. Измерение компактности на основание конкурентного сходства.
11. Метод опорных векторов
Метод опорных векторов — это набор схожих алгоритмов вида «обучение с учителем», использующихся для задач классификации и регрессионного анализа. Этот метод принадлежит к семейству линейных классификаторов. Особым свойством метода опорных векторов является непрерывное уменьшение эмпирической ошибки классификации и увеличение зазора. Поэтому этот метод также известен как метод классификатора с максимальным зазором.
Основная идея метода опорных векторов — перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Две параллельных гиперплоскости строятся по обеим сторонам гиперплоскости, разделяющей наши классы. Разделяющей гиперплоскостью будет гиперплоскость, максимизирующая расстояние до двух параллельных гиперплоскостей. Алгоритм работает в предположении, что чем больше разница или расстояние между этими параллельными гиперплоскостями, тем меньше будет средняя ошибка классификатора.
Разделяющая граница
<w,x>-w0=0
Ширина полосы максимальна 2/||w||->max
При наличии объектов, попадающих в полосу вводится штраф
Сводится к задаче выпуклого квадратичного программирования
Решается с помощью множителей Лагранжа
Опорные вектора – объекты по которым проходят границы полосы
15.Оценка качества распознавания
При решении задач распознавания зачастую требуется оценить качество разработанного алгоритма классификации. В ряде случаев требуется сравнить два алгоритма для выяснения лучшего.
При тренировке классификаторов существует опасность того, что классификатор будет слишком хорошо подогнан под тренировочные данные, что может привести к плохим результатам на новых (unseen) данных. Эта проблема называется <перетренировкой> или <переобучением> классификатора.
Оценка
Обычно оценка производительности производится экспериментально, поскольку для аналитической оценки требуется построить формальную спецификацию задачи, а многие из задач распознавания существенно неформальны. Экспериментальная оценка обычно измеряет производительность классификатора. Под производительностью в данном случае понимается его способность принимать верные решения (вероятность верной классификации).
Базовые характеристики
Базовыми характеристиками качества классификации являются уровни ошибок первого и второго рода (error rates). Ошибка первого рода - это "ложный пропуск" (false negative), когда интересующее нас событие ошибочно не обнаруживается. Ошибка второго рода - "ложное обнаружение" (false positive), когда при отсутствии события ошибочно выносится решение о его присутствии.
ROC-кривая
Классификатор может содержать некоторые дополнительные параметры, позволяющие уже после проведенного обучения варьировать соотношение верных и ложных обнаружений.
16. Эффект переобучённости. Представительность выборки Простое определение представительности выборки могло бы выглядеть так: «Представительной считается такая обучающая выборка , которая в заданном пространстве признаков и заданном классе решающих функций позволяет построить правило распознавания новых объектов (контрольной выборки ) с ошибкой, не превышающей заданной величины».
К сожалению, такое определение логично, но не конструктивно. Обучение делается на имеющемся материале, а проверка качества обучения будет делаться на материале, которого в процессе обучения нет и о котором нет никакой предварительной информации. Так что проверить, хорошо ли она будет распознаваться, не возможно.