- •Глава 3 оценка параметров и обучение с учителем
- •3.1. Оценка параметров и обучение с учителем
- •3.2. Оценка по максимуму правдоподобия
- •3.2.1. Общая идея метода
- •3.2.2. Случай многомерного нормального распределения: неизвестно среднее значение
- •3.2.3. Общий многомерный нормальный случай
- •3.3. Байесовский классификатор
- •3.3.1. Плотности, условные по классу
- •3.3.2. Распределение параметров
- •3.4. Обучение при восстановлении среднего значения нормальной плотности
- •3.4.1. Случай одной переменной: p(|)
- •3.4.2. Случай одной переменной: p(X|)
- •3.4.3. Случай многих переменных
- •3.5. Байесовское обучение в общем случае
- •3.6. Достаточные статистики
- •3.7. Достаточные статистики и семейство экспоненциальных функций
- •3.8. Проблемы размерности
- •3.8.1. Неожиданная трудность
- •3.8.2. Оценка ковариационной матрицы
- •3.8.3. Емкость разделяющей плоскости
- •3.8.4. Уровень ошибки усредненный по задачам
- •3.9. Оценка уровня ошибки
- •3.10. Библиографические и исторические сведения
3.9. Оценка уровня ошибки
Существуют по меньшей мере две причины, чтобы пожелать узнать уровень ошибки классификатора. Первая причина — это оценить, достаточно ли хорошо работает классификатор, чтобы считать его работу удовлетворительной. Вторая состоит в сравнении качества его работы с неким конкурирующим устройством.
Один из подходов к оценке уровня ошибки состоит в вычислении его, исходя из предполагаемой параметрической модели. Например, при разделении на два класса в случае многих нормально распределенных величин можно вычислить Р(e) посредством уравнений (45) и (46), подставляя оценки средних значений и ковариационных матриц неизвестных параметров. Такой подход связан, однако, с тремя серьезными трудностями. Во-первых, оценка таким способом Р(e) почти всегда оказывается излишне оптимистичной, так как при этом будут скрыты особенности, связанные со своеобразием и непредставительностью конструктивных выборок. Вторая трудность заключается в том, что всегда следует сомневаться в справедливости принятой параметрической модели; оценка работы, основанная на той же самой модели, не внушает доверия, за исключением случаев, когда она неблагоприятна. И наконец, в большинстве общих случаев точное вычисление уровня ошибки очень трудно, даже если полностью известна вероятностная структура задачи.
Эмпирический подход, позволяющий избежать указанных трудностей, состоит в экспериментальных испытаниях классификатора. На практике это часто осуществляется подачей на классификатор системы контрольных выборок с оценкой уровня ошибки по части выборок, классификация которых оказалась неверной. Излишне говорить, что контрольные выборки должны быть отличными от конструктивных, иначе оцениваемый уровень ошибок окажется излишне оптимистичным 14. Если истинный, но неизвестный уровень ошибки классификатора равен р и если классификация k из n независимых, случайно взятых контрольных выборок неверна, то распределение k биномиально 15:
. (49)
Таким образом, неверно классифицированная часть пробных выборок и есть в точности оценка р по максимуму правдоподобия:
= (50)
Свойства этой оценки для параметра р биномиального распределения хорошо известны. В частности, на рис. 3.6 изображены графики зависимости величины 95%-ного доверительного интервала от и п. Для заданного значения вероятность того, что истинное значение р лежит в интервале между нижней и верхней кривыми при заданном числе п пробных выборок, равна 0,95. Из кривых видно, что, пока п не очень велико, оценку по максимуму правдоподобия следует принимать с осторожностью. Например, если не было ошибок на 50 пробных выборках, то истинный уровень ошибок лежит в пределах от 0 до 8%. Чтобы быть вполне уверенным в том, что истинный уровень ошибок менее 2%, классификатор не должен ошибиться более чем на 250 пробных выборках.
Потребность в данных для построения классификатора и добавочных данных для его оценки представляет дилемму для проектировщика. Если большую часть своих данных он оставит для проектирования, то у него не будет уверенности в результатах испытаний. Если большую часть данных он оставит для испытаний, то не получит хорошего устройства. Хотя вопрос о том, как лучше разделить множество выборок на конструктивное и контрольное подмножества, в какой-то мере исследовался и много раз обсуждался, однако окончательного ответа па него все еще нет.
В действительности, чтобы построить классификатор и испытать его, имеется много способов и помимо разделения данных. Например, можно многократно повторять процесс, каждый раз используя различное разделение и усредняя оценки получаемых уровней ошибок. Если не важны затраты на вычисления, то имеются веские аргументы в пользу того, чтобы проделать это п раз, используя каждый раз п—1 выборок для проектирования и только одну
Рис. 3.6. Доверительные интервалы для оценок по уровню ошибки (Хайлиман, 1962).
выборку для испытания. Основное преимущество такого подхода состоит в том, что при каждом проектировании используются фактически все выборки, что дает возможность получить хорошее устройство, а с другой стороны, в испытаниях также используются все выборки. Эта процедура, которую можно назвать «поштучным исключением», особо привлекательна, если число имеющихся выборок слишком мало. Если же число выборок очень велико, то, вероятно, достаточно разделить данные отдельно на конструктивное и контрольное множества. Так как руководящих принципов для проектировщика в промежуточных ситуациях не существует, по крайней мере утешительно иметь большое число различных приемлемых вариантов решения.