Скачиваний:
114
Добавлен:
01.05.2014
Размер:
2.53 Mб
Скачать

3.9. Оценка уровня ошибки

Существуют по меньшей мере две причины, чтобы пожелать уз­нать уровень ошибки классификатора. Первая причина — это оценить, достаточно ли хорошо работает классификатор, чтобы счи­тать его работу удовлетворительной. Вторая состоит в сравнении качества его работы с неким конкурирующим устройством.

Один из подходов к оценке уровня ошибки состоит в вычислении его, исходя из предполагаемой параметрической модели. Например, при разделении на два класса в случае многих нормально распре­деленных величин можно вычислить Р(e) посредством уравнений (45) и (46), подставляя оценки средних значений и ковариационных матриц неизвестных параметров. Такой подход связан, однако, с тремя серьезными трудностями. Во-первых, оценка таким способом Р(e) почти всегда оказывается излишне оптимистичной, так как при этом будут скрыты особенности, связанные со своеобразием и непредставительностью конструктивных выборок. Вторая труд­ность заключается в том, что всегда следует сомневаться в справед­ливости принятой параметрической модели; оценка работы, осно­ванная на той же самой модели, не внушает доверия, за исключе­нием случаев, когда она неблагоприятна. И наконец, в большинстве общих случаев точное вычисление уровня ошибки очень трудно, даже если полностью известна вероятностная структура задачи.

Эмпирический подход, позволяющий избежать указанных труд­ностей, состоит в экспериментальных испытаниях классификатора. На практике это часто осуществляется подачей на классификатор системы контрольных выборок с оценкой уровня ошибки по части выборок, классификация которых оказалась неверной. Излиш­не говорить, что контрольные выборки должны быть отличными от конструктивных, иначе оцениваемый уровень ошибок окажется излишне оптимистичным 14. Если истинный, но неизвестный уровень ошибки классификатора равен р и если классификация k из n неза­висимых, случайно взятых контрольных выборок неверна, то рас­пределение k биномиально 15:

. (49)

Таким образом, неверно классифицированная часть пробных вы­борок и есть в точности оценка р по максимуму правдоподобия:

= (50)

Свойства этой оценки для параметра р биномиального распре­деления хорошо известны. В частности, на рис. 3.6 изображены гра­фики зависимости величины 95%-ного доверительного интервала от и п. Для заданного значения вероятность того, что истинное значение р лежит в интервале между нижней и верхней кривыми при заданном числе п пробных выборок, равна 0,95. Из кривых видно, что, пока п не очень велико, оценку по максимуму правдопо­добия следует принимать с осторожностью. Например, если не было ошибок на 50 пробных выборках, то истинный уровень ошибок лежит в пределах от 0 до 8%. Чтобы быть вполне уверенным в том, что ис­тинный уровень ошибок менее 2%, классификатор не должен оши­биться более чем на 250 пробных выборках.

Потребность в данных для построения классификатора и доба­вочных данных для его оценки представляет дилемму для проекти­ровщика. Если большую часть своих данных он оставит для проекти­рования, то у него не будет уверенности в результатах испытаний. Если большую часть данных он оставит для испытаний, то не полу­чит хорошего устройства. Хотя вопрос о том, как лучше разделить множество выборок на конструктивное и контрольное подмножества, в какой-то мере исследовался и много раз обсуждался, однако окон­чательного ответа па него все еще нет.

В действительности, чтобы построить классификатор и испытать его, имеется много способов и помимо разделения данных. Напри­мер, можно многократно повторять процесс, каждый раз исполь­зуя различное разделение и усредняя оценки получаемых уровней ошибок. Если не важны затраты на вычисления, то имеются веские аргументы в пользу того, чтобы проделать это п раз, используя каждый раз п1 выборок для проектирования и только одну

Рис. 3.6. Доверительные интервалы для оценок по уровню ошибки (Хайлиман, 1962).

выборку для испытания. Основное преимущество такого подхода со­стоит в том, что при каждом проектировании используются факти­чески все выборки, что дает возможность получить хорошее устрой­ство, а с другой стороны, в испытаниях также используются все выборки. Эта процедура, которую можно назвать «поштучным ис­ключением», особо привлекательна, если число имеющихся выборок слишком мало. Если же число выборок очень велико, то, вероятно, достаточно разделить данные отдельно на конструктивное и кон­трольное множества. Так как руководящих принципов для проекти­ровщика в промежуточных ситуациях не существует, по крайней мере утешительно иметь большое число различных приемлемых ва­риантов решения.

Соседние файлы в папке Анализ и интерпретация данных