Скачиваний:
50
Добавлен:
01.05.2014
Размер:
1.06 Mб
Скачать

6.2.2. Два случая двух генеральных совокупностей.

Рассмотрим способы определения «минимума цены» в двух случаях. В первом случае предположим, что нам известны априорные вероятности, соответствующие двум генеральным совокупностям. Пусть вероятность того, что наблюдение ведется над индивидуумом из генеральной совокупности , равна q, а соответствующая вероятность для генеральнойсовокупности 2 равна q2. Вероятностные свойства генераль­ной совокупности определяются функцией распределения. Для удобства мы будем считать, что у этого распределения существует плотность, хотя случай дискретного распределе­ния требует почти таких же рассуждений. Пусть плотности распределения вероятностей, соответствующие генеральным совокупностям и 2, равны соответственно (x) и р2(x). Если при попадании выборки в область R1 она классифи­цируется как выборка из , то вероятность правильно клас­сифицировать наблюдение при условии, что оно производи­лось действительно над индивидуумом из , равна

(1)

где dx = dx1. . .dxp, а вероятность неправильно классифи­цировать наблюдение, производимое над индивидуумом из , равна

(2)

Аналогично вероятность правильно классифицировать наблю­дение, производимое над индивидуумом из , равна

Р(2|2, R)= (x)dx.(3)

а вероятность неправильно классифицировать такое наблю­дение равна

P(1|2, R) = (x)dx.(4)

Так как вероятность того, что наблюдение производится над , равнаq1 то вероятность такого наблюдения и пра­вильной классификации его равна qP(1|1, R), т. е. это вероятность ситуации, соответствующей левому верхнему углу таблицы 1. Точно так же вероятность того, что наблю­дение производилось над генеральной совокупностью и классифицировалось неправильно, равна P(2|1,R). Ве­роятность, соответствующая нижнему левому углу таб­лицы 1, равна qP(1|2,R) , a вероятность, соответству­ющая правому нижнему углу, равна q2Р(2|2, R).

Чему равны средние потери, или математическое ожи­дание потерь, связанных с неправильной классификацией? Это математическое ожидание равно сумме цен каждой не­правильной классификации, умноженных на вероятность та­кой классификации, т. е.

С(2|1)P(2| 1, R)q + С(1|2)P(1| 2, R)q (5)

(5) выражает средние потери, которые и нужно сделать ми­нимальными. Таким образом, нам нужно разбить простран­ство на такие две области R1 и R2, чтобы математическое ожидание потерь было как можно меньшим. Метод, кото­рый обеспечивает минимум (5) при данных q и q2, назы­вается методом Бейеса.

В примере со студентами «невыгоды» неправильной клас­сификации связаны, с одной стороны, с затратами на обу­чение студентов, которые не закончат успешно курс обуче­ния, и, с другой стороны, с исключением из колледжа воз­можно хороших в будущем студентов.

В другом случае, который мы здесь рассмотрим, апри­орные вероятности неизвестны. В этом случае математиче­ское ожидание потерь при условии, что наблюдение произ­водилось над генеральной совокупностью , равно

С(2|1)P(2| 1,R) = r(1. R). (6)

Если же наблюдение производилось над 2, то математиче­ское ожидание потерь равно

С(1|2)P(1|2,R) = r(2,R). (7)

Нам неизвестно, над какой генеральной совокупностью про­изводилось наблюдение: над или над . К тому же мы не знаем вероятностей этих двух случаев.

Метод R не хуже метода R*, если r(l, R)r(l, R*) и r (2,R)r (2, R*). R лучше, чем R, если хотя бы одно из этих неравенств является строгим. Обычно не существует метода, который был бы лучше или, по крайней мере, не хуже всех остальных методов. Метод R называется до­пустимым, если не существует метода, лучшего, чем R. Нас будет интересовать целый класс допустимых методов. Мы покажем, что при определенных условиях этот класс совпадает с классом методов Бейеса. Класс методов яв­ляется полным, если для любого метода, не входящегов этот класс, существует лучший метод из этого класса. Класс методов называется почти полным, если для любого метода, не входящего в этот класс, существует метод из этого класса, который не хуже такого метода. Мини­мальный полный класс (если он существует) — это такой полный класс, что никакой его собственный подкласс не является полным. Аналогично определяется и минимальный почти полный класс. Мы покажем, что при определенных условиях допустимый класс является минимальным полным классом. Для простоты мы отождествим методы, отличаю­щиеся друг от друга лишь на множествах нулевой вероят­ности. В следующем параграфе мы будем делать утвержде­ния, подразумевая, что они справедливы везде, «за исклю­чением множеств нулевой вероятности», но не оговаривая этого особо.

Принцип, называемый минимаксным, обычно приводит к единственному методу. Метод, называется минимаксным, если максимум математического ожидания потерь r(i,R), является минимальным. С установившейся точки зрения этот метод может считаться оптимальным. Более полное рассмот­рение понятий, содержащихся в этом и последующих пара­графах, можно найти в книгах Вальда [3] и Блекуэлла и Гиршика [1].