- •6.6. Классификация наблюдений в случае нескольких генеральных совокупностей
- •6.7. Классификация наблюдений в случае нескольких многомерных нормальных совокупностей
- •6.8. Пример классификации в случае нескольких многомерных нормальных генеральных совокупностей
- •§6.2. Берксон [1]; Берт [I]; Блекуэлл и Гиршик [1]; Вальд [3].
6.6. Классификация наблюдений в случае нескольких генеральных совокупностей
рассмотрим проблему классификации наблюдений в случае нескольких генеральных совокупностей. Для этого мы распространим методы предшествующего параграфа на случай более чем двух генеральных совокупностей. Пусть —т генеральных совокупностей с плотностями распределения вероятностей р1 (х),..., рт (х) соответственно. Мы хотим разбить пространство наблюдений на т попарно непересекающихся областей R1 .. ., Rm. Если наблюдение попадает в область Ri, то мы скажем, что оно произведено над . Пусть цена ошибочной классификации наблюдения, произведенного над, как наблюдения над равна С (j|i). Вероятность этой ошибочной классификации равна
P(j|i, R)= . (I)
Предположим, что нам известны априорные вероятности q1 .... qm того, что выборка произведена из соответствующей генеральной совокупности. Тогда математическоеожидание потерь будет равно
Области Rm мы желаем выбрать так, чтобы сделать (2) минимальным.
Так как нам известны априорные вероятности, соответствующие каждой генеральной совокупности, то можно определить условную вероятность того, что наблюдение произведено над определенной генеральной совокупностью, при условии, что компоненты вектора x имеют данные значения. Условная вероятность того, что наблюдение произведено над генеральной совокупностью , равна
' . (3)
Если мы охарактеризуем наблюдение как наблюдение над , то математическое ожидание потерь будет равно
(4)
Мы получим минимум математического ожидания потерь, если выберем j так, чтобы (4) было минимальным. Рассмотрим сумму
для всех j (5)
и выберем j так, чтобы (5) было минимальным. (Если минимум (5) достигается при двух различных значениях j, то можно выбрать любое из них.) Этот метод относит точку x к одной из областей . Повторяя его для каждой точки x, мы определим наши области R1 .... Rm. Следовательно, метод классификации заключается в том, что наблюдение классифицируется как наблюдение над , если его результаты попадают в.
Теорема 6.6.1. Если априорная вероятность того, что наблюдение произведено над генеральной совокупностью с плотностью распределения вероятностей (x) (i=1, . . ., m), равна qr и цена ошибочной классификации этого наблюдения как наблюдения над , равна С (j|i), то области классификации , ..., Rm, при которых математическое ожидание цены является минимальным, определяются следующим образом: область Rk состоит из тех точек х, для которых
(6)
(7)
Тогда математическое ожидание потерь для метода R будет равно
(8):
где для х из h(x) = (x). Для метода Бейеса, описанного в теореме, h (х) есть (х) =hi(x)-. Поэтому разность математических ожиданий потерь для метода R* и любого другого метода R равна
(9)
;
Равенство может выполняться лишь в том случае, когда h= min hi (х) для всех х из Rj за исключением множеств нулевой вероятности.
Посмотрим, как можно применить этот метод в случае, когда С(j|i)=1 для всех i и j (i j). Тогда в Rk
(10)
Вычитая из обеих частей неравенства (10)
получим
(11)
В этом случае точка х принадлежит Rk,, если k есть индекс, для которого qipi (х) максимальна, т. е. — наиболее вероятная генеральная совокупность.
Предположим теперь, что априорные вероятности нам неизвестны. Тогда мы не можем определить безусловное математическое ожидание потерь, соответствующих данному методу классификации. Однако можно определить математическое ожидание потерь при условии, что наблюдение производилось над данной генеральной совокупностью. Математическое ожидание потерь при условии, что наблюдение произведено над , равно
(12)
Метод R, по крайней мере, не хуже метода R*, если r (i, R) (i, R*), i = 1,… m; при этом если хотя бы одно из неравенств строгое, то R лучше R*. Метод R является допустимым, если не существует метода R*. который был бы лучше R. Класс методов является полным, если для любого метода R, не принадлежащего этому классу,существует метод R*, входящий в этот класс, который лучше R.
Покажем, что метод Бейеса является допустимым. Пусть R — метод Бейеса, а R* — некоторый другой метод. Поскольку метод R является методом Бейеса,
(13)
Предположим, что r(i, )r(i, R), i = 2, .... т и >0. Тогда
, (14)
и r(1, R)r(1, R*). Аналогично, если qi > 0, то r(i,R)r(i, R*). Таким образом, R* не может быть лучше R и, следовательно, R — допустимый метод.
Теорема 6.6.2. Если, qi > 0 (i = 1, ..., m), то метод Бейеса является допустимым.
Теперь предположим, что C(i|j)=1, ij, и P{} = 0. Из последнего условия следует, что все pi(х) положительны на одних и тех же множествах (за исключением множеств меры 0). Пусть qi = 0 для i =1, ...,t и qi > 0 для i= t+1, ...,m. Тогда для решения Бейеса множество Ri (i=1, ..., t) пусто (с точностью до множества нулевой вероятности), как это видно из (11), т. е. для х из Ri pm(x) =0 . Отсюда следует, что для
i=1,....,t r(i,R)==1-P(i|,R) = 1.
Поэтому (Rt+1, .... Rm)—решение Бейеса для задачи, содержащей pt+1(x), .... рт(х) и qt+1, ..., qm. Из теоремы 6.6.2 следует, что никакой метод R*, для которого Р(i|i, R*) > 0 (i = 1, ....t), не может быть лучше метода Бейеса. Теперь рассмотрим метод R* такой, что содержит множество положительной вероятности, так чтоР(1| 1, R*)>0. Для метода R*, лучшего, чем R,
(15)
В таком случае метод R**, где пусто, i=1, ..., t,
, i = t+l, .... т— 1, и =, дал бы риск такой, чтоР(i|i, R**) = 0, i=l, ...,t, P(i|i, R**) = P(i| i,R*)P(i|i, R), i= t+1, ....m-1.
P(m|m, R**)>P(m|m,R*)P(m|m, R). (16)
Тогда метод () был бы лучше, чем (Rt+1, ..., Rm) для (m-t-мерного решения, что противоречит предшествующим рассуждениям.
Теорема 6.6.3. Если C(i|j)=1 при l j и Р = 0, то метод Бейеса является допустимым.
Теперь покажем, что допустимые методы являются методами Бейеса. Мы ограничимся лишь случаем m=3. Предположим, что
(17)
Это означает, что функция распределения pi(x)/(x) для любого и совместнаяфункция распределения двух отношений являются непрерывными (см. задачу 45 главы 2).
Пусть (R)=1—P(i|i,R) — вероятность принять неправильное решение в случае, когда выборка производится из и используется метод R. Если R является методом Бейеса, то (R) есть функция q1 q2, q3, скажем . Это непрерывная функция переменных q1, q2,, q3;например,
(18)
и совместная функция распределения p2(x)/p1(x) и рэ(х)/р1(x) является непрерывной. (q1, q2, q3) удобно рассматривать как барицентрические координаты точки. Границы пространства троек (q1 q2, q3) и значения функций на границах указаны на рис. 10.
Пусть теперь R* — допустимый метод и (R*) = . Покажем, чтоR* — метод Бейеса. Рассмотрим совокупность методов Бейеса, для которых (q1 ,q2,,q3)= Еслиq3=0, то фактически мы имеем дело с двумерным решением, и поэтому что есть наименьшееприусловии (получается из результатов для двумерного случая). Поэтому и =1. Аналогично, если q2=0, то и=1. Геометрическое место точек (,q2,, q3), для которых есть непрерывная кривая1), соединяющая точки инепрерывно изменяется отдо 1, то существует точка, для которой. Поэтому существует метод Бейеса такой, что и () =. Поскольку метод является допустимым (по теореме 6.6.3), (). но так как методR* — допустимый, ()=. Вследствие единственности решения Бейеса
R* = .
Теорема 6.6.4. Если (17) верно, то любой допустимый метод является методом Бейеса.
Доказательство приведенной выше теоремы показывает, что класс методов Бейеса является полным. Для любого заданного метода R* существует метод Бейеса , который по крайней мере не хуже R* (это следует из полноты класса методов Бейеса). Но если не хуже R*, а R* не хуже , то эти методы совпадают (с точностью до множества нулевой вероятности нуль).
Далее, класс методов Бейеса является минимальным полным классом, поскольку он совпадает с классом допустимых методов.
Теорема 6.6.5. Если (17) верно, то класс методов Бейеса является минимальным полным классом.
Можно рассмотреть также минимаксное решение. Существует решение Бейееа, для которого , ибо совокупность точек, для которых, является связной и включает точки, для которых=1, и точки, для которых= 0. Вследствие непрерывности существует точка, для которой. Так как этот метод является допустимым, то не существует никакого другого метода, имеющего меньший максимум вероятности ошибки (т. е. метода, для которого каждый риск будет меньше). Поэтому получается минимаксный метод.
Для ознакомления с общей теорией статистических решений отсылаем читателя к работам Вальда [3] и Блекуэлла и Гиршика[1]. Другим методом решение минимаксной проблемы было получено Мизесом [1].