Скачиваний:
50
Добавлен:
01.05.2014
Размер:
1.06 Mб
Скачать

Глава 6 классификация наблюдений

6.1. Проблема классификации

Проблема классификации возникает, когда исследова­тель делает некоторое число измерений, связанных с ка­ким-то индивидуумом, и на основе этих измерений хочет отнести его к одной из нескольких категорий. Он не мо­жет непосредственно определить категорию, к которой от­носится индивидуум, и вынужден использовать эти измере­ния. Во многих случаях можно предположить, что имеется конечное число категорий или генеральных совокупностей, из которых мог быть взят рассматриваемый индивидуум, причем каждая из этих категорий характеризуется опреде­ленным законом распределения вероятностей для измерений. Таким образом, индивидуум рассматривается как случайное наблюдение над этой генеральной совокупностью. Вопрос ставится так: как по результатам измерений определить, из какой генеральной совокупности взят данный индивидуум.

Проблему классификации можно рассматривать как про­блему «статистических решающих функций». Имеется не­сколько гипотез, каждой из которых соответствует свое распределение вероятностей для наблюдений. Мы должны принять одну из этих гипотез и отвергнуть остальные. Если множество допустимых генеральных совокупностей состоит лишь из двух генеральных совокупностей, то рассматривае­мая задача является элементарной задачей проверки одной гипотезы, соответствующей определенному распределению вероятностей, при одной конкурирующей гипотезе.

В одних случаях категории определены заранее тем, что полностью известны распределения вероятностей изме­рений, В других вид каждого распределения известен,но неизвестны параметры этих распределений, которые и должны быть оценены по выборке из генеральной сово­купности.

Рассмотрим пример, связанный с проблемой классифи­кации. Прежде чем поступить в колледж, будущие студенты сдают ряд экзаменов. Оценки этих студентов образуют множество векторов х, векторов результатов измерений. Будущий студент может быть отнесен либо к генеральной совокупности, состоящей из тех студентов, которые успешно закончат или, по крайней мере, имеют возможность успешно закончить обучение в колледже, либо к другой генеральной совокупности, состоящей из студентов, которые не закон­чат курс обучения успешно. Задача состоит в том, чтобы на основе оценок, полученных будущим студентом на всту­пительных экзаменах, решить, к какой из этих совокупно­стей отнести данного студента.

В этой главе будет изложена общая теория классифи­кации, которая затем будет применена к случаю нормаль­ного распределения.

6.2. Принципы правильной классификации

6.2.1. Предварительные замечания. При построении процедуры классификации желательно сделать минимальной вероятность неправильной классификации, точнее — добиться того, чтобы в среднем неправильные выводы делались как можно реже. Уточним это. Для удобства рассмотрим слу­чай лишь двух категорий. Затем будет рассмотрен и более общий случай.

Предположим, что наблюдаемый индивидуум относится либо к генеральной совокупности , либо к генеральной совокупности . Классификация наблюдения зависит от век­тора результатов измерений x'=(xl,..., хр) этого инди­видуума. Установим правило, согласно которому индивидуум должен быть отнесен к генеральной совокупности , если он характеризуется определенным множеством значенийи к генеральной совокупностипри других значенияхх1,. . ., хр. Результат наблюдения можно рассматривать как точку p-мерного пространства. Разделим это пространство на двеобласти. Если наблюдение попадает в то мы относим индивидуум к генеральной совокупности. Если же наблю­дение попадает в R2, то мы относим индивидуум к генераль­ной совокупности .

При таком способе классификации можно сделать два рода ошибок. Несмотря на то, что в действительности ин­дивидуум принадлежит генеральной совокупности , ста­тистик может отнести его к генеральной совокупности. Или же индивидуум может принадлежатьстатистик относит его к. Нам необходимо знать относительную не­выгоду этих двух видов ошибочной классификации. Пусть «цена» ошибочной классификации первого типа равна С(2|1)(>0), а цена ошибочной классификации второго типа равна С(1|2)(>0). Эти цены могут быть измерены в любых единицах. Как мы увидим в дальнейшем, важным является лишь отношение этих двух цен. Хотя статистик может и не знать этих цен в каждом отдельном случае, он часто имеет, по крайней мере, грубое представление о них.

Таблица 5, состоящая из двух строк и двух столбцов, содержит цены правильной и неправильной классификации. Ясно, что метод, определяющий хорошую классификацию, — это такой метод, который так или иначе минимизирует цену ошибочной классификации.

Таблица 5

Решение статистика

Генеральная совокупность

0

С (2 | 1)

С(1|2)

0