Глава 6 классификация наблюдений

6.1. Проблема классификации

Проблема классификации возникает, когда исследователь делает некоторое число измерений, связанных с каким-то индивидуумом, и на основе этих измерений хочет отнести его к одной из нескольких категорий. Он не может непосредственно определить категорию, к которой относится индивидуум, и вынужден использовать эти измерения. Во многих случаях можно предположить, что имеется конечное число категорий или генеральных совокупностей, из которых мог быть взят рассматриваемый индивидуум, причем каждая из этих категорий характеризуется определенным законом распределения вероятностей для измерений. Таким образом, индивидуум рассматривается как случайное наблюдение над этой генеральной совокупностью. Вопрос ставится так: как по результатам измерений определить, из какой генеральной совокупности взят данный индивидуум.

Проблему классификации можно рассматривать как проблему «статистических решающих функций». Имеется несколько гипотез, каждой из которых соответствует свое распределение вероятностей для наблюдений. Мы должны принять одну из этих гипотез и отвергнуть остальные. Если множество допустимых генеральных совокупностей состоит лишь из двух генеральных совокупностей, то рассматриваемая задача является элементарной задачей проверки одной гипотезы, соответствующей определенному распределению вероятностей, при одной конкурирующей гипотезе.

В одних случаях категории определены заранее тем, что полностью известны распределения вероятностей измерений, В других вид каждого распределения известен,но неизвестны параметры этих распределений, которые и должны быть оценены по выборке из генеральной совокупности.

Рассмотрим пример, связанный с проблемой классификации. Прежде чем поступить в колледж, будущие студенты сдают ряд экзаменов. Оценки этих студентов образуют множество векторов х, векторов результатов измерений. Будущий студент может быть отнесен либо к генеральной совокупности, состоящей из тех студентов, которые успешно закончат или, по крайней мере, имеют возможность успешно закончить обучение в колледже, либо к другой генеральной совокупности, состоящей из студентов, которые не закончат курс обучения успешно. Задача состоит в том, чтобы на основе оценок, полученных будущим студентом на вступительных экзаменах, решить, к какой из этих совокупностей отнести данного студента.

В этой главе будет изложена общая теория классификации, которая затем будет применена к случаю нормального распределения.

6.2. Принципы правильной классификации

6.2.1. Предварительные замечания. При построении процедуры классификации желательно сделать минимальной вероятность неправильной классификации, точнее — добиться того, чтобы в среднем неправильные выводы делались как можно реже. Уточним это. Для удобства рассмотрим случай лишь двух категорий. Затем будет рассмотрен и более общий случай.

Предположим, что наблюдаемый индивидуум относится либо к генеральной совокупности , либо к генеральной совокупности . Классификация наблюдения зависит от вектора результатов измерений x'=(x_l,..., х_р) этого индивидуума. Установим правило, согласно которому индивидуум должен быть отнесен к генеральной совокупности , если он характеризуется определенным множеством значенийи к генеральной совокупностипри других значенияхх₁,. . ., х_р. Результат наблюдения можно рассматривать как точку p-мерного пространства. Разделим это пространство на двеобласти. Если наблюдение попадает в то мы относим индивидуум к генеральной совокупности. Если же наблюдение попадает в R₂, то мы относим индивидуум к генеральной совокупности .

При таком способе классификации можно сделать два рода ошибок. Несмотря на то, что в действительности индивидуум принадлежит генеральной совокупности , статистик может отнести его к генеральной совокупности. Или же индивидуум может принадлежатьстатистик относит его к. Нам необходимо знать относительную невыгоду этих двух видов ошибочной классификации. Пусть «цена» ошибочной классификации первого типа равна С(2|1)(>0), а цена ошибочной классификации второго типа равна С(1|2)(>0). Эти цены могут быть измерены в любых единицах. Как мы увидим в дальнейшем, важным является лишь отношение этих двух цен. Хотя статистик может и не знать этих цен в каждом отдельном случае, он часто имеет, по крайней мере, грубое представление о них.

Таблица 5, состоящая из двух строк и двух столбцов, содержит цены правильной и неправильной классификации. Ясно, что метод, определяющий хорошую классификацию, — это такой метод, который так или иначе минимизирует цену ошибочной классификации.

Таблица 5

Решение статистика

Генеральная совокупность

С (2 | 1)

С(1|2)

1 / 41 2 3 4 > Следующая >>>