- •Классификация без обучения. Непараметрический случай: методы кластер-анализа, таксономия
- •§ I. Общая постановка задачи. Основные понятия и определения
- •1. Расстояния между отдельными объектами и меры близости объектов
- •2. Расстояние между классами и мера близости классов
- •3. Порог
- •4. Функционалы качества разбиения на классы. Экстремальная постановка задачи кластер-анализа, связь с теорией статистического оценивания параметров
- •5. Эталонные точки
- •§ 2. Основные типы задач кластер-анализа и основные типы кластер-процедур
- •§ 3. Описание кластер-процедур и их основных свойств
- •1. Иерархические процедуры
- •2. Параллельные кластер-процедуры
- •3. Исследование иерархических и параллельных процедур «на допустимость»
- •4. Последовательные кластер-процедуры
- •5. Последовательные кластер-процедуры и метод стохастической аппроксимации
5. Эталонные точки
Под эталонными точками группы обычно понимают точки в исследуемом p-мерном факторном пространстве, которые по какому-либо правилу могут быть выбраны в качестве представителей этой группы. На «старте» алгоритма классификации в качестве эталонных точек выбираются, как правило, наблюдения из обучающих или квази-обучающих выборок (если таковые имеются). В дальнейшем, т. е. в ходе итерационного процесса комплектования классов, в качестве эталонных точек берут, например, «центры тяжести» соответствующих групп, полученных к данному промежуточному этапу алгоритма классификации.
§ 2. Основные типы задач кластер-анализа и основные типы кластер-процедур
Во-первых, целесообразно подразделение всех задач кластер-анализа на два основных типа Б1 и Б2 в зависимости от объема п совокупности классифицируемых наблюдений Х1, Х2, ..., Хn.
К типу Б1 отнесем задачи классификации сравнительно небольших по объему совокупностей наблюдений, состоящих, как правило, не более чем из нескольких десятков наблюдений. Сюда, по-видимому, могут быть отнесены задачи классификации некоторых макрообъектов, таких, как страны, города, фирмы, предприятия, типы технологических процессов и т. п.
К типу Б2 будем относить задачи классификации достаточно больших массивов многомерных наблюдений (n — порядка нескольких сотен и тысяч; классификация индивидуумов, семей, изделий, некоторых промышленных и технических микрообъектов). Подобнее разделение задач классификации на два типа хотя и условно, но весьма необходимо, и в первую очередь с точки зрения принципиального различия идей и методов, на основании которых конструируются кластер-процедуры в том и в другом случае. Например, для задач типа Б2 целесообразно построение процедур последовательного типа, обладающих достаточно хорошими, хотя бы асимптотическими по n свойствами.
С точки зрения априорной информации об окончательном числе классов, на которое требуется разбить исследуемую совокупность объектов, задачи кластер-анализа можно подразделить на три основных типа:
а) число классов априори задано;
б) число классов неизвестно и подлежит определению (оценке);
в) число классов неизвестно, но его определение и не входят в условие задачи; требуется построить так называемое иерархическое дерево исследуемой совокупности, состоящей из n объектов (многомерных наблюдений).
Под иерархическим деревом понимается последовательность пар где , где νi - строго возрастающая или строго убывающая последовательность, S(i) — разбиение объектов на классы, соответствующие уровню νi (i = 1, ...,t).
a) Рис.3.3 б)
Иерархическое дерево как геометрическое представление результата действия иерархической процедуры разбиения наблюдений на классы.
а) алгомеративное дерево; б) дивизимное дерево
Иерархическое дерево может быть двух типов. Если S(1) — разбиение, состоящее из n одноэлементных классов, а каждый класс разбиения S(i+1) является объединением одного или более классов разбиения S{i) и разбиение S(t) содержит один класс, то иерархическое дерево называется агломеративным. Если же S(1) — разбиение, состоящее из одного класса, совпадающего с множеством всех исходных наблюдений, а каждый класс разбиения S{i) является объединением одного или более классов разбиения S(i+1), то — дивизимное иерархическое дерево.
На рис. 3.3 схематически изображены два типа иерархических деревьев. Каждая вершина дерева изображает класс объектов.
В соответствии с подразделением задач кластер-анализа на типы можно выделить следующие три основных типа обслуживающих их кластер-процедур:
— процедуры иерархические (агломеративные и дивизимные). Предназначены в основном для решения задач типа (в). Что касается объема классифицируемой совокупности, то формально иерархические процедуры применимы и для задач Б1 и для задач Б2. Однако поскольку эти процедуры основаны на переборе элементов матрицы расстояний ρ(Xi,Xj) (или матрицы соответствующих мер близости), то конструктивно реализуемыми их можно признать лишь в пределах задач типа Б1. Следует отметить, что иерархические процедуры применяются иногда и для решения задач типов Б1а и Б1б (см. ниже);
— процедуры параллельные. Предназначены для решения задач типов Б1а и Б10. Они реализуются с помощью итерационных алгоритмов, на каждом шаге которых одновременно (параллельно) используются все имеющиеся у нас наблюдения;
— процедуры последовательные. Предназначены в основном для решения задач типов Б2а и Б2б. Они реализуются с помощью итерационных алгоритмов, на каждом шаге которых используется лишь небольшая часть, например одно из исходных наблюдений, а также результат разбиения на предыдущем шаге.