Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Классификация / glava3 / МЕТОДЫ КЛАСТЕР.doc
Скачиваний:
85
Добавлен:
01.05.2014
Размер:
1.46 Mб
Скачать

5. Эталонные точки

Под эталонными точками группы обычно понимают точки в иссле­дуемом p-мерном факторном пространстве, которые по какому-либо правилу могут быть выбраны в качестве представителей этой группы. На «старте» алгоритма классификации в качестве эталонных точек выбираются, как правило, наблюдения из обучающих или квази-обучающих выборок (если таковые имеются). В дальнейшем, т. е. в ходе итерационного процесса комплектования классов, в качестве эталонных точек берут, например, «центры тяжести» соответствующих групп, полученных к данному промежуточному этапу алгоритма клас­сификации.

§ 2. Основные типы задач кластер-анализа и основные типы кластер-процедур

Во-первых, целесообразно подразделение всех задач кластер-анализа на два основных типа Б1 и Б2 в зависимости от объема п сово­купности классифицируемых наблюдений Х1, Х2, ..., Хn.

К типу Б1 отнесем задачи классификации сравнительно небольших по объему совокупностей наблюдений, состоящих, как правило, не более чем из нескольких десятков наблюдений. Сюда, по-видимо­му, могут быть отнесены задачи классификации некоторых макро­объектов, таких, как страны, города, фирмы, предприятия, типы тех­нологических процессов и т. п.

К типу Б2 будем относить задачи классификации достаточно боль­ших массивов многомерных наблюдений (n — порядка нескольких сотен и тысяч; классификация индивидуумов, семей, изделий, неко­торых промышленных и технических микрообъектов). Подобнее разделение задач классификации на два типа хотя и условно, но весь­ма необходимо, и в первую очередь с точки зрения принципиально­го различия идей и методов, на основании которых конструируются кластер-процедуры в том и в другом случае. Например, для задач типа Б2 целесообразно построение процедур последовательного типа, обладающих достаточно хорошими, хотя бы асимптотическими по n свойствами.

С точки зрения априорной информации об окончательном числе классов, на которое требуется разбить исследуемую совокупность объектов, задачи кластер-анализа можно подразделить на три ос­новных типа:

а) число классов априори задано;

б) число классов неизвестно и подлежит определению (оценке);

в) число классов неизвестно, но его определение и не входят в ус­ловие задачи; требуется построить так называемое иерархическое дерево исследуемой совокупности, состоящей из n объектов (многомерных наблюдений).

Под иерархическим деревом понимается последовательность пар где , где νi - строго возрастающая или строго убывающая последовательность, S(i) — разбиение объектов на классы, соответствующие уровню νi (i = 1, ...,t).

a) Рис.3.3 б)

Иерархическое дерево как геометрическое представление результата действия иерархической процедуры разбиения наблюдений на классы.

а) алгомеративное дерево; б) дивизимное дерево

Иерархическое дерево может быть двух типов. Если S(1) — разбие­ние, состоящее из n одноэлементных классов, а каждый класс разбие­ния S(i+1) является объединением одного или более классов разбие­ния S{i) и разбиение S(t) содержит один класс, то иерархическое де­рево называется агломеративным. Если же S(1) — разбиение, состоящее из одного класса, совпадающего с мно­жеством всех исходных наблюдений, а каждый класс разбиения S{i) является объединением одного или более классов разбиения S(i+1), то дивизимное иерархическое дерево.

На рис. 3.3 схематически изображены два типа иерархических деревьев. Каждая вершина дерева изображает класс объектов.

В соответствии с подразделением задач кластер-анализа на типы можно выделить следующие три основных типа обслуживающих их кластер-процедур:

процедуры иерархические (агломеративные и дивизимные). Предназначены в основном для решения задач типа (в). Что касается объема классифицируемой совокупности, то формально иерархические процедуры применимы и для задач Б1 и для задач Б2. Однако поскольку эти процедуры основаны на переборе элементов матрицы расстоя­ний ρ(Xi,Xj) (или матрицы соответствующих мер близости), то конст­руктивно реализуемыми их можно признать лишь в пределах задач типа Б1. Следует отметить, что иерархические процедуры применяются иногда и для решения задач типов Б и Б (см. ниже);

процедуры параллельные. Предназначены для решения задач типов Б и Б10. Они реализуются с помощью итерационных алгорит­мов, на каждом шаге которых одновременно (параллельно) исполь­зуются все имеющиеся у нас наблюдения;

процедуры последовательные. Предназначены в основном для решения задач типов Б и Б. Они реализуются с помощью итера­ционных алгоритмов, на каждом шаге которых используется лишь небольшая часть, например одно из исходных наблюдений, а также результат разбиения на предыдущем шаге.

Соседние файлы в папке glava3