Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лаба 3-4 / Кластеризация

.pdf
Скачиваний:
6
Добавлен:
08.04.2022
Размер:
1.03 Mб
Скачать

Кластеризация

Занятие 1

Понятие «Кластеризация»

Кластеризация (или кластерный анализ) – это задача разбиения множества объектов на группы, называемые кластерами. Внутри каждой группы должны оказаться «похожие» объекты, а объекты разных группы должны быть как можно более отличны.

Главное

отличие

кластеризации

от

классификации состоит в том, что перечень групп четко не задан и определяется в процессе работы алгоритма.

Задача кластеризации относится к широкому классу задач обучения без

 

учителя.

2

Цели кластеризации

Понимание данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа.

Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

Этапы кластеризации

1.Отбор выборки объектов для кластеризации.

2.Определение множества переменных, по которым будут оцениваться объекты в выборке. При необходимости –

нормализация значений переменных.

3.Вычисление значений меры сходства между объектами

(например, расстояния).

4.Применение метода кластерного анализа для создания групп сходных объектов (кластеров).

5.Выбор числа кластеров.

6.Представление результатов анализа.

4

Типы входных данных

1. Признаковое описание объектов.

Каждый объект описывается набором своих характеристик, называемых признаками. Признаки могут быть числовыми или нечисловыми.

2. Матрица расстояний между

объектами. Каждый объект описывается расстояниями до всех остальных объектов метрического пространства.

3.

Матрица

сходства

между

объектами. Учитывается степень сходства объекта

с другими объектами выборки в метрическом

пространстве. Сходство

здесь дополняет

расстояние

(различие) между объектами до 1.

5

 

 

 

 

Этапы кластеризации

1.Евклидово расстояние. Наиболее распространенная функция расстояния. Представляет собой геометрическим расстоянием в многомерном пространстве:

2.Квадрат евклидова расстояния. Применяется для придания большего веса более отдаленным друг от друга объектам. Это расстояние вычисляется следующим образом:

3.Расстояние городских кварталов (манхэттенское расстояние). Это расстояние является средним разностей по координатам. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако для этой меры влияние отдельных больших разностей (выбросов) уменьшается (т.к. они не возводятся в квадрат). Формула для расчета манхэттенского расстояния:

6

Этапы кластеризации

4.Расстояние Чебышева. Это расстояние может оказаться полезным, когда нужно определить два объекта как «различные», если они различаются по какой-либо одной координате. Расстояние Чебышева вычисляется по формуле:

5.Степенное расстояние. Применяется в случае, когда необходимо увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Степенное расстояние вычисляется по следующей формуле:

где r и p – параметры, определяемые пользователем. Параметр p ответственен за постепенное взвешивание разностей по отдельным координатам, параметр r ответственен за прогрессивное взвешивание больших расстояний между объектами. Если оба параметра

– r и p — равны двум, то это расстояние совпадает с расстоянием Евклида.

7

Методы кластеризации

1. K-средних. версия EM-алгоритма, применяемого также для разделения смеси гауссиан. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k.

2. Алгоритм FOREL. Алгоритм кластеризации, основанный на идее объединения в один кластер объектов в областях их наибольшего сгущения.

8

Методы кластеризации

3.Иерархическая кластеризация или таксономия

4.Нейронная сеть Кохонена

5.Ансамбль кластеризаторов

9

Иерархическая кластеризация

Дендограмма

Множество алгоритмов кластеризации, направленных на создание иерархии

 

 

вложенных разбиений исходного множества объектов.

 

Функции расстояния между кластерами:

10

Соседние файлы в папке Лаба 3-4