Отчеты / Отчет по работе №2
.docxМИНОБРНАУКИ РОССИИ
Санкт-Петербургский государственный
электротехнический университет
«ЛЭТИ» им. В.И. Ульянова (Ленина)
Кафедра АПУ
отчет
по практической работе №2
по дисциплине «Моделирование систем»
Тема: Анализ методов кластеризации.
Выполнила: Локкина О. С. Группа 5371
Преподаватель: Туральчук К. А.
Санкт-Петербург
2017
1. Описание системы данных.
Данные содержат в себе 400 записей, собранных в больнице за 2 месяца. Целью является прогнозирование у человека хронического заболевания почек (ХЗП).
В наборе данных есть пропущенные значения ("?"). Количество показателей: 24 + class = 25 (11 абсолютная, 14 номинальная).
Класс имеет следующее распределение (рис. 1.1):
Рисунок 1.1
2. В Orange 2.7 была построена схема (рис. 2.1):
Рисунок 2.1
Мера расстояния – расстояние Манхетона, имеющее вид:
.
В данном случае оно дает визуальные наилучшие результаты однородности.
3. Исходная выборка.
Метод K-means.
k=2 |
|
k=3 |
|
k=4 |
|
k=5 |
У всех диаграмм все кластеры, кроме последнего, где преобладает «красный» класс, однородны.
С помощью оценки качества кластеризации Silhouette было показано, что наилучшее количество кластеров в данной случае равно 2.
Метод HClust.
Single-link |
k=2 |
|
k=3 |
||
k=4 |
||
k=5 |
||
Complete-link |
k=2 |
|
k=3 |
||
k=4 |
||
k=5 |
||
Average-link |
k=2 |
Average-link |
k=3 |
||
k=4 |
||
k=5 |
Наиболее равномерное распределение было при методе объединения кластеров Complete-link, как и в K-means, за исключением одного кластера, все однородные.
4. Искусственно сгенерированные наборы
4.1. Набор 1.
Метод K-means.
k=2 |
|
k=3 |
|
k=4 |
|
k=5 |
Все кластеры неоднородны.
С помощью оценки качества кластеризации Silhouette было показано, что наилучшее количество кластеров в данной случае равно 3 или 5.
Метод HClust.
Single-link |
k=2 |
|
k=3 |
||
Complete-link |
Complete-link |
|
k=3 |
||
k=4 |
||
k=5 |
||
Average-link |
k=2 |
Average-link |
k=3 |
||
k=4 |
||
k=5 |
Наилучший результат показал метод объединения Single-link, разбивший 3 класса на 3 однородных кластера.
4.2. Набор 2.
Простой случай: кластеры расположены далеко друг от друга и содержат в себе один класс.
Метод K-means.
k=2 |
|
k=3 |
|
k=4 |
Наилучший результат достигнут при k=4.
Метод HClust.
Single-link |
k=2 |
|
k=3 |
||
k=4 |
||
Complete-link |
k=2 |
Complete-link |
k=3 |
||
k=4 |
||
Average-link |
k=2 |
Average-link |
k=3 |
||
k=4 |
Из-за «простоты» набора все методы справились с поставленной задачей.
4.3. Набор 3.
Три класса, но без явных кластеров (много смешений).
Метод K-means.
k=2 |
|
k=3 |
|
k=4 |
|
k=5 |
Все кластеры неоднородны.
С помощью оценки качества кластеризации Silhouette было показано, что наилучшее количество кластеров в данной случае равно 2.
Метод HClust.
Single-link |
k=2 |
|
k=3 |
||
k=4 |
||
k=5 |
||
Complete-link |
k=2 |
|
k=3 |
||
k=4 |
||
k=5 |
||
Average-link |
k=2 |
Average-link |
k=3 |
||
k=4 |
||
k=5 |
Больше всего однородных кластеров получилось при выборе метода Average-link.
Методы объединения кластеров:
1. Метод одиночной связи (Single-link)
.
2. Метод полной связи (Complete-link)
.
3. Метод средней связи (Average-link)