Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Отчеты / Отчет по работе №2

.docx
Скачиваний:
29
Добавлен:
12.02.2018
Размер:
582.87 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Санкт-Петербургский государственный

электротехнический университет

«ЛЭТИ» им. В.И. Ульянова (Ленина)

Кафедра АПУ

отчет

по практической работе №2

по дисциплине «Моделирование систем»

Тема: Анализ методов кластеризации.

Выполнила: Локкина О. С. Группа 5371

Преподаватель: Туральчук К. А.

Санкт-Петербург

2017

1. Описание системы данных.

Данные содержат в себе 400 записей, собранных в больнице за 2 месяца. Целью является прогнозирование у человека хронического заболевания почек (ХЗП).

В наборе данных есть пропущенные значения ("?"). Количество показателей: 24 + class = 25 (11 абсолютная, 14 номинальная).

Класс имеет следующее распределение (рис. 1.1):

Рисунок 1.1

2. В Orange 2.7 была построена схема (рис. 2.1):

Рисунок 2.1

Мера расстояния – расстояние Манхетона, имеющее вид:

.

В данном случае оно дает визуальные наилучшие результаты однородности.

3. Исходная выборка.

Метод K-means.

k=2

k=3

k=4

k=5

У всех диаграмм все кластеры, кроме последнего, где преобладает «красный» класс, однородны.

С помощью оценки качества кластеризации Silhouette было показано, что наилучшее количество кластеров в данной случае равно 2.

Метод HClust.

Single-link

k=2

k=3

k=4

k=5

Complete-link

k=2

k=3

k=4

k=5

Average-link

k=2

Average-link

k=3

k=4

k=5

Наиболее равномерное распределение было при методе объединения кластеров Complete-link, как и в K-means, за исключением одного кластера, все однородные.

4. Искусственно сгенерированные наборы

4.1. Набор 1.

Метод K-means.

k=2

k=3

k=4

k=5

Все кластеры неоднородны.

С помощью оценки качества кластеризации Silhouette было показано, что наилучшее количество кластеров в данной случае равно 3 или 5.

Метод HClust.

Single-link

k=2

k=3

Complete-link

Complete-link

k=2

k=3

k=4

k=5

Average-link

k=2

Average-link

k=3

k=4

k=5

Наилучший результат показал метод объединения Single-link, разбивший 3 класса на 3 однородных кластера.

4.2. Набор 2.

Простой случай: кластеры расположены далеко друг от друга и содержат в себе один класс.

Метод K-means.

k=2

k=3

k=4

Наилучший результат достигнут при k=4.

Метод HClust.

Single-link

k=2

k=3

k=4

Complete-link

k=2

Complete-link

k=3

k=4

Average-link

k=2

Average-link

k=3

k=4

Из-за «простоты» набора все методы справились с поставленной задачей.

4.3. Набор 3.

Три класса, но без явных кластеров (много смешений).

Метод K-means.

k=2

k=3

k=4

k=5

Все кластеры неоднородны.

С помощью оценки качества кластеризации Silhouette было показано, что наилучшее количество кластеров в данной случае равно 2.

Метод HClust.

Single-link

k=2

k=3

k=4

k=5

Complete-link

k=2

k=3

k=4

k=5

Average-link

k=2

Average-link

k=3

k=4

k=5

Больше всего однородных кластеров получилось при выборе метода Average-link.

Методы объединения кластеров:

1. Метод одиночной связи (Single-link)

.

2. Метод полной связи (Complete-link)

.

3. Метод средней связи (Average-link)