Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

IAD_lb4

.doc
Скачиваний:
35
Добавлен:
13.04.2015
Размер:
28.16 Кб
Скачать

Лабораторная работа № 4

«Кластеризация массивов данных с помощью алгоритма k-means»

4.1 Цель работы: ознакомиться с основными алгоритмами четкого кластерного анализа, программно реализовать алгоритм кластеризации k-means и протестировать его работу.

4.2 Ход работы

1. Ознакомиться с основными мерами расстояний между объектами множества данных (евклидово расстояние, нормализованное евклидово расстояние, расстояние Махаланобиса, расстояние по Манхеттену, метрика Минковского, косинусное расстояние, расстояние Хэмминга, расстояние Джаккарда).

2. Ознакомиться с основными алгоритмами четкой кластеризации.

Основные методы четкой кластеризации см. в конспекте лекций по курсу «Интеллектуальный анализ данных», в книге Han, Kamber. «Data Mining. Concepts and Techniques» (2nd ed., 2006), а также в книге Xu «Clustering» (2008).

2. Ознакомиться с алгоритмом кластеризации k-means.

3. Программно реализовать алгоритм k-means (на любом языке программирования).

В диалоговом окне программы (или командной строке) должны отражаться матрица координат центроидов кластеров, вектор сумм расстояний объектов кластера до его центроида, матрица расстояний объектов кластера до его центроида.

4. Выполнить кластеризацию выборок данных Wine и Iris UCI-репозитория. Охарактеризовать полученные результаты.

5. Полученные в ходе лабораторной работы результаты занести в отчет.

Содержание отчета:

- титульный лист;

- цель работы;

- ход работы;

- основные функции реализованной программы;

- выводы.

4.3 Контрольные вопросы

1. Дайте определение четкого кластерного анализа. Чем четкая кластеризация отличается от нечеткой?

2. Перечислите и охарактеризуйте основные метрики расстояний между объектами множества данных.

3. Перечислите основные алгоритмы четкой кластеризации.

4. Охарактеризуйте алгоритм кластеризации k-means.

5. Какими достоинствами и недостатками обладает алгоритм k-means?

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]