- •Содержание
- •Введение
- •1 Анализ состояния вопроса
- •2 Разработка методики использования гибридных метрик
- •2.1 Методика применения гибридных метрик
- •2.2 Методы исследования
- •2.3 Результаты экспериментальных исследований
- •3 Практическая реализация
- •3.1 Общая информация о технической реализации
- •3.2 Работа с программой Gibrid k-means
- •3.2.1 Главная форма программы
- •3.2.2 Запуск процесса кластеризации данных
- •3.2.2 Форма автоматизация вычислительных экспериментов
- •3.2.3 Планирование и запуск вычислительных экспериментов
- •Выводы по работе
- •Список литературы
2.2 Методы исследования
Оценка эффективности предложенного алгоритма и сравнение его с классическим методом реализации k-meansосуществлялась экспериментальным способом.
Экспериментальные вычисления выполнялись следующим образом:
1) Перебор значений количества объектов осуществлялся в диапазоне от 6 до 1000. Перебор значений количества атрибутов осуществлялся в диапазоне от 2 до 100. Перебор значений количества кластеров осуществлялся в диапазоне от 2 до 100.
2) Для всех сочетаний характеристик (перечисленных в предыдущем пункте) проводилась генерация исходных данных. При этом значения атрибутов выбирались случайным образом в диапазоне от 0 до 1.
3) Для всех наборов сгенерированных исходных данных кластеризация запускалась 4 раза: с использованием в качестве метрики расстояния Евклида; cиспользованием в качестве метрики расстояния Манхэттена;cиспользование в качестве метрики расстояния Чебышева;cприменением гибридной метрики.
4) В ходе вычислительных экспериментов оценивались следующие характеристики:
ошибка кластеризации при использовании метрики Евклида;
ошибка кластеризации при использовании метрики Манхэттена;
ошибка кластеризации при использовании метрики Чебышева;
ошибка кластеризации при использовании гибридной метрики;
количество итераций потребовавшихся для нахождения решения при использовании метрики Евклида;
количество итераций потребовавшихся для нахождения решения при использовании метрики Манхэттена;
Количество итераций потребовавшихся для нахождения решения при использовании метрики Чебышева;
Количество итераций потребовавшихся для нахождения решения при использовании гибридной метрики;
Количество объектов находящихся в разных группах при кластеризации с использованием метрик Евклида и Манхэттена;
Количество объектов находящихся в разных группах при кластеризации с использованием метрик Евклида и Чебышева;
Количество объектов находящихся в разных группах при кластеризации с использованием метрик Манхэттена и Чебышева;
Количество объектов находящихся в разных группах при кластеризации с использованием гибридной метрики и метрики Евклида;
Количество объектов находящихся в разных группах при кластеризации с использованием гибридной метрики и метрики Манхэттена;
Количество объектов находящихся в разных группах при кластеризации с использованием гибридной метрики и метрики Чебышева.
2.3 Результаты экспериментальных исследований
фывфыв
3 Практическая реализация
3.1 Общая информация о технической реализации
В результате данных исследований был спроектирован и изготовлен программный комплекс Gibridk-means, который обладает следующими возможностями:
проведение кластеризации методом k-means c использованием метрик Евклида, Манхэттена и Чебышева;
вычисление точности кластеризации на каждой итерации методом суммирования квадратов ошибок;
возможность записи и сохранения в файл протокола протекания процесса кластеризации с расчетом на каждой итерации центов масс кластеров, фиксированием на всех итерациях принадлежности записей к кластерам;
возможность кластеризации данных с автоматизированным перебором параметров (количество объектов, количество атрибутов, количество кластеров) в заданном диапазоне с установленным шагом;
фиксирование результатов кластеризации (при автоматизированном переборе параметров) с возможностью экспорта результатов для дальнейшей обработки в Microsoft Excel.