Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Содержание.doc
Скачиваний:
9
Добавлен:
28.05.2015
Размер:
1.28 Mб
Скачать

2.2 Методы исследования

Оценка эффективности предложенного алгоритма и сравнение его с классическим методом реализации k-meansосуществлялась экспериментальным способом.

Экспериментальные вычисления выполнялись следующим образом:

1) Перебор значений количества объектов осуществлялся в диапазоне от 6 до 1000. Перебор значений количества атрибутов осуществлялся в диапазоне от 2 до 100. Перебор значений количества кластеров осуществлялся в диапазоне от 2 до 100.

2) Для всех сочетаний характеристик (перечисленных в предыдущем пункте) проводилась генерация исходных данных. При этом значения атрибутов выбирались случайным образом в диапазоне от 0 до 1.

3) Для всех наборов сгенерированных исходных данных кластеризация запускалась 4 раза: с использованием в качестве метрики расстояния Евклида; cиспользованием в качестве метрики расстояния Манхэттена;cиспользование в качестве метрики расстояния Чебышева;cприменением гибридной метрики.

4) В ходе вычислительных экспериментов оценивались следующие характеристики:

  • ошибка кластеризации при использовании метрики Евклида;

  • ошибка кластеризации при использовании метрики Манхэттена;

  • ошибка кластеризации при использовании метрики Чебышева;

  • ошибка кластеризации при использовании гибридной метрики;

  • количество итераций потребовавшихся для нахождения решения при использовании метрики Евклида;

  • количество итераций потребовавшихся для нахождения решения при использовании метрики Манхэттена;

  • Количество итераций потребовавшихся для нахождения решения при использовании метрики Чебышева;

  • Количество итераций потребовавшихся для нахождения решения при использовании гибридной метрики;

  • Количество объектов находящихся в разных группах при кластеризации с использованием метрик Евклида и Манхэттена;

  • Количество объектов находящихся в разных группах при кластеризации с использованием метрик Евклида и Чебышева;

  • Количество объектов находящихся в разных группах при кластеризации с использованием метрик Манхэттена и Чебышева;

  • Количество объектов находящихся в разных группах при кластеризации с использованием гибридной метрики и метрики Евклида;

  • Количество объектов находящихся в разных группах при кластеризации с использованием гибридной метрики и метрики Манхэттена;

  • Количество объектов находящихся в разных группах при кластеризации с использованием гибридной метрики и метрики Чебышева.

2.3 Результаты экспериментальных исследований

фывфыв

3 Практическая реализация

3.1 Общая информация о технической реализации

В результате данных исследований был спроектирован и изготовлен программный комплекс Gibridk-means, который обладает следующими возможностями:

  • проведение кластеризации методом k-means c использованием метрик Евклида, Манхэттена и Чебышева;

  • вычисление точности кластеризации на каждой итерации методом суммирования квадратов ошибок;

  • возможность записи и сохранения в файл протокола протекания процесса кластеризации с расчетом на каждой итерации центов масс кластеров, фиксированием на всех итерациях принадлежности записей к кластерам;

  • возможность кластеризации данных с автоматизированным перебором параметров (количество объектов, количество атрибутов, количество кластеров) в заданном диапазоне с установленным шагом;

  • фиксирование результатов кластеризации (при автоматизированном переборе параметров) с возможностью экспорта результатов для дальнейшей обработки в Microsoft Excel.