- •Методичні вказівки
- •Содержание
- •Введение Справочные сведения
- •Лабораторная работа №1 Знакомство с программой интеллектуального анализа данных Weka
- •1.1 Цель работы
- •1.2 Основные теоретические сведения
- •1.2.1 Начало работы
- •1.2.2 Модуль Explorer
- •1.2.3 Загрузка и предварительная обработка данных (Preprocess)
- •1.2.4 Классификация (Classify)
- •1.2.5 Кластеризация (Cluster)
- •1.2.6 Ассоциативные правила (Associate)
- •1.2.7 Отбор признаков (Selecting attributes)
- •1.2.8 Визуализация (Visualizing)
- •2.3 Задание на лабораторную работу
- •3.1.1 Загрузить набор данных ‘weather.Nominal.Arff’ в weka и запустить алгоритм классификации Id3. Ответить на вопросы:
- •Література
1.2.1 Начало работы
Основное окно программы Weka GUI Chooser (см. рис. 1.1). Опишем более подробно назначение управляющих элементов данного окна.
Рис. 1.1. Основное окно программы WEKA.
Основное окно предоставляет доступ к четырем модулям программы:
• Explorer – среда для исследования данных;
• Experimenter – среда для проведения сравнительного анализа работы различных алгоритмов при обработке одного и того же набора данных;
• KnowledgeFlow – данная среда поддерживает такую же функциональность, как и Explorer, но с применением интерфейса drug-and-drop; его достоинство заключается в том, что он поддерживает инкрементное обучение;
• SimpleCLI – командный интерфейс для непосредственного исполнения команд WEKA.
Главное меню программы состоит из четырех пунктов:
Program
LogWindow – открывает окно логов, которое сохраняет всю информацию, выводимую в потоки stdout или stderr. Полезно для сред типа MS Windows, в которых обычно WEKA не запускается из терминала.
Memory usage – использование памяти.
Exit.
Tools – Другие полезные средства.
ArffViewer – редактор arff-файлов.
SqlViewer – модуль просмотра баз данных, для SQL запросов к базам данных посредством JDBC.
Bayes net editor – модуль для редактирования, визуализации и обучения Байесовых сетей (Bayes nets).
Visualization – средства визуализации данных WEKA.
• Plot – отображения 2D-графика набора данных.
• ROC – отображает ранее сохраненную ROC-кривую.
• TreeVisualizer – отображает направленные графы, т.е. деревья решений.
• GraphVisualizer – визуализирует графику в формате XML BIF или DOT для Байесовых сетей.
• BoundaryVisualizer – позволяет визуализировать границы решений классификаторов в двух измерениях.
Help – Online ресурсы, посвященные WEKA.
• Weka homepage – открывает домашнюю страницу проекта WEKA.
• HOWTOs, code snippets, etc. – WekaWiki, содержащая множество примеров и HOWTOs касающихся разработки и использования WEKA.
• Weka on Sourceforge – страница проекта WEKA на Sourceforge.net.
• SystemInfo – содержит значения некоторых переменных среды Java/WEKA.
1.2.2 Модуль Explorer
Это основной модуль программы, который позволяет загрузить и предобработать данные (вкладка Preprocess), решить задачу классификации или регрессии (Classify), кластеризации (Claster), поиска ассоциаций (Associate), селекции признаков (Select Attributes) и визуализации (Visualize).
Каждая задача имеет свою вкладку в общем окне. Сначала доступна только вкладка Preprocess, поскольку для выполнения остальных задач нужны данные. Отметим, что последовательность вкладок не всегда соответствует этапам решения задачи. Например, после загрузки данных в память ЭВМ можно перейти к селекции признаков.
Внизу каждой вкладки отображается строка статуса. Правый щелчок на строке статуса дает контекстное меню с двумя вариантами выбора:
Memory information – отображает количество памяти доступной WEKA.
Run garbage collector – запускает сборщик мусора Java, которые очищает области памяти, которые больше не используются, позволяя освободить память для новых задач. Следует заметить, что сборщик мусора постоянно запущен в фоновом процессе.
Кнопка LOG позволяет увидеть лог событий происшедших за время работы WEKA.
В правой части статусной строки изображена птичка Киви. Если она бегает, то программа производит вычисления, если сидит неподвижно, то программа находится в режиме ожидания. После значка «Х» отображается число запущенных процессов.
Рассмотрим работу на соответствующих вкладках.