- •Цели и задачи
- •Выполнение обучающего задания
- •Создание нового процесса, обзор основных элементов управления
- •Добавление данных
- •Результат процесса
- •Оператор ReplaceMissing Values
- •Оператор Filter Examples
- •Оператор Sample
- •Оператор Replace
- •Оператор Select Attributes
- •Выполнение задания для самостоятельной работы
- •Набор данных
- •Атрибуты с отсутствующими значениями
- •Атрибуты с несоответствующими им значениями
- •Статистические показатели всех атрибутов набора данных
- •Замена отсутствующих показателей произвольной половины атрибутов исходного набора данных
- •Замена значений, несоответствующих атрибутам
- •Удаление атрибутов, у которых остались отсутствующие или несоответствующие атрибутам значения.
ФГБОУ ВО
Уфимский государственный авиационный технический университет
Кафедра ВМиК
Отчет
по лабораторной работе №1
Тема: «Система интеллектуального анализа данных RapidMiner»
Выполнил: ст. гр. МО-405
Горбатов В. А.
Проверила: Харисова Э. А.
Уфа 2016
Цели и задачи
Цель: приобрести навыки подготовки набора данных для его интеллектуального анализа с помощью системы RapidMiner
Задачи
Выполнить обучающее задание в соответствии с настоящим руководством по выполнению лабораторной работы
Выполнить задание для самостоятельной работы в соответствии с настоящим руководством по выполнению лабораторной работы
Оформить отчет о выполнении лабораторной работы в соответствии с требованиями к его оформлению
Выполнение обучающего задания
В данной лабораторной работе используется RapidMinerStudio7.2.003 (RM)
Создание нового процесса, обзор основных элементов управления
Все действия в RMвыполняются в рамках процесса (Process). При открытии программы появляется вступительное окно, в котором можно создать новый процесс или открыть уже начатый. Чтобы начать работу сRM, выберем “NEWPROCESS”, затем “Blank” (пустой процесс) (рисунок 1).
Обработка данных в RMпроисходит при помощи операторов (Operators), которые применяются последовательно к источнику данных.
Интерфейс RMвыполнен в виде рабочей области со вкладками, размер и положение которых можно менять (рисунок 2). Основными вкладками являются:
Repository – содержит данные для анализа
Operators– инструменты для анализа данных
Process – вкладка с главным процессом
Parameters – настройка оператора
Рисунок 2. Рабочая область RM
Если вы закрыли одну из вкладок, то открыть её снова можно в списке View->ShowPanel
Рисунок 3. Видимость вкладок
Добавление данных
Чтобы добавить данные в RM, необходимо выбратьAddDataво вкладкеRepositories(рисунок 4)
Рисунок 4. Add Data
Выбираем данные с локального источника данных (MyComputer)
Рисунок 5. Выбор источника данных
Указываем путь к файлу, выбираем файл, нажимаем Next
Рисунок 6. Путь к файлу
Появится окно с параметрами распознавания. Необходимо выставить все параметры как на рисунке 7. Каждый атрибут должен быть помещен в отдельный столбец.
Рисунок 7. Параметры распознавания файла
Затем идет форматирование колонок. Для изменения имени, типа или удаления колонки необходимо нажать на шестеренку в заголовке колонки. В нашем случае изменения не требуются.
Рисунок 8. Форматирование колонок
Теперь выберем куда необходимо сохранить данные. Создаем свою папку правым кликом мыши по LocalRepositoryили соглашаемся с директорией по умолчанию.
Рисунок 9. Выбор расположения исходных данных
Если все предыдущие шаги были выполнены правильно, то файл должен появиться во вкладке Repositories. Перетащим файл на вкладкуProcess, чтобы приступить к анализу (рисунок 10).
Рисунок 10. Добавление файла в главный процесс
Результат процесса
Соединим порт “out” (рисунок 11, пометка 1) исходных данных и “res” (рисунок 11, пометка 2) главного процесса, затем нажмем наRunProcess(илиF11) (рисунок 11, пометка 3).
Рисунок 11. Соединение портов и запуск процесса
После окончания расчетов, программа переключится на рабочую область “Results” (рисунок 12). Мы можем переключаться между рабочими областями нажатием на названия этих областей.
По умолчанию, открывается вкладка Data, которая содержит полученные данные. В нашем случае они не изменились, так как мы не производили никаких действий над исходными данными.
Рисунок 12. Вкладка Data рабочей области Results
Если переключиться на вкладку Statistics, то мы увидим базовые статистические данные по каждому атрибуту, а также количество отсутствующих (или нераспознанных) атрибутов (Рисунок 13).
Рисунок 13. Вкладка статистика