Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Харисова / Rapid Miner Лаба 1 Отчет.docx
Скачиваний:
206
Добавлен:
25.04.2017
Размер:
7.56 Mб
Скачать
  1. Оператор ReplaceMissing Values

У атрибута OnlineGamingесть 3 нераспознанных значения (рисунки 12, 13). Для последующего анализа данного набора данных, необходимо заменить нераспознанные данные на какое-то значение в зависимости от типа атрибута. Для полиномиальных или биномиальных атрибутов целесообразно использовать ихмоду. Для числовых атрибутов, характеризующихся симметричным распределением –среднее значение, для характеризующихся асимметричным распределением –медиану. Перейдем на вкладкуDesignи воспользуемся операторомReplaceMissingValues. Для этого в поисковом полеOperatorsнабираем “ReplaceMissingValues” (рисунок 14, шаг 1), выбираем и перетаскиваем нужный нам оператор на рабочий процесс (рисунок 14, шаги 2-3). Теперь соединим выходной портoutоператораRetrieveи входной портexaоператораReplaceMissingValues(рисунок 14, шаг 4), а затем выходной портexaоператораReplaceMissingValuesиresГлавного Процесса (рисунок 14, шаг 5).

Рисунок 14. Добавление Replace Missing Values на главный процесс

При нажатии на ReplaceMissingValuesво вкладкеParameters(в правой части рабочей области), открываются параметры выделенного оператора. Необходимо настроить его как на рисунке 15.

Рисунок 15. Настройка оператора Replace Missing Values

Attribute filter typeотвечает за метод выбора атрибутов (колонок), к которым мы хотим применить данный оператор. В нашем случае этоsingle, т.к. мы хотим изменить только колонкуOnline_Gaming, что мы и указываем вattribute. Вdefaultвыбираемvalue, а вreplenishment valueвводимN. Таким образом, в колонкеOnline_Gamingмы поменяем все ? (нераспознанные значения) наN.Запустим процесс.

Рисунок 16. Результат выполнения Replace Missing Values

По результатам (рисунок 16) видно, что все нераспознанные наблюдения атрибута Online_Gamingзаменились на N. Еще раз в этом убедиться можно на вкладке «Статистика» (рисунок 17).

Рисунок 17. Статистика процесса после выполнения Replace Missing Values

  1. Оператор Filter Examples

У атрибута Online_Shoppingтакже отсутствуют некоторые значения (Рисунок 18).

Рисунок 18. Online_Shopping

Удалим эти наблюдения при помощи FilterExamples.

Находим его во вкладке Operators(рисунок 19, шаг 1), перетаскиваем на рабочую область (рисунок 19, шаги 2-3), соединяемReplaceMissingValuesиFilterExamples(рисунок 19, шаг 4), а затемFilterExamplesиresГлавного Процесса (рисунок 19, шаг 5). Более подробно эти операции были расписаны в разделе «ОператорReplaceMissingValues». Для настройки выделяемFilterExamplesи нажимаем кнопкуAddFilters(рисунок 19, шаг 6).

Рисунок 19. Добавление Filter Examples

Необходимо настроить оператор как на Рисунке 20. Выбираем столбец атрибут Online_Shopping, применяем к нему “isnotmissing”, последнее поле при этом становится недоступным для редактирования. Нажимаем ОК и запускаем процесс.

Рисунок 20. Настройка Filter Examples

Если сравнить рисунок 16 и Рисунок 21, то видно, что все наблюдения с отсутствующим атрибутом Online_Shoppingпропали.

Рисунок 21. Результат применения Filter Examples

  1. Оператор Sample

Удалим 50% наблюдений при помощи оператора Sample.

Найдем, добавим и соединим его с остальными операторами и главным процессом (рисунок 22, шаги 1-5). Более подробно этот процесс описан в разделе «Оператор ReplaceMissingValues».

Рисунок 22. Добавление оператора Sample

Перейдем к настройке оператора Sample. Выберем и настроим его как на рисунке 23.

Рисунок 23. Настройка оператора Sample

В списке sampleвыбираемrelative(относительный), а вsample ratioвводим 0,5. Таким образом, мы получим выборку 50% данных.

Запустим процесс. На Рисунке 24 видно, что наблюдений стало в 2 раза меньше.

Рисунок 24. Результат работы оператора Sample

Соседние файлы в папке Харисова