Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Харисова / Rapid Miner Лаба 1 Отчет.docx
Скачиваний:
206
Добавлен:
25.04.2017
Размер:
7.56 Mб
Скачать
  1. Оператор Replace

Для начала, удалим с главного процесса операторы FilterExamplesиSample. Процесс должен выглядеть как на рисунке 25.

Рисунок 25. Главный процесс после удаления Sample и Filter Examples

Запустим его. У поля Twitter, кроме допустимых значенийY\N, также присутствует значение «99» (Рисунок 26).

Рисунок 26. Значения атрибута twitter

Заменим его на допустимое при помощи оператора Replace. Найдем, добавим и соединим его аналогично остальным процессам (рисунок 27, шаги 1-5).

Рисунок 27. Добавление и настройка оператора Replace

Приступим к настройке. Attribute Filter Typeвыставляем вsingle, в спискеattributeвыбираемTwitter, вreplace whatвводим «99», а вreplace by– “N”. Таким образом, в столбцеTwitterвсе наблюдения, значения которых равны «99» будут заменены на моду “N” (в том, что модой являетсяN, мы узнали из вкладки статистика на рисунке 26).

Запускаем процесс. Нажатием на “Details” на вкладке статистики убеждаемся в том, что теперь все значения атрибутаTwitterэтоYилиN.

Рисунок 28. Значения атрибута Twitter

  1. Оператор Select Attributes

Выбрать часть атрибутов набора данных можно при помощи оператора SelectAttributes. Найдем, добавим и соединим его аналогично предыдущим операторам (шаги 1-5 рисунка 29).

Рисунок 29. Добавление и первичная настройка оператора Select Attributes

Представление рисунков в таком виде не является корректным.

Настроим оператор. В AttributeFilterTypeвыбираемsubset(подмножество) и нажимаем наselectattributes. Откроется окно выбора атрибутов (рисунок 30). Выберем Birth_year, Gender, Marital_Status, Race и Years_on_Internet.

Рисунок 30. Окно выбора атрибутов

Запустим процесс. Отобразились только выбранные нами вкладки (рисунок 31).

Рисунок 31. Результат выполнения Select Attributes

Выполнение задания для самостоятельной работы

  1. Набор данных

Набором данных для выполнения данной лабораторной работы стал файл *.csvс данными о бейсболистах с 1871 по 2014.

Ссылка на источник: http://seanlahman.com/baseball-archive/statistics/

В этом файле содержится информация о следующих атрибутах:

Название

Описание

Тип

Правильные значения

1

PlayerID

Уникальный код каждого игрока

Polynomial

Строковые, напр. Aaardsq01

2

BirthYear

Год рождения игрока

Integer

Числовые, [1800-2015]

3

birthMonth

Месяц рождения игрока

Integer

Числовые, напр. [1-12]

4

BirthDay

День рождения игрока

Integer

Числовые, напр. [1-31]

5

BirthCountry

Страна рождения игрока

Polynomial

Строковые, напр. USA

6

BirthState

Штат рождения игрока

Polynomial

Строковые, напр. FL

7

BirthCity

Город рождения игрока

Polynomial

Строковые, напр. Philadelphia

8

deathYear

Год смерти игрока

Integer

Числовые, [1800-2015]

9

deathMonth

Месяц смерти

Integer

Числовые, [1-12]

10

deathDay

День смерти

Integer

Числовые, [1-31]

11

deathCountry

Страна смерти

Polynomial

Строковые, напр. USA

12

deathState

Штат смерти

Polynomial

Строковые, напр. FL

13

deathCity

Город смерти

Polynomial

Строковые, напр. Philadelphia

14

nameFirst

Имя игрока

Polynomial

Строковые, напр. John

15

nameLast

Фамилия игрока

Polynomial

Строковые, напр. Smith

16

nameGiven

Фамилия+Имя или псевдоним

Polynomial

Строковые, напр. John Smith

17

Weight

Вес игрока в унциях

Integer

Числовые, [150-250]

18

Height

Рост игрока в см.

Integer

Числовые, [50-120]. Рост 180 записывается как 80.

19

Bats

Отбивающая рука игрока

Polynomial

Строковые, R\L\B

20

Throws

Бросковая рука игрока

Binomial

Строковые, R\L

21

Debut

Дата первого появления игрока в главной лиге

Date

Дата в формате YYYY-MM-DD, напр. 2016-11-26

22

FinalGame

Последняя игра игрока в главной лиге

Date

Дата в формате YYYY-MM-DD, напр. 2016-11-26

Для выполнения данной лабораторной работы нам будет достаточно первых 30 записей.

Создадим новый пустой проект и импортируем этот набор данных в RM:

Рисунок 33. Формат входного файла

Рисунок 34. Настройка атрибутов

Удалим атрибуты retroIDиbbrefIDнажатием на шестеренку ->ExcludeColumn, которые для нас бесполезны.

Соседние файлы в папке Харисова