- •Цели и задачи
- •Выполнение обучающего задания
- •Создание нового процесса, обзор основных элементов управления
- •Добавление данных
- •Результат процесса
- •Оператор ReplaceMissing Values
- •Оператор Filter Examples
- •Оператор Sample
- •Оператор Replace
- •Оператор Select Attributes
- •Выполнение задания для самостоятельной работы
- •Набор данных
- •Атрибуты с отсутствующими значениями
- •Атрибуты с несоответствующими им значениями
- •Статистические показатели всех атрибутов набора данных
- •Замена отсутствующих показателей произвольной половины атрибутов исходного набора данных
- •Замена значений, несоответствующих атрибутам
- •Удаление атрибутов, у которых остались отсутствующие или несоответствующие атрибутам значения.
Оператор Replace
Для начала, удалим с главного процесса операторы FilterExamplesиSample. Процесс должен выглядеть как на рисунке 25.
Рисунок 25. Главный процесс после удаления Sample и Filter Examples
Запустим его. У поля Twitter, кроме допустимых значенийY\N, также присутствует значение «99» (Рисунок 26).
Рисунок 26. Значения атрибута twitter
Заменим его на допустимое при помощи оператора Replace. Найдем, добавим и соединим его аналогично остальным процессам (рисунок 27, шаги 1-5).
Рисунок 27. Добавление и настройка оператора Replace
Приступим к настройке. Attribute Filter Typeвыставляем вsingle, в спискеattributeвыбираемTwitter, вreplace whatвводим «99», а вreplace by– “N”. Таким образом, в столбцеTwitterвсе наблюдения, значения которых равны «99» будут заменены на моду “N” (в том, что модой являетсяN, мы узнали из вкладки статистика на рисунке 26).
Запускаем процесс. Нажатием на “Details” на вкладке статистики убеждаемся в том, что теперь все значения атрибутаTwitterэтоYилиN.
Рисунок 28. Значения атрибута Twitter
Оператор Select Attributes
Выбрать часть атрибутов набора данных можно при помощи оператора SelectAttributes. Найдем, добавим и соединим его аналогично предыдущим операторам (шаги 1-5 рисунка 29).
Рисунок 29. Добавление и первичная настройка оператора Select Attributes
Представление рисунков в таком виде не является корректным.
Настроим оператор. В AttributeFilterTypeвыбираемsubset(подмножество) и нажимаем наselectattributes. Откроется окно выбора атрибутов (рисунок 30). Выберем Birth_year, Gender, Marital_Status, Race и Years_on_Internet.
Рисунок 30. Окно выбора атрибутов
Запустим процесс. Отобразились только выбранные нами вкладки (рисунок 31).
Рисунок 31. Результат выполнения Select Attributes
Выполнение задания для самостоятельной работы
Набор данных
Набором данных для выполнения данной лабораторной работы стал файл *.csvс данными о бейсболистах с 1871 по 2014.
Ссылка на источник: http://seanlahman.com/baseball-archive/statistics/
В этом файле содержится информация о следующих атрибутах:
№ |
Название |
Описание |
Тип |
Правильные значения |
1 |
PlayerID |
Уникальный код каждого игрока |
Polynomial |
Строковые, напр. Aaardsq01 |
2 |
BirthYear |
Год рождения игрока |
Integer |
Числовые, [1800-2015] |
3 |
birthMonth |
Месяц рождения игрока |
Integer |
Числовые, напр. [1-12] |
4 |
BirthDay |
День рождения игрока |
Integer |
Числовые, напр. [1-31] |
5 |
BirthCountry |
Страна рождения игрока |
Polynomial |
Строковые, напр. USA |
6 |
BirthState |
Штат рождения игрока |
Polynomial |
Строковые, напр. FL |
7 |
BirthCity |
Город рождения игрока |
Polynomial |
Строковые, напр. Philadelphia |
8 |
deathYear |
Год смерти игрока |
Integer |
Числовые, [1800-2015] |
9 |
deathMonth |
Месяц смерти |
Integer |
Числовые, [1-12] |
10 |
deathDay |
День смерти |
Integer |
Числовые, [1-31] |
11 |
deathCountry |
Страна смерти |
Polynomial |
Строковые, напр. USA |
12 |
deathState |
Штат смерти |
Polynomial |
Строковые, напр. FL |
13 |
deathCity |
Город смерти |
Polynomial |
Строковые, напр. Philadelphia |
14 |
nameFirst |
Имя игрока |
Polynomial |
Строковые, напр. John |
15 |
nameLast |
Фамилия игрока |
Polynomial |
Строковые, напр. Smith |
16 |
nameGiven |
Фамилия+Имя или псевдоним |
Polynomial |
Строковые, напр. John Smith |
17 |
Weight |
Вес игрока в унциях |
Integer |
Числовые, [150-250] |
18 |
Height |
Рост игрока в см. |
Integer |
Числовые, [50-120]. Рост 180 записывается как 80. |
19 |
Bats |
Отбивающая рука игрока |
Polynomial |
Строковые, R\L\B |
20 |
Throws |
Бросковая рука игрока |
Binomial |
Строковые, R\L |
21 |
Debut |
Дата первого появления игрока в главной лиге |
Date |
Дата в формате YYYY-MM-DD, напр. 2016-11-26 |
22 |
FinalGame |
Последняя игра игрока в главной лиге |
Date |
Дата в формате YYYY-MM-DD, напр. 2016-11-26 |
Для выполнения данной лабораторной работы нам будет достаточно первых 30 записей.
Создадим новый пустой проект и импортируем этот набор данных в RM:
Рисунок 33. Формат входного файла
Рисунок 34. Настройка атрибутов
Удалим атрибуты retroIDиbbrefIDнажатием на шестеренку ->ExcludeColumn, которые для нас бесполезны.