- •Цели и задачи
- •Выполнение обучающего задания
- •Создание нового процесса, обзор основных элементов управления
- •Добавление данных
- •Результат процесса
- •Оператор ReplaceMissing Values
- •Оператор Filter Examples
- •Оператор Sample
- •Оператор Replace
- •Оператор Select Attributes
- •Выполнение задания для самостоятельной работы
- •Набор данных
- •Атрибуты с отсутствующими значениями
- •Атрибуты с несоответствующими им значениями
- •Статистические показатели всех атрибутов набора данных
- •Замена отсутствующих показателей произвольной половины атрибутов исходного набора данных
- •Замена значений, несоответствующих атрибутам
- •Удаление атрибутов, у которых остались отсутствующие или несоответствующие атрибутам значения.
Замена значений, несоответствующих атрибутам
Заменим значения в следующих атрибутах:
birthCountry – polynomial
Throws – binomial
BirthYear - integer
не выполнено условие – должны рассматриваться все типы атрибутов.
Причем для замены использовать логическое выражение в условии настроек.
Заменим несоответствующие значения атрибутов birthCountry,Throwsна их моду. Аналогично предыдущему разделу, найдем моду на вкладке статистики. ДляbirthCountryмодой являетсяUSA(Рисунок 53). ДляThrows–R(Рисунок 54). Для замены несоответствующих значений будем использовать операторReplace.
Рисунок 53. Мода birthCountry
Рисунок 54. Мода throws
Добавим, настроим и соединим оператор Replaceдля атрибутаbirthCountry(Рисунок 55).
Рисунок 55. Оператор Replace для атрибута birthCountry
Добавим оператор Replaceдля атрибутаthrows(Рисунок 56)
Рисунок 56. Оператор Replace для throws
Для замены несоответствующих значений у атрибута BirthYearнеобходимо использовать последовательно 2 оператора:DeclareMissingValuesиReplaceMissingValues.
Добавим DeclareMissingValuesна главный процесс (Рисунок 57). Условием для замены будет логическое выражение. Для его ввода нажмем на кнопку справа от «expressionvalue».
Рисунок 57. Добавление оператора Declare Missing Values
Так как допустимыми значениями для birthYearявляются [1800-2015], то логическое выражение будет иметь следующий вид (Рисунок 58):
Рисунок 58. Логическое выражение для атрибута BirthYear
Теперь необходимо определить значение для замены для BirthYear. Напомним, в числовых атрибутах при симметричном распределении значения заменяются на среднее значение, при асимметричном – на медиану. Для определения типа распределения построим диаграмму распределения дляBirthYear(Рисунок 59).
Рисунок 59. Диаграмма распределения для BirthYear
На диаграмме видно, что распределение ассиметричное, значит необходимо найти медиану в Excel(Рисунок 60).
Рисунок 60. Нахождение медианы в Excel
Добавим оператор ReplaceMissingValuesна главный процесс (Рисунок 61).
Рисунок 61. Добавление оператора Replace Missing Values
Запустим процесс. В окне статистики (Рисунок 62) убеждаемся в том, что теперь birthCountry, ThrowsиBirthYearсодержат только соответствующие значения.
Рисунок 62. Окно статистики для атрибутов BirthYear, throws, birthCountry
Удаление атрибутов, у которых остались отсутствующие или несоответствующие атрибутам значения.
При изучении окна статистики получаем (Рисунок 63 и Рисунок 64), что такими атрибутами являются:
Bats – 1 missing
Birth city – blabla(7)
Death city – 14 missing
Death day – 14 missing
Death month – 14 missing
Death year – 14 missing
Рисунок 63. Поиск отсутствующих значений
Рисунок 64. Поиск несоответствующих значений
Выведем все атрибуты, кроме вышеперечисленных, при помощи оператора SelectAttributes.
Найдем, добавим и настроим его (Рисунок 65). Добавляем его на главный процесс, выбираем attribute filter type=subsetи нажимаем на кнопкуSelectAttributes.
Рисунок 65. Оператор Select Attributes
Добавляем все атрибуты, кроме вышеперечисленных (Рисунок 66).
Рисунок 66. Выбор атрибутов
Запускаем процесс. В окне статистики убеждаемся в отсутствии несоответствующих или отсутствующих значений.
Рисунок 67. Окно статистики после применения оператора Select Attributes
Вывод:
В результате выполнения данной лабораторной работы были приобретены навыки подготовки набора данных для его дальнейшего анализа при помощи системы RapidMiner.