Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Харисова / Rapid Miner Лаба 1 Отчет.docx
Скачиваний:
206
Добавлен:
25.04.2017
Размер:
7.56 Mб
Скачать
  1. Замена значений, несоответствующих атрибутам

Заменим значения в следующих атрибутах:

  • birthCountry – polynomial

  • Throws – binomial

  • BirthYear - integer

не выполнено условие – должны рассматриваться все типы атрибутов.

Причем для замены использовать логическое выражение в условии настроек.

Заменим несоответствующие значения атрибутов birthCountry,Throwsна их моду. Аналогично предыдущему разделу, найдем моду на вкладке статистики. ДляbirthCountryмодой являетсяUSA(Рисунок 53). ДляThrows–R(Рисунок 54). Для замены несоответствующих значений будем использовать операторReplace.

Рисунок 53. Мода birthCountry

Рисунок 54. Мода throws

Добавим, настроим и соединим оператор Replaceдля атрибутаbirthCountry(Рисунок 55).

Рисунок 55. Оператор Replace для атрибута birthCountry

Добавим оператор Replaceдля атрибутаthrows(Рисунок 56)

Рисунок 56. Оператор Replace для throws

Для замены несоответствующих значений у атрибута BirthYearнеобходимо использовать последовательно 2 оператора:DeclareMissingValuesиReplaceMissingValues.

Добавим DeclareMissingValuesна главный процесс (Рисунок 57). Условием для замены будет логическое выражение. Для его ввода нажмем на кнопку справа от «expressionvalue».

Рисунок 57. Добавление оператора Declare Missing Values

Так как допустимыми значениями для birthYearявляются [1800-2015], то логическое выражение будет иметь следующий вид (Рисунок 58):

Рисунок 58. Логическое выражение для атрибута BirthYear

Теперь необходимо определить значение для замены для BirthYear. Напомним, в числовых атрибутах при симметричном распределении значения заменяются на среднее значение, при асимметричном – на медиану. Для определения типа распределения построим диаграмму распределения дляBirthYear(Рисунок 59).

Рисунок 59. Диаграмма распределения для BirthYear

На диаграмме видно, что распределение ассиметричное, значит необходимо найти медиану в Excel(Рисунок 60).

Рисунок 60. Нахождение медианы в Excel

Добавим оператор ReplaceMissingValuesна главный процесс (Рисунок 61).

Рисунок 61. Добавление оператора Replace Missing Values

Запустим процесс. В окне статистики (Рисунок 62) убеждаемся в том, что теперь birthCountry, ThrowsиBirthYearсодержат только соответствующие значения.

Рисунок 62. Окно статистики для атрибутов BirthYear, throws, birthCountry

  1. Удаление атрибутов, у которых остались отсутствующие или несоответствующие атрибутам значения.

При изучении окна статистики получаем (Рисунок 63 и Рисунок 64), что такими атрибутами являются:

  • Bats – 1 missing

  • Birth city – blabla(7)

  • Death city – 14 missing

  • Death day – 14 missing

  • Death month – 14 missing

  • Death year – 14 missing

Рисунок 63. Поиск отсутствующих значений

Рисунок 64. Поиск несоответствующих значений

Выведем все атрибуты, кроме вышеперечисленных, при помощи оператора SelectAttributes.

Найдем, добавим и настроим его (Рисунок 65). Добавляем его на главный процесс, выбираем attribute filter type=subsetи нажимаем на кнопкуSelectAttributes.

Рисунок 65. Оператор Select Attributes

Добавляем все атрибуты, кроме вышеперечисленных (Рисунок 66).

Рисунок 66. Выбор атрибутов

Запускаем процесс. В окне статистики убеждаемся в отсутствии несоответствующих или отсутствующих значений.

Рисунок 67. Окно статистики после применения оператора Select Attributes

Вывод:

В результате выполнения данной лабораторной работы были приобретены навыки подготовки набора данных для его дальнейшего анализа при помощи системы RapidMiner.

Соседние файлы в папке Харисова