Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Харисова / Rapid Miner Лаба 1 Отчет.docx
Скачиваний:
206
Добавлен:
25.04.2017
Размер:
7.56 Mб
Скачать
  1. Атрибуты с отсутствующими значениями

У следующих атрибутов имеются отсутствующие значения:

  • Death year – polynomial

  • Death month – polynomial

  • Death day – polynomial

  • Death country – polynomial

  • Death state – polynomial

  • Death city – polynomial

  • Weight – integer

  • Height – integer

  • Bats – polynomial

  • Throws – binomial

Рисунок 35. Окно статистики с сортировкой по missing

  1. Атрибуты с несоответствующими им значениями

Атрибуты с несоответствующим им типам данных:

  • Birth country –blabla(polynomial)

  • Birth city – blabla(polynomial)

  • Throws – blabla (binomial)

  • Bats – blabla (polynomial)

  • BirthYear – 9999 (integer)

Информация о несоответствующих данных была получена из окна Detailsв столбцеValuesокна статистики для каждого атрибута (Рисунок 36 и Рисунок 37)

Рисунок 36. Вызов Details

Рисунок 37. окно Details

  1. Статистические показатели всех атрибутов набора данных

Представленная ниже информация - не статистические показатели.

Предоставляется скриншот по вкладке Метаданные и выделяются соотв.столбцы.

Разделяйте информацию по соответ.пунктам методич.указаний.

Указывать нужно не кол-во пропущ.значений в атрибуте, а его тип.

по требованиям в п.6 необходимо выбрать произв.половину атрибутов, перечисленных в п.3, причем среди них должны быть все типы атрибутов.

Приведите в соответствие пункты задания и пункты Вашего отчета.

Базовые статистические показатели доступны на вкладке «Статистика» (Рисунок 38). Least – самое редкое значение атрибута,Most – мода,Average – среднее.

Рисунок 38 Статистические данные исходного набора данных

  1. Замена отсутствующих показателей произвольной половины атрибутов исходного набора данных

Будем заменять отсутствующие наблюдения у следующих атрибутов:

  • Weight (integer)

  • Height (integer)

  • Death country (polynomial)

  • Death state (polynomial)

  • Throws (binomial)

Атрибуты Deathcountry,deathstateиthrowsявляются полиномиальными или биномиальными, поэтому значениями для замены будут их моды. Найдем их в окне статистики (Рисунок 39и Рисунок 40).

Рисунок 39. Мода Throws

Рисунок 40. Мода deathCountry и deathState

Таким образом, значения для замены следующие: deathCountry-USA,deathState-CA,throws-R.

Судя по скриншотам у атрибута deathCountry нет пропущенных значений.

Рисунок 40, deathCountry Missing=14 (4я строка, третий столбец)

Теперь проанализируем атрибут weight(integer). Построим график распределения данных для этого атрибута (Рисунок 41)

Рисунок 41. Построение графика weight

На графике видно, что распределение близкое к симметричному, поэтому мы будем брать среднее значение.

Рисунок 42. График weight

Осталось определить распределение для height. Построим график.

Рисунок 43. График распределения height

Из полученного распределения видно (Рисунок 43), что распределение ассиметричное, значит значением для замены должна быть медиана. Для её нахождения воспользуемся пакетом Excel(Рисунок 44).

Рисунок 44. Нахождение медианы в Excel

Значит заменяемое значение для height– 74.

Для замены отсутствующих показателей воспользуемся оператором ReplaceMissingValues. Так как у нас 5 атрибутов, будем использовать 5 последовательно соединенных оператора.

Добавляем и настраиваем оператор ReplaceMissingValuesдляweight(Рисунок 45).

Рисунок 45. Добавление и настройка оператора Replace Missing Values для Weight

Добавляем и настраиваем оператор ReplaceMissingValuesдляheight(Рисунок 46).

Рисунок 46. Добавление и настройка оператора Replace Missing Values для height

Добавляем и настраиваем оператор ReplaceMissingValuesдляdeathCountry(Рисунок 47).

Рисунок 47. Добавление и настройка оператора DeathCountry

Аналогично добавляем ReplaceMissingValuesдляDeathState(Рисунок 48) иthrows(Рисунок 49) и запускаем процесс (Рисунок 50).

Рисунок 48. Настройка оператора Replace Missing Values для атрибута DeathState

Рисунок 49. Настройка оператора Replace Missing Values для атрибута throws

при

Приводим все скриншоты по процессам.

Рисунок 50. 5 операторов Replace Missing Values

Приводим все скриншоты по процессам

На вкладке статистики убеждаемся в том, что все отсутствующие значения атрибутов deathCountry,deathState,height,throwsиweightзаменились на заданные нами (Рисунок 51, Рисунок 52)

Привести вкладку Метаданные с выделенным столбцом Missing

Рисунок 51, Рисунок 52

Рисунок 51. Применение операторов Replace Missing Values

Рисунок 52. Применение операторов Replace Missing Values

Соседние файлы в папке Харисова