- •Цели и задачи
- •Выполнение обучающего задания
- •Создание нового процесса, обзор основных элементов управления
- •Добавление данных
- •Результат процесса
- •Оператор ReplaceMissing Values
- •Оператор Filter Examples
- •Оператор Sample
- •Оператор Replace
- •Оператор Select Attributes
- •Выполнение задания для самостоятельной работы
- •Набор данных
- •Атрибуты с отсутствующими значениями
- •Атрибуты с несоответствующими им значениями
- •Статистические показатели всех атрибутов набора данных
- •Замена отсутствующих показателей произвольной половины атрибутов исходного набора данных
- •Замена значений, несоответствующих атрибутам
- •Удаление атрибутов, у которых остались отсутствующие или несоответствующие атрибутам значения.
Атрибуты с отсутствующими значениями
У следующих атрибутов имеются отсутствующие значения:
Death year – polynomial
Death month – polynomial
Death day – polynomial
Death country – polynomial
Death state – polynomial
Death city – polynomial
Weight – integer
Height – integer
Bats – polynomial
Throws – binomial
Рисунок 35. Окно статистики с сортировкой по missing
Атрибуты с несоответствующими им значениями
Атрибуты с несоответствующим им типам данных:
Birth country –blabla(polynomial)
Birth city – blabla(polynomial)
Throws – blabla (binomial)
Bats – blabla (polynomial)
BirthYear – 9999 (integer)
Информация о несоответствующих данных была получена из окна Detailsв столбцеValuesокна статистики для каждого атрибута (Рисунок 36 и Рисунок 37)
Рисунок 36. Вызов Details
Рисунок 37. окно Details
Статистические показатели всех атрибутов набора данных
Представленная ниже информация - не статистические показатели.
Предоставляется скриншот по вкладке Метаданные и выделяются соотв.столбцы.
Разделяйте информацию по соответ.пунктам методич.указаний.
Указывать нужно не кол-во пропущ.значений в атрибуте, а его тип.
по требованиям в п.6 необходимо выбрать произв.половину атрибутов, перечисленных в п.3, причем среди них должны быть все типы атрибутов.
Приведите в соответствие пункты задания и пункты Вашего отчета.
Базовые статистические показатели доступны на вкладке «Статистика» (Рисунок 38). Least – самое редкое значение атрибута,Most – мода,Average – среднее.
Рисунок 38 Статистические данные исходного набора данных
Замена отсутствующих показателей произвольной половины атрибутов исходного набора данных
Будем заменять отсутствующие наблюдения у следующих атрибутов:
Weight (integer)
Height (integer)
Death country (polynomial)
Death state (polynomial)
Throws (binomial)
Атрибуты Deathcountry,deathstateиthrowsявляются полиномиальными или биномиальными, поэтому значениями для замены будут их моды. Найдем их в окне статистики (Рисунок 39и Рисунок 40).
Рисунок 39. Мода Throws
Рисунок 40. Мода deathCountry и deathState
Таким образом, значения для замены следующие: deathCountry-USA,deathState-CA,throws-R.
Судя по скриншотам у атрибута deathCountry нет пропущенных значений.
Рисунок 40, deathCountry Missing=14 (4я строка, третий столбец)
Теперь проанализируем атрибут weight(integer). Построим график распределения данных для этого атрибута (Рисунок 41)
Рисунок 41. Построение графика weight
На графике видно, что распределение близкое к симметричному, поэтому мы будем брать среднее значение.
Рисунок 42. График weight
Осталось определить распределение для height. Построим график.
Рисунок 43. График распределения height
Из полученного распределения видно (Рисунок 43), что распределение ассиметричное, значит значением для замены должна быть медиана. Для её нахождения воспользуемся пакетом Excel(Рисунок 44).
Рисунок 44. Нахождение медианы в Excel
Значит заменяемое значение для height– 74.
Для замены отсутствующих показателей воспользуемся оператором ReplaceMissingValues. Так как у нас 5 атрибутов, будем использовать 5 последовательно соединенных оператора.
Добавляем и настраиваем оператор ReplaceMissingValuesдляweight(Рисунок 45).
Рисунок 45. Добавление и настройка оператора Replace Missing Values для Weight
Добавляем и настраиваем оператор ReplaceMissingValuesдляheight(Рисунок 46).
Рисунок 46. Добавление и настройка оператора Replace Missing Values для height
Добавляем и настраиваем оператор ReplaceMissingValuesдляdeathCountry(Рисунок 47).
Рисунок 47. Добавление и настройка оператора DeathCountry
Аналогично добавляем ReplaceMissingValuesдляDeathState(Рисунок 48) иthrows(Рисунок 49) и запускаем процесс (Рисунок 50).
Рисунок 48. Настройка оператора Replace Missing Values для атрибута DeathState
Рисунок 49. Настройка оператора Replace Missing Values для атрибута throws
при
Приводим все скриншоты по процессам.
Рисунок 50. 5 операторов Replace Missing Values
Приводим все скриншоты по процессам
На вкладке статистики убеждаемся в том, что все отсутствующие значения атрибутов deathCountry,deathState,height,throwsиweightзаменились на заданные нами (Рисунок 51, Рисунок 52)
Привести вкладку Метаданные с выделенным столбцом Missing
Рисунок 51, Рисунок 52
Рисунок 51. Применение операторов Replace Missing Values
Рисунок 52. Применение операторов Replace Missing Values