Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИАД_методичка_ЛР1-2.doc
Скачиваний:
11
Добавлен:
09.11.2019
Размер:
822.78 Кб
Скачать

2.2 Підготовка початкових даних

Процес підготовки припускає збір даних для аналізу з різних джерел даних і представлення їх у форматі придатному для вживання алгоритмів data mining.

Xelopes підтримує ARFF (Attribute-Relation File Format) формат представлення даних. Він розроблений для бібліотеки Weka в університеті Waikato. ARFF файл є ASCII текстовим файлом, що описує список об'єктів із загальними атрибутами.

Структурно такий файл розділяється на дві частини: заголовок і дані.

У заголовку описується ім'я даних і їх метадані (імена атрибутів і їх типи). Наприклад,

@relation weather

@attribute outlook {sunny, overcast, rainy}

@attribute temperature real

@attribute humidity real

@attribute windy {true, false}

@attribute whatIdo {will_play, may_play, no_play}

У другій частині представлені самі дані. Наприклад,

@data

overcast,75,55,false,will_play

sunny,85,85,false,will_play

sunny,80,90,true,may_play

overcast,83,86,false,no_play

rainy,70,96,false,will_play

rainy,68,80,false,will_play

rainy,65,70,true,no_play

overcast,64,65,true,may_play

sunny,72,95,false,no_play

sunny,69,70,false,will_play

rainy,75,80,false,will_play

sunny,75,70,true,may_play

overcast,72,90,true,may_play

overcast,81,75,false,will_play

rainy,71,91,true,no_play

2.2.1 Заголовок

Заголовок містить інформацію про ім'я файлу і метадані про представлені в ньому дані. Ім'я описується в наступному форматі

@relation <имя>

Ім'я може бути будь-яка послідовність символів. Якщо ім'я включає пропуски то воно повинне бути укладено в лапки. Наприклад

@relation weather

@relation “weather nominal”

Мета дані описують атрибути представлених у файлі даних. Інформація про кожний атрибут записується в окремому рядку і включає ім'я атрибуту і його тип. Очевидно, що імена повинні бути унікальні. Порядок їх опису повинен співпадати з порядком колонок опису даних. Загальний формат опису атрибуту наступний:

@attribute <имя атрибута> <тип атрибута>

Наприклад,

@attribute outlook {sunny, overcast, rainy}

@attribute temperature real

Ім'я атрибуту повинне починатися з символу. У випадку якщо воно містить пропуски, то повинен бути укладено в лапки.

Значенням поля <тип> може бути одне з наступних п'яти типів:

  • real

  • integer

  • <категория>

  • string

  • date [<формат даты>]

Типи real і integer є числовими. Категоріальні типи описуються переліком категорій (можливих значень). Наприклад:

@attribute outlook {sunny, overcast, rainy}

При описі дати можна вказати формат в якому вона записуватиметься (наприклад, “yyyy-MM-dd”).

2.2.2. Дані

Дані представляються в ARFF форматі у вигляді списку значень атрибутів об'єктів після тега @data. Кожний рядок списку відповідає одному об'єкту. Кожна колонка відповідає атрибуту описаному в частині заголовка. Причому порядок проходження колонок повинен співпадати з порядком опису атрибутів. Наприклад:

@data

overcast,75,55,false,will_play

sunny,85,85,false,will_play

sunny,80,90,true,may_play

Часто в термінології data mining такі рядки називають векторами.

Дані можуть містити пропущені (невідомі) значення. В ARFF вони представляються символом «?», наприклад:

@data

4.4,?,1.5,?,Iris-setosa

Рядкові дані у випадку якщо вони містять розділяючі слова символи, повинні полягати в лапки. Наприклад,

@relation LCCvsLCSH

@attribute LCC string

@attribute LCSH string

@data

AG5, 'Encyclopedias and dictionaries.;Twentieth сеntury.'

AS262, 'Science -- Soviet Union -- History.'

AE5, 'Encyclopedias and dictionaries.'

AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Phases.'

AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Tables.'

Дати також повинні бути укладені в лапки. Якщо при описі відповідного атрибуту б вказаний формат дати, то дані повинні бути записані відповідно до нього:

@relation Timestamps

@attribute timestamp DATE "yyyy-MM-dd HH:mm:ss"

@data

"2001-04-03 12:12:12"

"2001-05-03 12:59:55"

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]