- •Методичні вказівки
- •Лабораторна робота №1 Знайомство з gui інтерфейсом бібліотеки data mining алгоритмів
- •1.1. Вступ
- •1.2. Завантаження і проглядання початкових даних
- •1.3. Інформація про атрибути даних
- •1.4. Статистична інформація про дані
- •1.5. Побудова mining моделі
- •1.7. Представлення моделі у форматі pmml
- •1.8. Використання моделі
- •Лабораторна робота №2 Виконання аналізу даних методами data mining
- •2.1. Вступ
- •2.2 Підготовка початкових даних
- •2.2.1 Заголовок
- •2.3.Настройка процесу побудови mining моделі
- •2.3.1. Настройки для асоціативних правил і сиквенциального аналізу
- •2.3.2. Настройки для дерев рішень (Decision Tree Mining Model)
- •2.3.3. Настройки для математичної залежності побудованої методом svm
- •2.3.4. Настройки кластерної моделі
- •2.4.Анализ моделей
- •2.4.1 Візуалізація асоціативних правил
- •2.4.2. Візуалізація дерев рішень
- •2.4.3. Візуалізація ієрархічної кластеризації
2.2 Підготовка початкових даних
Процес підготовки припускає збір даних для аналізу з різних джерел даних і представлення їх у форматі придатному для вживання алгоритмів data mining.
Xelopes підтримує ARFF (Attribute-Relation File Format) формат представлення даних. Він розроблений для бібліотеки Weka в університеті Waikato. ARFF файл є ASCII текстовим файлом, що описує список об'єктів із загальними атрибутами.
Структурно такий файл розділяється на дві частини: заголовок і дані.
У заголовку описується ім'я даних і їх метадані (імена атрибутів і їх типи). Наприклад,
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {true, false}
@attribute whatIdo {will_play, may_play, no_play}
У другій частині представлені самі дані. Наприклад,
@data
overcast,75,55,false,will_play
sunny,85,85,false,will_play
sunny,80,90,true,may_play
overcast,83,86,false,no_play
rainy,70,96,false,will_play
rainy,68,80,false,will_play
rainy,65,70,true,no_play
overcast,64,65,true,may_play
sunny,72,95,false,no_play
sunny,69,70,false,will_play
rainy,75,80,false,will_play
sunny,75,70,true,may_play
overcast,72,90,true,may_play
overcast,81,75,false,will_play
rainy,71,91,true,no_play
2.2.1 Заголовок
Заголовок містить інформацію про ім'я файлу і метадані про представлені в ньому дані. Ім'я описується в наступному форматі
@relation <имя>
Ім'я може бути будь-яка послідовність символів. Якщо ім'я включає пропуски то воно повинне бути укладено в лапки. Наприклад
@relation weather
@relation “weather nominal”
Мета дані описують атрибути представлених у файлі даних. Інформація про кожний атрибут записується в окремому рядку і включає ім'я атрибуту і його тип. Очевидно, що імена повинні бути унікальні. Порядок їх опису повинен співпадати з порядком колонок опису даних. Загальний формат опису атрибуту наступний:
@attribute <имя атрибута> <тип атрибута>
Наприклад,
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
Ім'я атрибуту повинне починатися з символу. У випадку якщо воно містить пропуски, то повинен бути укладено в лапки.
Значенням поля <тип> може бути одне з наступних п'яти типів:
real
integer
<категория>
string
date [<формат даты>]
Типи real і integer є числовими. Категоріальні типи описуються переліком категорій (можливих значень). Наприклад:
@attribute outlook {sunny, overcast, rainy}
При описі дати можна вказати формат в якому вона записуватиметься (наприклад, “yyyy-MM-dd”).
2.2.2. Дані
Дані представляються в ARFF форматі у вигляді списку значень атрибутів об'єктів після тега @data. Кожний рядок списку відповідає одному об'єкту. Кожна колонка відповідає атрибуту описаному в частині заголовка. Причому порядок проходження колонок повинен співпадати з порядком опису атрибутів. Наприклад:
@data
overcast,75,55,false,will_play
sunny,85,85,false,will_play
sunny,80,90,true,may_play
Часто в термінології data mining такі рядки називають векторами.
Дані можуть містити пропущені (невідомі) значення. В ARFF вони представляються символом «?», наприклад:
@data
4.4,?,1.5,?,Iris-setosa
Рядкові дані у випадку якщо вони містять розділяючі слова символи, повинні полягати в лапки. Наприклад,
@relation LCCvsLCSH
@attribute LCC string
@attribute LCSH string
@data
AG5, 'Encyclopedias and dictionaries.;Twentieth сеntury.'
AS262, 'Science -- Soviet Union -- History.'
AE5, 'Encyclopedias and dictionaries.'
AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Phases.'
AS281, 'Astronomy, Assyro-Babylonian.;Moon -- Tables.'
Дати також повинні бути укладені в лапки. Якщо при описі відповідного атрибуту б вказаний формат дати, то дані повинні бути записані відповідно до нього:
@relation Timestamps
@attribute timestamp DATE "yyyy-MM-dd HH:mm:ss"
@data
"2001-04-03 12:12:12"
"2001-05-03 12:59:55"