Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИАД_методичка_ЛР1-2.doc
Скачиваний:
11
Добавлен:
09.11.2019
Размер:
822.78 Кб
Скачать

1.7. Представлення моделі у форматі pmml

Мова розмітки для прогнозного моделювання (Predictive Model Markup Language - PMML) є мовою розмітки на основі XML, розробленою Data Mining Group (DMG). Вона забезпечуює програмним додаткам спосіб визначення моделей, що належать до прогнозної аналітики й аналізу даних, а також обмін такими моделями між PMML-сумісними додатками.

PMML надає додаткам незалежний від виробників метод визначення моделі. Він дозволяє користувачам розробляти моделі в додатку одного виробника, а потім використовувати додатки інших виробників для візуалізації, аналізу, оцінки й іншого використання моделей.

PMML можна описати наступною послідовністю компонентів:

Заголовок (Header): містить загальну інформацію про документ PMML, наприклад, інформацію про авторське право на модель, її опис, інформацію про додаток, використаному для створення моделі, наприклад його назва й версію. Він також містить атрибут для часової мітки, що використовується для визначення дати створення моделі.

Словник даних (Data Dictionary): містить визначення всіх можливих полів, що використовуються у моделі. Саме тут поле визначається як безперервне, категоріальне, або порядкове (атрибут optype). Залежно від цього потім визначаються відповідні діапазони значень, а також тип даних (наприклад, рядок або тип з подвійною точністю).

Перетворення даних (Data Transformations) дозволяють відобразити користувальницькі дані в необхідній формі для використання моделі інтелектуального аналізу даних. PMML визначає кілька видів простих перетворень даних.

1) Нормалізація (Normalization): відображає значення в числа, вхід може бути безперервним або дискретним.

2) Дискретизація (Discretization): відображає безперервні значення в дискретні значення.

3) Відображення значень (Value mapping): відображає дискретні значення в дискретні значення.

4) Функції (Functions): обчислює значення шляхом застосування функції до одного або декількох параметрів.

5) Агрегація (Aggregation): використовується для підсумовування або складання групи значень.

Модель (Model): містить визначення моделі інтелектуального аналізу даних. Наприклад, багатошарова штучна нейронна мережа прямого поширення є найпоширенішим представленням нейронних мереж у сучасних додатках, з огляду на популярність і ефективність, пов'язані з її алгоритмом навчання, відомим як метод зворотного поширення помилки. Така мережа представлена в PMML елементом «NeuralNetwork», що містить наступні атрибути:

Назва моделі (атрибут modelName)

Назва функції (атрибут functionName)

Назва алгоритму (атрибут algorithmName)

Функція активації (атрибут activationFunction)

Кількість шарів (атрибут numberOfLayers)

За цією інформацією ідуть три види нейронних шарів, які визначають архітектуру моделі нейронної мережі, представленої документом PMML. Це атрибути NeuralInputs, NeuralLayer і NeuralOutputs. Крім нейронних мереж, PMML дозволяє представляти багато інших моделей інтелектуального аналізу даних, включаючи метод опорних векторів, асоціативні правила, наївний байєсівський класифікатор, моделі кластеризації, текстові моделі, дерева прийняття рішень, а також різної регресійної моделі.

Схема аналізу (Mining Schema): схема інтелектуального аналізу даних містить список всіх полів, що використовуються у моделі. Це може бути підмножина полів, визначених в словнику даних. Вона містить конкретні відомості про кожне поле, такі як:

1) Назва (атрибут name): повинне посилатися на поле в словнику даних

2) Тип використання (атрибут usageType): визначає спосіб використання поля в моделі. Стандартні значення: активне, прогнозоване і додаткове. Прогнозованими є ті поля, значення яких прогнозуються моделлю.

3) Обробка викидів (атрибут outliers): визначає використовуваний спосіб обробки викидів. В PMML викиди можна розглядати як відсутні значення, як екстремальні значення (на підставі визначення верхніх і нижніх значень для тієї або іншої області), або як є.

4) Правило заміни відсутніх значень (атрибут missingValueReplacement): якщо цей атрибут зазначений, то відсутнє значення автоматично заміняється заданим значенням.

5) Обробка відсутнього значення (атрибут missingValueTreatment): показує, чим заміняється відсутнє значення (наприклад, значенням, середнім або медіаною).

Цілі (Targets): дозволяють пост-обробку прогнозованого значення у форматі масштабування, якщо вихід моделі безперервний. Цілі можуть бути також використані для задач класифікації. У цьому випадку атрибут priorProbability указує ймовірності за замовчуванням для відповідної категорії цілі. Він використовується, якщо логіка прогнозування не дає результат сама по собі. Це може відбутися, наприклад, якщо вхідне значення відсутнє, і немає іншого способу визначити відсутні значення.

Вихід (Output): цей елемент може бути використаний, щоб указати всі необхідні поля виводу, очікувані від моделі. Це особливості прогнозованого поля, а також звичайно саме прогнозоване значення, імовірність, близькість до кластера (для моделей кластеризации), стандартна помилка й т.д.

Для представлення моделі у форматі PMML необхідно натиснувати кнопку View PMML Presentation на панелі інструментів або вибрати пункт меню Model | View PMML або вибрати опцію View PMML Presentation в діалоговому вікні представленому на Рис. 1.9. В результаті буде відкрито вікно в якому буде представлена побудована модель у форматі PMML в текстовому вигляді (1.10).

Представлену модель можна зберегти натискуючи у відкритому вікні кнопку Save. Крім того, модель можна зберегти, натискуючи кнопку Save Model as PMML на панелі інструментів або вибравши пункт меню Model | Save або опцію Save Model as PMML в діалоговому вікні представленому на рис. 1.9.

Рис. 1.10. Представлення моделі в стандарті PMML форматі.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]