Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
33_Rozrakhunkova_-_Sachik_YeI_AKS_5-IT-M.doc
Скачиваний:
4
Добавлен:
13.08.2019
Размер:
595.97 Кб
Скачать

Кластеризація послідовностей дій - Microsoft Sequence Clustering

Алгоритм Microsoft Sequence Clustering аналізує послідовності будь-яких фактів, що представляють собою часові послідовності дискретних змінних. Зазвичай такі послідовності атрибутів розглядаються як виконання подій в певному порядку. Алгоритм призначений для прогнозування настання подальших подій на підставі вже здійсненого переходу між станами.

Алгоритм Microsoft Sequence Clustering є гібридом алгоритму послідовностей дій та алгоритмом кластеризації. У процесі реалізації алгоритму виконується угруповання послідовності переходів в типові кластеру, що характеризуються паттернами(правилами) переходів.

Кожен з цих кластерів аналізується з точки зору розподілу ймовірності переходів окремо. Типовим сценарієм використання для цього алгоритму є завдання аналізу клієнтів web-порталу. У web-порталу є набір пов'язаних доменів, таких як новини, погода, фінанси, пошта, спорт і т.д. Кожен web-відвідувач характеризується послідовністю "кліків" - переходів в рамках кожного з цих доменів. Алгоритм Microsoft Sequence Clustering може згрупувати цих web-відвідувачів у більш-менш однорідні групи на підставі їх паттернів навігації по порталу. Ці групи можуть бути візуалізовані, забезпечуючи подання шаблонів використання порталу кожною групою відвідувачів.

В алгоритмі використовується алгоритм Expectation Maximization для виявлення кластерів, а також Марківський процеси першого порядку для моделювання переходів між станами (подіями).

Часові ряди - Microsoft Time Series

Алгоритм Microsoft Time Series створює моделі, призначені для прогнозування значень безперервних змінних за часом і використанням як OLAP, так і реляційних джерел даних. Наприклад, можна використовувати цей алгоритм для прогнозування обсягу продажів і прибутку по історичних даних у розрізі регіонів продажу.

Алгоритм дозволяє здійснювати прогнозування з кількох безперервним змінним. Часовий ряд повинен характеризуватися тимчасової характеристикою за якою здійснюється прогноз, а також може містити довільний набір інших характеристик, що розділяє ряд на кілька рядів (наприклад по регіонам, продавцям тощо).

Цей алгоритм може аналізувати та використовувати кореляції між різними прогнозованими характеристиками. У цьому випадку результат прогнозування буде залежати не тільки від історичних значень тієї ж змінної, але і значень інших прогнозованих змінних. Наприклад, продаж в певному магазині можуть залежати від минулих продажів в іншому магазині.

Алгоритм Microsoft Time Series є різновидом алгоритмів ART (Autoregressive Trees - дерева авторегресії). У процесі реалізації алгоритму будується дерево рішень, листя якого відповідають функції лінійної регресії.

Асоціативні правила (Алгоритм взаємозв'язків) - Microsoft Association

Алгоритм Microsoft Association призначений в першу чергу для аналізу купівельних кошиків. Аналізується кожна пара атрибут = значення (наприклад продукт = велосипед) як значення якоїсь логічної змінної. Алгоритм сканує транзакції в базі даних для визначення "частих" наборів таких пар. Набір вважається "частим" якщо його support (підтримка, тобто число транзакцій, в які входить даний набір) перевищує певний поріг. Наприклад, частим набором може бути (Стать = "чоловік", Сімейний статус = "одружений", Вік = "30-35")

Часто транзакції описуються вкладеними таблицями, наприклад, строками замовлення продажу в замовленні. У цьому випадку ключ вкладеної таблиці служить назвою атрибуту, а факт його наявності - значенням. Наприклад (Товар ( "Велосипед") = existing, Товар ( "Велосипедна кепка") = existing).

Алгоритм Microsoft Association крім виявлення частих набірів, призначений для виявлення правил виду A, B => C, якi характеризуються ймовірністю виконання (confidence), де (A, B), (C) часті набори. Символ '=>' означає, що поява набору C в транзакції можна передбачити з факту появи наборів A і B. Наприклад, (Фотокамера = exisiting, Батарейки = existing) => (Фотоплівка = existing). Поріг значення ймовірності дотримання правила є параметром моделі, що визначає факт розгляду кожного правила.

Асоціативні правила використовуються для оптимізації крос-продаж, цільових рекламних кампаній, визначення політики знижок, в оптимізації розміщення товарів на товарних полицях в супермаркетах і т.д.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]