Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ISTE.doc
Скачиваний:
617
Добавлен:
08.02.2016
Размер:
3.81 Mб
Скачать

3.5.3. Технологія аналізу “Data Mining”

Поява технології Data Mining пов’язується з необхідністю отримувати знання з накопичених інформаційними системами різнорідних даних. Українською мовою цей термін можна перекласти як „добування“, „отримання“ знань. Методи математичної статистики, які раніше використовувались для цих цілей, виявились корисними переважно для перевірки раніше сформульованих гіпотез (verification-driven data mining) та для грубого розвідувального аналізу, що лежить в основі оперативної аналітичної обробки даних OLAP.

Ключовою перевагою Data Mining в порівнянні з описаними методами є можливість автоматичної генерації гіпотез про взаємозв’язок між різними параметрами чи компонентами даних. Робота аналітика при роботі з традиційним пакетом обробки даних фактично зводиться до перевірки чи уточнення декількох породжених ним же гіпотез. В тих же випадках, коли початкових пропозицій немає, а об’єм даних значний, такі системи є малоефективними.

Іще однією важливою особливістю систем Data Mining є можливість обробки багатомірних запитів та можливість пошуку багатомірних залежностей. Унікальною також є здатність систем Data Mining автоматично виявляти виключні ситуації (критичні точки) – елементи даних, що випадають із загальних закономірностей. Виділяють п’ять стандартних типів закономірностей, які дозволяють виявляти методи Data Mining [Error: Reference source not found]:

  • асоціація;

  • послідовність;

  • класифікація;

  • кластеризація;

  • прогнозування.

Пошук шаблонів здійснюється методами, що не обмежуються рамками апріорних пропозицій про структуру вибірки та вид розподілених значень показників, що аналізуються. Приклади задач на такий пошук з використанням Data Mining наведено в табл. 3.1.

Таблиця 3.1.

Порівняння формулювань задач при використанні методів OLAP та Data Mining

OLAP

Data Mining

Якими є середні показники травматизму для працівників, що палять та для тих, хто не палить?

Чи зустрічаються точні шаблони в описаннях людей, з підвищеним травматизмом?

Якими є середні розміри рахунків за користування телефонним зв’язком для наявних клієнтів у порівнянні з рахунками клієнтів, які відмовились від послуг телефонної компанії?

Чи існують характерні портрети клієнтів, які імовірно планують відмовитись від послуг телефонної компанії?

Якою є середня величина щоденних покупок по викраденій та не викраденій кредитній картці?

Чи існують стереотипні схеми покупок для випадків шахрайства з кредитними картками?

Data Mining є мультидисциплінарною областю, що виникла та розвивається на базі досягнень прикладної статистики, розпізнавання образів, методів штучного інтелекту, теорії баз даних та ін. Системи Data Mining інтегрують в себе одразу кілька підходів, але, як правило, з переважаючим впливом якогось одного компоненту. Розглянемо приклади деяких можливих застосувань Data Mining.

Підприємства роздрібної торгівлі сьогодні збирають детальну інформацію про кожну окрему покупку, використовуючи кредитні картки з маркою магазину та комп’ютеризовані системи контролю. Типовими задачами, які можна розв’язувати за допомогою Data Mining в сфері роздрібної торгівлі є аналіз купівельної корзини, дослідження часових шаблонів, створення прогнозуючих моделей.

Аналіз купівельної корзини використовується для виявлення товарів, які покупці стараються купити разом. Знання купівельної корзини необхідне для покращення реклами, вироблення стратегії створення запасів товарів та способів їх розкладання в торговельних залах.

Дослідження часових шаблонів допомагає торговельним підприємствам приймати рішення про створення товарних запасів. Воно дає відповіді на питання типу „якщо сьогодні покупець купив фотоапарат, то через який час він імовірніше всього купить нову плівку та батарейки?“.

Створення прогнозуючих моделей дає можливість торговельним підприємствам визначати характер потреб різних категорій клієнтів з певною поведінкою, наприклад тих, що купляють товари відомих дизайнерів чи тих, що відвідують розпродажі. Ці знання потрібні для розробки точно направлених економічних заходів із просування товарів.

Досягнення технології Data Mining використовуються в банківській справі для вирішення таких розповсюджених задач:

Виявлення шахрайства з кредитними картками. Шляхом аналізу минулих трансакцій, які в майбутньому виявились шахрайськими, банк виявляє деякі стереотипи такого шахрайства.

Сегментація клієнтів. Розподіляючи клієнтів на різні категорії, банки роблять свою маркетингову політику більш цілеспрямованою та результативною, пропонуючи різні види послуг різним групам клієнтів.

Прогнозування змін клієнтури. Data Mining допомагає банкам будувати прогнозні моделі цінності своїх клієнтів та відповідним чином обслуговувати кожну категорію.

Страхові компанії на протязі ряду років накопичують великі об’єми даних. Тут також можна використовувати методи Data Mining для виявлення шахрайства та аналізу ризиків.

Виявлення шахрайства. Страхові компанії можуть знизити ризик шахрайства, відшуковуючи певні стереотипи в заявах про виплату страхового відшкодування.

Аналіз ризику. Шляхом виявлення сукупності взаємозв’язаних факторів, пов’язаних з оплаченими заявами, страховики можуть зменшити свої втрати по зобов’язанням. Відомий випадок, коли в США велика страхова компанія виявила, що суми, виплачені за заявами одружених людей вдвічі перевищують суми за заявами одиноких людей. Компанія відреагувала на це нове знання переглядом своєї загальної політики надання знижок сімейним клієнтам.

В даний час для розв’язання задач Data Mining використовуються нейромережні технології, статистичні пакети SAS, SPSS, STATISTICA, STATGRAPHICS та ін. та спеціалізовані програми типу Deductor Studio, Weka. Крім того, практично усі сучасні корпоративні сервери баз даних містять компоненти, призначені для аналізу даних, зокрема й для інтелектуального аналізу засобами Data Mining.