Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
metod_lec.doc
Скачиваний:
118
Добавлен:
22.03.2015
Размер:
7.3 Mб
Скачать

3.3.2. Дистиляція шаблонів (Data Distilled)

При цій технології вибирають взірець або шаблон з набору даних, потім використовують його з різними намірами. Природно, тут виникають перші два запитання: Які типи шаблонів можуть бути вибрані і як вони будуть подаватися? Очевидно, шаблон потрібно виразити формально. Ця альтернатива приводить до чотирьох виокремлених підходів: логічні методи, візуалізація, крос-табуляційні (Cross- tabulational) методи і на основі рівнянь (equational).

Логічні методи (підходи). Методи логічного підходу в системах дейтамайнінгу можуть бути розділені на чотири групи: нечіткі запити і аналізи, правила, дерева рішень, генетичні алгоритми.

Нечіткі запити і аналізи (Fuzzy Query and Analysis). Ця категорія інструментальних засобів дейтамайнінгу основується на відгалуженні математики, що називається нечіткою логікою (fuzzy logic), або логікою невпевненості і розмитості (fuzziness). Вона надає рамку для виявлення розмитості і рангування результатів запитів. Компанія Fuzzy Tech, яка розробляє програмне забезпечення нечітких запитів, має Web-сайт з цікавою і досить повною інформацією про цей інструментальний засіб (http://www.fuzzytech.com/index.htm).

Правила. Правила продукції достатньо відомі, зокрема вони досить часто застосовуються в правило-орієнтованих СППР. Розглянемо основні інші різновиди правил та особливості їх застосування в дейтамайнінгу.

Логічні зв'язки між елементами ділових процесів звичайно частіше за все подаються як правила. Найпростіші типи правил виражаються умовними або афінними (асоціативними) зв'язками (відношеннями).

Умовне правило є твердження типу: Якщо умова 1 -- Тоді умова 2.

Наприклад, в демографічній базі даних може мати місце правило: Якщо “професія=Атлет - Тоді вік < 30” . Тут порівнюється значення полів даної таблиці тобто, використовується представлення виразом "атрибут-значення". В даному прикладі Професія є атрибут, а Атлет - значення.

Афінінна логіка (Affinity logic) є чітка як в термінах мови вираження, так і в термінах структури даних, які використовуються. Афінний аналіз (або асоціативний аналіз) є пошук взірців і умов, які описують як різні елементи “групуються разом " або “ставляться разом" в серії подій або транзакцій. Афінне правило має форму: Коли елемент (позиція) 1- Також елемент (позиція) 2.

Приклад цього є “Коли фарба, Також пензель фарби”. Проста система афінного аналізу аналізу використовує таблицю транзакцій (наприклад, табл.1), щоб ідентифікувати елементи, що становлять групу елементів транзакцій.

Тут, поле “номер транзакції” використовується, щоб створити групу елементів, в той час як відповідне поле включає об’єкти, які групуються. У цьому прикладі, схожість (affinity) тразакцій 123 і 124 є пара (фарба, пензель фарби). Логічні умови і асоціації часто комбінуються, створюючи гібридну структуру - прозору (transparent) логіку.

Правила можуть також працювати добре на багатовимірних даних і OLAP даних, тому що вони можуть мати справу з діапазонами числових даних і їхніх логічних форматів, що дозволяє розглядати шаблони вздовж багатократної розмірності.

Правила індукції. Правила iндукції -- це процес перегляду набору даних і створення взірців. За допомогою автоматичного дослідження набору даних, як показано на рис. 4, система індукції формує гіпотези, які приводять до взірців (шаблонів). Процес по суті подібній до того, як людина-аналітик проводить дослідницький аналіз.

Рисунок 4. Схема використання правил індукції в системі дейтамайнінгу

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]