Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
DataMining.pdf
Скачиваний:
1313
Добавлен:
25.02.2016
Размер:
3.32 Mб
Скачать

Аналитическая платформа Deductor

Состав и назначение аналитической платформы Deductor (разработчик - компания BaseGroup Labs [115]). Deductor состоит из двух компонентов: аналитического приложения Deductor Studio и многомерного хранилища данных Deductor Warehouse [48] .

Архитектура системы Deductor представлена на рис. 26.1.

Рис. 26.1. Архитектура системы Deductor

Deductor Warehouse - многомерное хранилище данных, аккумулирующее всю необходимую для анализа предметной области информацию. Использование единого хранилища позволяет обеспечить непротиворечивость данных, их централизованное хранение и автоматически создает всю необходимую поддержку процесса анализа данных. Deductor Warehouse оптимизирован для решения именно аналитических задач, что положительно сказывается на скорости доступа к данным.

Deductor Studio - это программа, предназначенная для анализа информации из различных источников данных. Она реализует функции импорта, обработки, визуализации и экспорта данных. Deductor Studio может функционировать и без хранилища данных, получая информацию из любых других источников, но наиболее оптимальным является их совместное использование.

Поддержка процесса от разведочного анализа до отображения данных

Deductor Studio позволяет пройти все этапы анализа данных. Схема на рис. 26.2 отображает процесс извлечения знаний из данных.

298

Рис. 26.2. Процесс извлечения знаний из данных в Deductor Studio

Рассмотрим этот процесс более детально.

На начальном этапе в программу загружаются или импортируются данные из какого-либо произвольного источника. Хранилище данных Deductor Warehouse является одним из источников данных. Поддерживаются также другие, сторонние источники:

текстовый файл с разделителями;

Microsoft Excel;

Microsoft Access;

Dbase;

CSV-файлы;

ADO-источники - позволяют получить информацию из любого ODBC-источника (Oracle, MS SQL, Sybase и прочее).

Обычно в программу загружаются не все данные, а какая-то выборка, необходимая для дальнейшего анализа.

После получения выборки можно получить подробную статистику по ней, посмотреть, как выглядят данные на диаграммах и гистограммах.

После такого разведочного анализа можно принимать решения о необходимости предобработки данных. Например, если статистика показывает, что в выборке есть пустые значения (пропуски данных), можно применить фильтрацию для их устранения.

Предобработанные данные далее подвергаются трансформации. Например, нечисловые данные преобразуются в числовые, что необходимо для некоторых алгоритмов.

299

Непрерывные данные могут быть разбиты на интервалы, то есть производится их дискретизация.

К трансформированным данным применяются методы более глубокого анализа. На этом этапе выявляются скрытые зависимости и закономерности в данных, на основании которых строятся различные модели. Модель представляет собой шаблон, который содержит формализованные знания.

Последний этап - интерпретация - предназначен, чтобы из формализованных знаний получить знания на языке предметной области.

Архитектура Deductor Studio

Вся работа по анализу данных в Deductor Studio базируется на выполнении следующих действий:

импорт данных;

обработка данных;

визуализация;

экспорт данных.

На рис. 26.3 показана схема функционирования Deductor Studio. Отправной точкой для анализа всегда является процедура импорта данных. Полученный набор данных может быть обработан любым из доступных способов.

Рис. 26.3. Схема функционирования Deductor Studio

300

Результатом обработки также является набор данных, который, в свою очередь, опять может быть обработан. Импортированный набор данных, а также данные, полученные на каждом этапе обработки, могут быть экспортированы для последующего использования

вдругих, например, в учетных системах. Поддерживаются следующие форматы:

хранилище данных Deductor Warehouse ;

Microsoft Excel;

Microsoft Word;

HTML;

XML;

Dbase;

буфер обмена Windows;

текстовой файл с разделителями.

Результаты каждого действия можно отобразить различными способами:

OLAP-кубы (кросс-таблица, кросс-диаграмма);

плоская таблица;

диаграмма, гистограмма;

статистика;

анализ по принципу "что-если";

граф нейросети;

дерево - иерархическая система правил;

прочее.

Способ возможных отображений зависит от выбранного метода обработки данных. Например, нейросеть содержит визуализатор "Граф нейросети", специфичный только для нее. Некоторые способы визуализации пригодны почти для всех методов обработки, например, в виде таблицы, диаграммы или гистограммы.

Последовательность действий, которые необходимо провести для анализа данных, называется сценарием.

Сценарий можно автоматически выполнять на любых данных. Типовой сценарий изображен на рис. 26.4.

301

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]