Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

лекции ИС / Knowledge Discovery in Databases

.doc
Скачиваний:
39
Добавлен:
26.05.2015
Размер:
40.96 Кб
Скачать

Knowledge Discovery in Databases - обнаружение знаний в базах данных.

Knowledge Discovery in Databases (KDD) - это процесс поиска полезных знаний в “сырых данных”. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов Data Mining (DM), постобработки данных, интерпретации полученных результатов. Безусловно, сердцем всего этого процесса являются методы DM, позволяющие обнаруживать знания.

Этими знаниями могут быть правила, описывающие связи между свойствами данных (деревья решений), часто встречающиеся шаблоны (ассоциативные правила), а также результаты классификации (нейронные сети) и кластеризации данных (карты Кохонена) и т.д.

Процесс KDD, состоит из следующих шагов:

  1. Подготовка исходного набора данных. Этот этап заключается всоздании набора данных, в том числе из различных источников, выбораобучающей выборки и т.д. Для этого должны существовать развитыеинструменты доступа к различным источникам данных. Желательна поддержкаработы с хранилищами данных и наличие семантического слоя, позволяющегоиспользовать для подготовки исходных данных не технические термины, абизнес понятия.

  2. Предобработка данных. Для того, чтобы эффективно применятьметоды Data Mining, следует обратить серьезное внимание на вопросыпредобработки данных. Данные могут содержать пропуски, шумы, аномальныезначения и т.д. Кроме того, данные могут быть избыточны, недостаточны ит.д. В некоторых задачах требуется дополнить данные некоторой априорнойинформацией. Наивно предполагать, что если подать данные на вход системыв существующем виде, то на выходе получим полезные знания. Данные должныбыть качественны и корректны с точки зрения используемого метода DM.Поэтому первый этап KDD заключается в предобработке данных. Более того,иногда размерность исходного пространства может быть очень большой, итогда желательно применение специальных алгоритмов пониженияразмерности. Это как отбор значимых признаков, так и отображение данныхв пространство меньшей размерности.

  3. Трансформация, нормализация данных. Этот шаг необходим дляприведения информации к пригодному для последующего анализа виду. Длячего нужно проделать, например, такие операции как приведение типов,квантование, приведение к 'скользящему окну' и прочее. Кроме того,некоторые методы анализа, которые требуют, чтобы исходные данные были вкаком-то определенном виде. Нейронные сети, скажем, работают только счисловыми данными, причем они должны быть нормализованы.

  4. Data Mining. На этом шаге применяются различные алгоритмы длянахождения знаний. Это нейронные сети, деревья решений, алгоритмыкластеризации и установления ассоциаций и т.д.

  5. Постобработка данных. Интерпретация результатов и применениеполученных знаний в бизнес приложениях.

Knowledge Discovery in Databases не задает набор методов обработки илипригодные для анализа алгоритмы, он определяет последовательностьдействий, которые необходимо сделать для того, чтобы из исходных данныхполучить знания. Данный подход универсальный и не зависит от предметнойобласти, что является его несомненным достоинством.

Deductor - полнофункциональная платформа для решения задач Knowledge Discovery in Databases, позволяющая провести все вышеописанные шаги.

  1. Подготовка исходного набора данных. В состав системы входит Deductor Warehouse - многомерное хранилище данных, ориентированное на решение задач консолидации информации из разнородных источников и быстрого извлечения интересующего набора данных. Deductor Warehouse поддерживает богатый семантический слой, позволяющий конечному пользователю оперировать бизнес терминами для получения интересующих данных. Кроме собственного хранилища Deductor поддерживает работу и с другими источниками: Oracle, DB2, MS SQL, Informix, Sybase, Interbase, DBase, FoxPro, Paradox, MS Access, CSV (текстовые файлы с разделителями), ODBC, ADO. Для обеспечения максимального быстродействия Deductor поддерживает прямой (direct) доступ к большинству наиболее популярных баз данных.

  2. Предобработка. Deductor содержит большой набор механизмов предобработки и очистки данных: заполнение пропусков, редактирование аномалий, очистка от шумов, сглаживание, фильтрация и множество других с возможностью комбинирования методов предобработки.

  3. Трансформация, нормализация данных. Deductor включает большой набор механизмов трансформации данных, позволяющих провести всю подготовительную работу для последующего анализа. Кроме этого, система содержит широкий спектр механизмов нормализации для всех типов данных: числовых, строковых, дата/время и логических.

  4. Data Mining. В состав пакета включены алгоритмы, реализующие популярные и эффективные методы Data Mining: нейронные сети, деревья решений, самоорганизующиеся карты Кохонена, ассоциативные правила и прочее.

  5. Постобработка данных. Результаты любой обработки могут быть отображены при помощи большого набора механизмов визуализации: OLAP, таблицы, диаграммы, деревья и множество других. Для некоторых механизмов предусмотрены специализированные визуализаторы, обеспечивающие легкость интерпретации результатов. Результаты могут быть экспортированы для последующей обработки при помощи других приложений. Обеспечивается возможность эффективно использовать полученные знания или модели на других данных.

Deductor удовлетворяет всем требованиям для успешного взаимодействия с экспертом (аналитиком):

  • Единая платформа, в которой можно пройти все этапы Knowledge Discovery in Databases;

  • Все операции производятся при помощи мастеров, снижающих требования к знанию экспертом математического аппарата;

  • Возможность произвольного комбинирования любых методов обработки;

  • Большой набор методов визуализации полученных результатов;

  • Пакетное выполнение всей действий по обработке данных.

Кроме того, Deductor содержит специальное приложение - Deductor Viewer для конечных пользователей, позволяющее им получить конечные результаты, без необходимости разибраться в методах анализа данных. Для получения результата пользователю достаточно просто выбрать нужный отчет, все остальное будет выполнено автоматически.

BaseGroup Labs

Соседние файлы в папке лекции ИС