Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции ИС / системы поиска знаний (KDD).doc
Скачиваний:
52
Добавлен:
26.05.2015
Размер:
420.35 Кб
Скачать

2.2. Kdd как синтез разных областей знания

Два подхода - со стороны статистики и со стороны нейросетей - положили начало двум достаточно разным по своим методам и целям классам систем интеллектуального анализа баз данных, или систем KDD. В каком же отношении методы KDD находятся по отношению к методам статистики? Можно сказать, что отдельные статистические методы являются как бы орудиями более низкого уровня по сравнению с методами KDD. Методы KDD пользуются ими, комбинируя их в стандартных схемах решения типовых задач, так что научной задачей KDD в большой степени является разработка схем решения.

Можно пояснить это следующим примером. Существует такой давно применяемый и популярный статистический метод нахождения зависимостей как линейная регрессия. Это метод, позволяющий находить в данных зависимости одних переменных от других в виде линейных выражений, то есть формул, в которые входят только линейные по независимым переменным члены. Но ранее использовалась, в основном, версия этого метода, в которой перечень независимых переменных, входящих в регрессионную формулу, был фиксирован, а регрессионные коэффициенты, входящие в эту модель, находились по одному из стандартных алгоритмов. Таким образом получалась некая предсказывающая формула.

Развитием этого метода в духе KDD явился метод, называемый мультилинейной регрессией с автоматическим выбором независимых переменных, позволяющий выбрать из очень большого количества имеющихся независимых параметров только наиболее важные, наиболее сильно влияющие на заданную переменную. Фактически, этот метод в рамках некоторой схемы применения использует стандартный метод линейной регрессии, тем самым позволяя гораздо меньше знать a priori об искомой модели. Не нужно заранее делать предположения о точном наборе входящих в модель независимых переменных. Общая концепция методов - минимизировать вмешательство человека, сделать анализ по возможности более автоматическим. Все существующие методы KDD используют в качестве отдельных, элементарных операций классические статистические методы.

Методы KDD непосредственно связаны с теорией баз данных, поскольку должны работать с реальными базами данных, имеющими некоторую архитектуру, реляционную или какую-либо еще. Для эффективной реализации этих методов необходимо учитывать особенности организации интерфейса тех информационных систем, с которыми им придется работать.

Имеется также тесная связь с такой областью компьютерной науки, как теория параллельных (одновременных) вычислений. Это связано с тем, что алгоритмы KDD требуют, как правило, очень значительного времени вычислений, поскольку многие из них включают массивный перебор самых разнообразных гипотез, так называемые мягкие вычисления, основанные на адаптивном поиске в многомерных пространствах, а это процессы, требующие значительной вычислительной мощности. Поэтому для обеспечения эффективности компьютерной реализации методов KDD большое внимание уделяется вопросам параллельной обработки информации, созданию алгоритмов, обеспечивающих одновременное решение большого числа задач.

Сильное влияние на развитие методов KDD оказывают работы по исследованию искусственного интеллекта. Традиционные задачи искусственного интеллекта (такие области, как экспертные системы, "инженерия" знаний) состоят, главным образом, в том, чтобы эффективно использовать уже имеющиеся знания экспертов, специалистов в предметных областях и на основе этих знаний осуществлять какие-либо непротиворечивые логические выводы, усложнять построенные экспертом модели. У методов KDD задача в какой-то степени обратная: самое интересное, что хочется узнать о данных, никому, в том числе и экспертам, заранее неизвестно. Есть лишь исходные, или "сырые" данные, и надо, наоборот, извлечь из данных важные правила, зависимости, модели.

Вместе с тем, поскольку полученные из данных модели должны быть использованы для принятия решений, они обычно должны, сопрягаться с уже известными, заданными экспертами моделями. Иными словами, системы, реализующие методы KDD, должны иметь интерфейс и с уже имеющимися базами знаний, и с экспертными системами. Поэтому взаимосвязь этой области с искусственным интеллектом очень сильна. Некоторые методы KDD заимствованы отчасти из такой области искусственного интеллекта, как обучающиеся системы. В частности, при решении задач классификации используются некоторые методы, разработанные при создании обучающихся систем.

Наконец, алгоритмы KDD в значительной степени используют разнообразные специализированные методы анализа данных из тех областей, в которых они применяются. Это приводит к тому, что методы KDD, применяемые, скажем, в финансовом анализе и в таких областях, как анализ структур белков, синтез новых лекарств или любые другие области со специфически организованной информацией, весьма различны и определяются в значительной степени спецификой этих областей и типом решаемых задач.