Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции ИС / системы поиска знаний (KDD).doc
Скачиваний:
52
Добавлен:
26.05.2015
Размер:
420.35 Кб
Скачать

2. Kdd и olap.

Самый часто задаваемый вопрос, который возникает у людей, немного знакомых с обработкой данных, - это вопрос о разнице между средствами data mining и средствами OLAP (On-Line Analytical Processing), т.е. средствами оперативной аналитической обработки. OLAP - это часть технологий направленных на поддержку принятия решения. Обычные средства формирования запросов и отчетов описывают саму базу данных. Технология OLAP используется для ответа на вопрос, почему некоторые вещи являются такими, какими они есть на самом деле. При этом пользователь сам формирует модель - гипотезу о данных или отношениях между данными - и после этого использует серию запросов к базе данных для подтверждения или отклонения этих гипотез. Средства data mining отличаются от средств OLAP тем, что вместо проверки предполагаемых пользователем взаимозависимостей, они на основе имеющихся данных сами могут производить модели, позволяющие количественно оценить степень влияния различных исследуемых факторов на заданное свойство. Кроме того, средства data mining позволяют производить новые гипотезы о характере неизвестных, но реально существующих отношений в данных. Средства OLAP обычно применяются на ранних стадиях процесса KDD потому, что они помогают исследователю понять данные, фокусируя его внимание на наиболее важных переменных, определяя исключения или интересные значения переменных. Использование OLAP приводит к лучшему пониманию данных, что в свою очередь ведет к более эффективному результату процесса KDD.

2.1. Краткая история kdd

Методы knowledge discovery in databases стали развиваться в течение последних 20 лет. До этого задачи компьютерного анализа баз данных выполнялись, в основном, при помощи различного рода статистических методик, использовавшихся и до появления компьютеров, так что компьютер просто облегчил и расширил возможности их применения. Те методы интеллектуального анализа данных, которые используются сейчас, есть результат эволюции в двух направлениях: с одной стороны - это углубленное развитие, "интеллектуализация", повышение уровня методов статистики, с другой стороны - попытки моделирования нервной ткани животных и человека, результатом которой стало построение искусственных систем, отчасти напоминающих эту нервную ткань и называемых искусственными нейронными сетями.

Первой такой реально действующей системой, которая была способна распознавать простые визуальные образы, заданные в виде битовых растровых последовательностей, был построенный в конце 60-х годов так называемый перцептрон. Это направление испытало настоящий "бум" в конце 80-х годов, когда на основе нейросетей было построено значительное количество коммерческих систем анализа баз данных.

В настоящее время имеется уже много крупных исследовательских центров и коллективов, занимающихся разработкой методов и созданием систем KDD. Большинство из этих центров стали организовываться в 90-х годах (1992-93 гг.), и являются достаточно молодыми. Рост числа исследовательских групп сейчас, в 1996-2000 гг. выглядит экспоненциальным, так что исследовательских центров в ближайшем будущем станет, скорее всего, очень и очень много в самых разных фирмах, университетах, институтах и научных центрах.

Из крупных компаний, интенсивно занимающихся этой проблематикой, можно назвать таких гигантов как IBM и Microsoft. IBM полностью перепрофилировала свой крупнейший исследовательский центр в области технологий программного обеспечения в городе Альмаден на разработку алгоритмов KDD и на построение работающих систем KDD. Результатом этой работы явилось целое семейство систем KDD, как общего назначения, так и специализированных, предназначенных, в основном, для мэйнфреймов и мощных рабочих станций. Например, одна из специализированных систем, называемая Advanced Scout, применяется в Национальной ассоциации баскетбола США для анализа эффективности различных комбинаций игроков в командах, для анализа игровых ситуаций и для выработки игровой стратегии. Эта специализированная система стоит более миллиона долларов и используется несколькими командами МБА.

Фирма Microsoft создала центр KDD, находящийся непосредственно в здании штаб-квартиры фирмы в г. Редмонд, и пригласила работать известных специалистов, ранее занимавшихся этой проблематикой в университетах и академических научных центрах. Этот центр возглавляет профессор Усама Файадд, получивший в 1996 году одну из наиболее почетных американских премий за развитие науки, раньше работавший в лаборатории реактивного движения НАСА.

Пример Microsoft показывает, что самые крупные компьютерные компании придают большое значение этой новой технологии, а это не может не проявится в выпуске ими новых мощны продуктов для интеллектуального анализа данных. С другой стороны, существует также значительное количество небольших фирм, занимающихся продвижением технологий KDD. Их особенно много в США, но они есть и в Европе, в Англии, Франции. Одна из наиболее давно существующих таких фирм - это компания IntelligenceWare, которая производит одну из самых старых и известных коммерческих систем KDD - программу IDIS. Можно также назвать фирму Acknosoft (Франция), Integral Solutions (Англия) и много других.

Занимаются этими проблемами и в университетах. Одна из старейших исследовательских групп находится в Wichita State University в США, а в Германии - группа GMD. Сейчас уже имеется достаточно развитая информационная инфраструктура, обеспечивающая эти исследования, регулярно проводятся международные конференции, выпускается журнал, посвященный исключительно вопросам KDD. Большое внимание уделяется применению методов KDD в биологии и медицине. Наибольшее развитие получили, пожалуй, применения KDD, связанные с молекулярной биологией, а именно с расшифровкой макромолекул, и с созданием новых лекарственных препаратов. Следует упомянуть такие фирмы как Base4 Bioinformatics, BioDiscovery, DNA Star, Molecular Simulations и, соответственно, Anvil Informatics, Bioreason, Cellomics, Incyte Pharmaceuticals.

Приведенные факты свидетельствуют о том, что в настоящее время исследования KDD переживают бурный рост.