Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Технологии интеллектуального анализа данных.docx
Скачиваний:
79
Добавлен:
03.09.2019
Размер:
118.34 Кб
Скачать

6. Инструментарий технологии Data Mining

Индустриальные системы

В настоящее время большинство ведущих в мире производителей программного обеспечения предлагает свои продукты и решения в области Data Mining. Как правило - это масштабируемые системы, в которых реализованы различные математические алгоритмы анализа данных. Они имеют развитый графический интерфейс, богатые возможности в визуализации и манипулирования с данными, предоставляют доступ к различным источникам данных, функционирую в архитектуре клиент/сервер на Intel или UNIX платформах. Вот несколько примеров таких систем:

  • PolyAnalyst (Мегапьютер Интеллидженс);

  • Intelligent Miner (IBM);

  • Interprise Miner (SAS);

  • Clementine (Integral Solutions);

  • MineSet (Silicon Graphics);

  • Knowledge Studio (Angoss Software).

Предметно-ориентированные аналитические системы

Эти системы решают узкий класс специализированных задач. Хорошим примером являются программы технического анализа финансовых рынков:

  • MetaStock (Equis International, USA);

  • SuperCharts (Omega Research, USA);

  • Candlestick Forecaster (IPTC, USA);

  • Wall Street Money (Market Arts, USA).

Статистические пакеты

Это мощные математические системы, предназначенные для статистической обработки данных любой природы. Они включают многочисленные инструменты статистического анализа, имеют развитые графические средства. Примеры систем:

  • SAS (SAS Institute, USA);

  • SPSS (SPSS, USA);

  • Statgraphics (Statistical Graphics, USA).

Нейроннoсетевые пакеты

Это широкий класс разнообразных систем, представляющих собой иерархические сетевые структуры, в узлах которых находятся так называемые нейроны. Сети тренируются на примерах, и во многих случаях дают хорошие результаты предсказаний. Основным недостатком нейронных сетей являются трудности в интерпретации результатов. Тренированная нейронная сеть представляет собой "умный черный ящик", работу которого невозможно понять и контролировать. Примеры нейронно-сетевых пакетов:

  • BrainMaker (CSS, USA);

  • NeuroShell (Ward Systems Group, USA);

  • OWL (Hyperlogic, USA).

Пакеты, реализующие алгоритмы "Decision trees"

Этот метод используется только для решения задач классификации. Это является его серьезным ограничением. Результатом работы метода является иерархическая древовидная структура классификационных правил типа "IF...THEN...". Достоинством метода является естественная способность классификации на множество классов. Примеры систем:

  • C5.0 (Rule Quest, Australia);

  • SIPINA (University of Lyon, France);

  • IDIS (Information Discovery, USA).

7. Важное положение Data Mining - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К обществу пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки. То есть уровень знаний может быть поверхностный, неглубокий и скрытый.