Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
стоэи.doc
Скачиваний:
187
Добавлен:
16.03.2016
Размер:
476.67 Кб
Скачать

38. Особенности проектов Data Mining, типовая структура аналитических систем.

В большинстве случаев DataMiningпроекты не оправдывают ожидания клиентов потому, что они относятся к ним как к стандартным проектам.

Проект – это уникальная деятельность, имеющая начало и конец во времени, направленная на достижение заранее определенной цели, создание уникального продукта или услуги при заданных ограничениях по ресурсам и срокам, а также требованиям к качеству и допустимому уровню риска.

Однако DataMiningпроект – это вообще не проект, а научное исследование.

Суть DataMining– построение и применение моделей, а модель есть приближение реального процесса, следовательно:

-никакая модель не является финальной, всегда есть неучтенные факторы.

-модель со временем нужно перестраивать, т.к. меняются описываемые ей процессы.

-некоторые процессы не поддаются моделированию, для них необходимо изобретать особые способы работы.

Все модели предполагают, что данные удовлетворяют базовым требованиям: точности, достоверности, полноты… На практике в данных всегда присутствуют ошибки: опечатки, пропуски, аномалии, дубликаты… Именно плохое качество данных является одной из самых серьезных проблем любого DataMiningпроекта. Применение методов очистки и предобработки данных позволяет частично решить эту проблему, но полностью ее не снимает.

Если известны правила, формулы и закономерности, при помощи которых можно получить искомый результат, то в применении DataMiningнет необходимости.DataMining– это поиск скрытых закономерностей. Следовательно, до начала исследования аналитик даже не догадывается о том, какие закономерности существуют, он может только предполагать их наличие.

DataMining– это исследование, и его целью является не получение результата с гарантированным качеством (что невозможно в принципе), а лучшей модели из возможных в данной ситуации.

Рабочий цикл Data Mining

Формирование гипотез – Сбор данных – Очистка данных – Построение моделей – Мониторинг качества.

Особенности DataMiningпроцесса определяют требования к программному обеспечению:

- ориентация на аналитика: 95% времени – это работа аналитика, связанная с подбором моделей и анализом результатов.

- гибкость. Необходимо подстраиваться под постоянные изменения требований.

-очистка данных: без нее результат будет гарантированно плохим.

-моделирование: для каждого класса задач нужны соответствующие алгоритмы.

- интеграция: необходим механизм быстрого переноса лучших моделей в рабочий процесс.

Критически важным для процесса являются возможности развития и адаптации моделей. Для этого необходимо:

- наличие аналитиков, способных самостоятельно контролировать процесс и развивать систему.

-возможность понять логику анализа и при необходимости ее изменять.

-реализация самообучающихся алгоритмов, способных перестраиваться при поступлении новых данных.

-встроенные механизмы визуализации, позволяющие оценить качество результата и интерпретировать построенные модели.

DataMiningнетривиален, однако реальной альтернативы ему нет. В компаниях накопились такие объемы данных, что физически невозможно обработать их «ручными» методами. Из-за этого информация, представляющая огромную ценность, лежит мертвым грузом.

DataMining– это единственный на сегодня систематизированный способ увидеть варианты будущего, объективно их сравнивать и определить потенциальные последствия альтернативных решений.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]