Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
DataMining.pdf
Скачиваний:
1313
Добавлен:
25.02.2016
Размер:
3.32 Mб
Скачать

Этап 8. Коррекция и обновление модели

По прошествии определенного установленного промежутка времени с момента начала использования модели Data Mining следует проанализировать полученные результаты, определить, действительно ли она "успешна" или же возникли проблемы и сложности в ее использовании.

Однако даже если модель с успехом используется, ее не следует считать абсолютно верной на все времена. Дело в том, что необходимо периодически оценивать адекватность модели набору данных, а также текущей ситуации (следует учитывать возможность изменения внешних факторов). Даже самая точная модель со временем перестает быть таковой. Для того чтобы построенная модель выполняла свою функцию, следует работать над ее коррекцией (улучшением). При появлении новых данных требуется повторное обучение модели. Этот процесс называют обновлением модели. Работы, проводимые с моделью на этом этапе, также называют контролем и сопровождением модели.

Существует много причин, требующих обучить модель заново, т.е. обновить ее, чтобы отразить определенные изменения.

Основными причинами являются следующие:

изменились входящие данные или их поведение;

появились дополнительные данные для обучения;

изменились требования к форме и количеству выходных данных;

изменились цели бизнеса, которые повлияли на критерии принятия решений;

изменилось внешнее окружение или среда (макроэкономика, политическая ситуация, научно-технический прогресс, появление новых конкурентов и товаров и т.д.).

Причины, перечисленные выше, могут обесценить допущения и исходную информацию, на которых основывалась модель при построении.

Приведем простой пример из задачи о туристическом агентстве.

Рассматриваемое правило гласит: "Если ДОХОД>20 и СЕМЕЙНОЕ ПОЛОЖЕНИЕ = "married", то класс "1". Эта модель может успешно работать на протяжении какого-то периода, но затем, например, в силу инфляции в стране, модель должна быть скорректирована. В результате рассматриваемое правило может выглядеть таким образом: "Если ДОХОД>30 и СЕМЕЙНОЕ ПОЛОЖЕНИЕ = "married", то класс "1".

Погрешности в процессе Data Mining

Процесс Data Mining может быть успешным и неуспешным. Использование Data Mining не является гарантией получения исключительно достоверных знаний и принятия на основе этих знаний абсолютно верных решений.

Построенная модель может обладать рядом погрешностей. Вот некоторые из них: недостоверные исходные допущения при построении модели; ограниченные возможности при сборе необходимых данных; неуверенность и страхи пользователя системы, и, в силу этого, слабое их применение; неоправданно высокая стоимость.

231

Наиболее распространенной погрешностью модели являются неверные или недостоверные исходные допущения. Некоторые допущения поддаются объективной предварительной проверке, другие не могут быть заранее проверены. Если модель Data Mining основана на допущениях, естественно, ее точность зависит от точности допущений. Если допущения предыдущих периодов при использовании модели не оправдались, т.е. оказались неточны, то следует отказаться от "продления" этих допущений на будущие периоды.

Допустим ситуацию, когда модель хорошо работает в 18 из 20 филиалов компании. В двух филиалах, скорее всего, причина ошибок кроется не в погрешностях или неточностях модели, а в совсем других причинах, например, в данных. Если же модель плохо работает во всех филиалах без исключения, то, скорее всего, построенная модель некорректна.

Довольно сложно и установить время, которое необходимо для определения качества оценки модели. Этот отрезок времени обусловливается спецификой задачи и определяется индивидуально.

Ограниченные возможности при сборе необходимых данных

Как говорилось в одной из предыдущих Лекций, при формировании переменных модели следует абстрагироваться от тех данных, которые есть в наличии. Однако, не всегда есть возможность получить именно те данные, которые необходимы, а также быть уверенными в их качестве. Тем не менее, следует учитывать, что точность построенной модели определяется точностью входных данных.

Если внешние факторы, включенные в модель, изменяются очень часто, эти изменения должны отражаться в системе. Следует учитывать, что это не всегда возможно, а иногда - нецелесообразно.

Неуверенность пользователей

По словам Шеннона, ни одну модель "нельзя считать успешно выстроенной, пока она не принята, не понята и не применена на практике". Однако во многих исследованиях, касающихся использования моделей, отмечается, что в процессе принятия решений далеко не все построенные модели используются в полной мере, а некоторые вовсе не используются. Основными причинами этого является недоверие к моделям либо их непонимание. Для того чтобы избежать подобных явлений, лица, принимающие решения, должны принимать участие в постановке той задачи, для которой строится модель. В дальнейшем следует научить руководителя работать с моделью (т.е. ее программной реализацией), в частности, объяснить ему функции модели, возможности, ограничения и т.д.

Неоправданно высокая стоимость

В результате процесса Data Mining должна быть получена выгода (конечно, если речь не идет о научных исследованиях). Полученная прибыль должна оправдать расходы на процесс Data Mining, а это не только стоимость программного обеспечения для Data Mining, но и затраты на подготовку данных, обучение, консультирование и т.д. Стоимость проекта зависит от его длительности, типа конечного приложения, уровня подготовки пользователей, варианта внедрения (готовый продукт, разработка "под ключ", адаптация под конкретную задачу).

232

Выводы

Важным этапом в процессе Data Mining является предварительная подготовка данных, в том числе их очистка. От качества подготовленных данных будут зависеть результаты всего процесса.

В процессе построения и выбора модели Data Mining следует пробовать использовать различные методы и алгоритмы, а также их сочетания. При отсутствии опыта использования методов Data Mining лучше начинать с более простых, поддающихся интерпретации моделей. Далее можно постепенно усложнять модели, т.е. использовать более сложные методы. Не следует требовать от модели абсолютной точности, модель можно начинать использовать при получении первых приемлемых результатов.

Следует помнить, что процесс Data Mining является итеративным. При невозможности получения результатов, которые эксперт предметной области считает приемлемыми, необходимо вернуться на один из предыдущих этапов процесса.

233

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]