- •Определение задачи отбора данных
- •Способы получения знаний
- •Некоторые бизнес - приложения Data Mining
- •Специальные приложения
- •Методы анализа данных
- •Регрессионный анализ
- •Нейронные сети
- •Временные ряды
- •Построение дерева решений
- •Этапы построения деревьев решений
- •Теоретико-информационный критерий
- •Статистический критерий
- •П равила
- •Преимущества использования деревьев решений
- •Области применения деревьев решений
- •Процесс построения деревьев решений на примере системы id3.
- •Алгоритмы ограниченного перебора
- •Интеллектуальный анализ данных
- •Классификация стадий иад
- •Классификация технологических методов иад
- •Метод индукции
- •Методы логической индукции
- •Индукция правил
- •Сравнение возможностей деревьев решений и индукции правил
- •Используемая литература
Классификация технологических методов иад
Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными.
В первом случае исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу.
Во втором случае информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо "прозрачными" (интерпретируемыми), либо "черными ящиками" (нетрактуемыми).
Д ве эти группы и входящие в них методы представлены на рис. 7.
Рис. 7. Классификация технологических методов ИАД.
Логические методы наиболее универсальны. Они что могут работать как с численными, так и с другими типами атрибутов. Построение уравнений требует приведения всех атрибутов к численному виду, тогда как кросс-табуляция, напротив, требует преобразования каждого численного атрибута в дискретное множество интервалов.
Методы кросс-табуляции
Кросс-табуляция является простой формой анализа, широко используемой в генерации отчетов средствами систем оперативной аналитической обработки (OLAP). Двумерная кросс-таблица представляет собой матрицу значений, каждая ячейка которой лежит на пересечении значений атрибутов. Расширение идеи кросс-табличного представления на случай гиперкубической информационной модели является, как уже говорилось, основой многомерного анализа данных, поэтому эта группа методов может рассматриваться как симбиоз многомерного оперативного анализа и интеллектуального анализа данных.
Метод индукции
Индукция правил создает неиерархическое множество условий, которые могут перекрываться. Индукция правил осуществляется путем генерации неполных деревьев решений, а для того чтобы выбрать, какое из них будет применено к входным данным, используются статистические методы. Алгоритмы индукции ассоциативных правил лучше всего подходят для последовательностей и ассоциаций или для задач анализа сходства, таких, как анализ корзины.
Одним из способов представления знаний в экспертных системах являются системы правил вида ЕСЛИ (УСЛОВИЕ) ТО (СЛЕДСТВИЕ) С ВЕСОМ (W) В работе представлен индуктивный алгоритм для построения систем правил (аналогичных используемым в системе Prospector) непосредственно из данных Исход ними данными для работы алгоритма является обучающая выборка D = {(х, у)} состоящая из набора помеченных примеров, где каждый пример х представляет собой вектор значений номинальных признаков Х1, Х2, ,Хп, а метка у рассматривается как значение номинального классового признака Y Предполагается, что существует (неизвестное) совместное распределение Р признаков Х1, Х2, ,Хп, Y. В качестве условия используется конъюнкция элементов типа «признак—значение» Xi = х ∈ Dom(Xi), 1 n, а в качестве следствия указание назначение классового признака Y = у ∈ Dom(Y). Наиболее важными параметрами алгоритма являются максимально допустимая длина конъюнкции левой части правил L и уровень значимости Q критерия, используемого для проверки статистической значимости правил. Выход алгоритма представляет собой набор статистически значимых правил R(D, L, ). Использованием оператора композиции весов для правил с одинаковой правой частью набору правил R(D, L, ) может быть сопоставлен классификатор FD, L, : Dom(X1) * Dom(X2) * … * Dom(Xn) → Dom(Y). Важной задачей при использовании алгоритма является выбор параметров L и таким образом, чтобы вероятность ошибочной классификации P{ FD, L, (x) у} с использованием классификатора FD, L, была минимальна. В [2] был предложен модифицированный алгоритм, позволяющий осуществлять выбор максимальной длины конъюнкции L на основе метода структурной минимизации эмпирического риска. Нами разработан алгоритм, позволяющий осуществлять одновременную оптимизацию выбора обоих указанных выше параметров Алгоритм основан на вычислении оценок вероятностей ошибочкой классификации при различных значениях параметров L и методом кросс проверки. Используемый в алгоритме способ перебора конъюнкций, составляющих условие, позволяет осуществлять интерактивный контроль и автоматический останов процесса вычислений (до достижения наибольшего значения L равного n) по определенным критериям Результаты тестирования алгоритма на базах данных UCI репозитария [3] показывают, что его применение позволяет (при умеренных вы числительных затратах) в определенных ситуациях уменьшить количество правил в R(D, L, ) с одновременным уменьшением вероятности ошибочной классификации.