Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Деревья решений, ID3 (всё сразу).doc
Скачиваний:
19
Добавлен:
21.08.2019
Размер:
1.26 Mб
Скачать

Классификация технологических методов иад

Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными.

  • В первом случае исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу.

  • Во втором случае информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода). Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо "прозрачными" (интерпретируемыми), либо "черными ящиками" (нетрактуемыми).

Д ве эти группы и входящие в них методы представлены на рис. 7.

Рис. 7. Классификация технологических методов ИАД.

Логические методы наиболее универсальны. Они что могут работать как с численными, так и с другими типами атрибутов. Построение уравнений требует приведения всех атрибутов к численному виду, тогда как кросс-табуляция, напротив, требует преобразования каждого численного атрибута в дискретное множество интервалов.

Методы кросс-табуляции

Кросс-табуляция является простой формой анализа, широко используемой в генерации отчетов средствами систем оперативной аналитической обработки (OLAP). Двумерная кросс-таблица представляет собой матрицу значений, каждая ячейка которой лежит на пересечении значений атрибутов. Расширение идеи кросс-табличного представления на случай гиперкубической информационной модели является, как уже говорилось, основой многомерного анализа данных, поэтому эта группа методов может рассматриваться как симбиоз многомерного оперативного анализа и интеллектуального анализа данных.

Метод индукции

Индукция правил создает неиерархическое множество условий, которые могут перекрываться. Индукция правил осуществляется путем генерации неполных деревьев решений, а для того чтобы выбрать, какое из них будет применено к входным данным, используются статистические методы. Алгоритмы индукции ассоциативных правил лучше всего подходят для последовательностей и ассоциаций или для задач анализа сходства, таких, как анализ корзины.

Одним из способов представления знаний в экспертных системах являются системы правил вида ЕСЛИ (УСЛОВИЕ) ТО (СЛЕДСТВИЕ) С ВЕСОМ (W) В ра­боте представлен индуктивный алгоритм для построения систем правил (ана­логичных используемым в системе Prospector) непосредственно из данных Исход ними данными для работы алгоритма является обучающая выборка D = {(х, у)} состоящая из набора помеченных примеров, где каждый пример х представляет собой вектор значений номинальных признаков Х1, Х2, ,Хп, а метка у рассма­тривается как значение номинального классового признака Y Предполагается, что существует (неизвестное) совместное распределение Р признаков Х1, Х2, ,Хп, Y. В качестве условия используется конъюнкция элементов типа «признак—значение» Xi = х ∈ Dom(Xi), 1 n, а в качестве следствия указание назначение классового признака Y = у ∈ Dom(Y). Наиболее важными параметрами алгоритма являются максимально допустимая длина конъюнкции левой части правил L и уровень зна­чимости Q критерия, используемого для проверки статистической значимости правил. Выход алгоритма представляет собой набор статистически значимых правил R(D, L, ). Использованием оператора композиции весов для правил с одинаковой правой частью набору правил R(D, L, ) может быть сопоставлен класси­фикатор FD, L, : Dom(X1) * Dom(X2) * … * Dom(Xn) Dom(Y). Важной зада­чей при использовании алгоритма является выбор параметров L и  таким образом, чтобы вероятность ошибочной классификации P{ FD, L, (x) у} с использованием классификатора FD, L, была минимальна. В [2] был предложен модифицированный алгоритм, позволяющий осуществлять выбор максимальной длины конъюнкции L на основе метода структурной минимизации эмпирического риска. Нами разработан алгоритм, позволяющий осуществлять одновременную оптимизацию выбора обоих указанных выше параметров Алгоритм основан на вычислении оценок вероятно­стей ошибочкой классификации при различных значениях параметров L и методом кросс проверки. Используемый в алгоритме способ перебора конъюнкций, составля­ющих условие, позволяет осуществлять интерактивный контроль и автоматический останов процесса вычислений (до достижения наибольшего значения L равного n) по определенным критериям Результаты тестирования алгоритма на базах данных UCI репозитария [3] показывают, что его применение позволяет (при умеренных вы числительных затратах) в определенных ситуациях уменьшить количество правил в R(D, L, ) с одновременным уменьшением вероятности ошибочной классификации.