- •Интеллектуальный анализ данных
- •Изучение алгоритмов построения деревьев решений с целью выявления закономерностей
- •Типа «Если – То»
- •(Системы see5/c5 и tree analyzer)
- •Интеллектуальный анализ данных Изучение алгоритмов построения деревьев решений с целью выявления закономерностей типа «Если – То»
- •1 Теоретическая часть
- •1.1 Деревья решений
- •2 Построение деревьев решений — система See5/c5.0
- •Подготовка данных для See5
- •Файл имен переменных
- •Файл данных
- •Файлы тестовых данных (необязательные)
- •Файл стоимости
- •Интерфейс пользователя
- •Построение дерева решений
- •Преобразование дерева решений в набор правил
- •Усиление решения (Boosting)
- •Использование правил для принятия решений
- •Смягчение порогов
- •Дополнительные настройки алгоритма
- •Перекрестная проверка
- •Выборка из больших наборов данных
- •Учет стоимости различных ошибок классификации
- •Предсказанный класс, истинный класс: стоимость ошибки,
- •Детальная проверка и сохранение результатов
- •3 Задание на лабораторную работу
- •Правила подготовки данных для работы в системе See-5 Вариант 1
- •Правила подготовки данных для работы в системе See Вариант 2
- •Подготовка данных в системе Tree_Analyser
- •4 Отчет должен содержать
- •5 Вопросы для защиты
- •Список литературы
2 Построение деревьев решений — система See5/c5.0
Система See5/C5.0 (Windows 95/98/NT) компании RuleQyest (http://www.rulequest.com) предназначена для анализа больших баз данных, содержащих до сотни тысяч записей и до сотни числовых или номинальных полей. Результат работы See5 выражается в виде деревьев решений и множества if-then-правил. Система проста в обращении и не требует от пользователя специфических знаний в области прикладной статистики.
Проиллюстрируем процесс работы See5 на реальном примере из области медицинской диагностики. Исходные данные в рассматриваемом случае относятся к задаче дифференциальной диагностики заболеваний почек.
Фрагмент исходных данных приведен в табл. 1. Это как раз тот вид данных, для обработки которых более всего подходит See5. Каждый объект (пациент) здесь принадлежит к одному из небольшого числа классов (здоров, множественные кисты, гидронефроз) и описывается одиннадцатью разнотипными признаками.
Задача See5 состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. При этом, как мы увидим, See5 конструирует классификатор в виде дерева решений, которому, в свою очередь, может быть поставлено в соответствие некоторое множество логических правил.
Таблица 1. Фрагмент исходных данных по дифференциальной диагностике заболеваний почек
-
Признак
Объект 1
Объект 2
…
Состояние почки diagnosis
Множественные кисты
Гидронефроз
…
Возраст пациента (число полных лет) Аде
46
52
…
Пол пациента Sex
Женщина (F)
Мужчина(М)
…
Правая или левая почка LR
Правая почка (R)
Левая почка (L)
…
Длина почки (мм) Length
112
136
…
Ширина почки (мм) Width
68
69
…
Толщина почки (мм) Thickness
88
72
…
Толщина паренхимы (мм) Thickpar
18
18
…
Средняя скорость кровотока (см/с) Speed
2,3
12
…
Индекс резистентности Index
0,584
0,614
…
Ускорение артериального потока в систолу (см/с2)Accel
459
291
…
Подготовка данных для See5
Каждой задаче, решаемой в системе See5, требуется присвоить свое собственное имя. Пусть в нашем случае это имя будет USR (UltraSonic Research). В процессе решения See5 использует и формирует несколько файлов с одинаковым именем и различными расширениями. Важно точно соблюдать правила записи имен и расширений (система различает строчные и прописные буквы). Кроме того, отметим, что See5 поддерживает только латинские шрифты.