Скачиваний:
83
Добавлен:
02.05.2014
Размер:
816.13 Кб
Скачать

2 Построение деревьев решений — система See5/c5.0

Система See5/C5.0 (Windows 95/98/NT) компании RuleQyest (http://www.rulequest.com) предназначена для анализа больших баз данных, содержащих до сотни тысяч записей и до сотни числовых или номинальных полей. Результат работы See5 выражается в виде деревьев решений и множества if-then-правил. Система проста в обращении и не требует от пользователя специфических знаний в области прикладной статистики.

Проиллюстрируем процесс работы See5 на реальном примере из области медицинской диагностики. Исходные данные в рассматриваемом случае относятся к задаче дифференциальной диагностики заболеваний почек.

Фрагмент исходных данных приведен в табл. 1. Это как раз тот вид данных, для обработки которых более всего подходит See5. Каждый объект (пациент) здесь принадлежит к одному из небольшого числа классов (здоров, множественные кисты, гидронефроз) и описывается одиннадцатью разнотипными признаками.

Задача See5 состоит в предсказании диагностического класса какого-либо объекта по значениям его признаков. При этом, как мы увидим, See5 конструирует классификатор в виде дерева решений, которому, в свою очередь, может быть поставлено в соответствие некоторое множество логических правил.

Таблица 1. Фрагмент исходных данных по дифференциальной диагностике заболеваний почек

Признак

Объект 1

Объект 2

Состояние почки diagnosis

Множественные кисты

Гидронефроз

Возраст пациента (число полных лет) Аде

46

52

Пол пациента Sex

Женщина (F)

Мужчина(М)

Правая или левая почка LR

Правая почка (R)

Левая почка (L)

Длина почки (мм) Length

112

136

Ширина почки (мм) Width

68

69

Толщина почки (мм) Thickness

88

72

Толщина паренхимы (мм) Thickpar

18

18

Средняя скорость кровотока (см/с) Speed

2,3

12

Индекс резистентности Index

0,584

0,614

Ускорение артериального потока в систолу (см/с2)Accel

459

291

Подготовка данных для See5

Каждой задаче, решаемой в системе See5, требуется присвоить свое собственное имя. Пусть в нашем случае это имя будет USR (UltraSonic Research). В процессе решения See5 использует и формирует несколько файлов с одинаковым именем и различными расширениями. Важно точно соблюдать правила записи имен и расширений (система различает строчные и прописные буквы). Кроме того, отметим, что See5 поддерживает только латинские шрифты.

Соседние файлы в папке Методичка по лабораторной работе №3