Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Отчеты / Отчет по работе №1

.docx
Скачиваний:
36
Добавлен:
12.02.2018
Размер:
351.79 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Санкт-Петербургский государственный

электротехнический университет

«ЛЭТИ» им. В.И. Ульянова (Ленина)

Кафедра АПУ

отчет

по практической работе №1

по дисциплине «Моделирование систем»

Тема: Знакомство с методами классификации в Orange

Выполнила: Локкина О. С. Группа 5371

Преподаватель: Туральчук К. А.

Санкт-Петербург

2017

1. Описание системы данных.

Данные содержат в себе 400 записей, собранных в больнице за 2 месяца. Целью является прогнозирование у человека хронического заболевания почек (ХЗП).

В наборе данных есть пропущенные значения ("?"). Количество показателей: 24 + class = 25 (11 абсолютная, 14 номинальная).

В табл. 1.1 представлено описание показателей.

Таблица 1.1

Обозначение

Содержание

Шкала

Диапазон1

1

age

Возраст пациента в годах

Абсолютная

age in years

2

bp

Артериальное давление

Абсолютная

bp in mm/Hg

3

sg

Удельный вес

Номинальная

1.005,1.010,1.015,1.020,1.025

4

al

Альбумин

Номинальная

0,1,2,3,4,5

5

su

Уровень сахара в крови

Номинальная

0,1,2,3,4,5

6

rbc

Эритроциты

Номинальная

normal,abnormal

7

pc

Лейкоциты

Номинальная

normal,abnormal

8

pcc

лейкоцитарные агрегаты

Номинальная

present,notpresent

9

ba

Бактерии

Номинальная

present,notpresent

10

bgr

Уровень глюкозы

Абсолютная

bgr in mgs/dl

11

bu

Мочевина в крови

Абсолютная

bu in mgs/dl

12

sc

Креатинин в сыворотке крови

Абсолютная

sc in mgs/dl

13

sod

Натрий

Абсолютная

sod in mEq/L

14

pot

Калий

Абсолютная

pot in mEq/L

15

hemo

Гемоглобин

Абсолютная

hemo in gms

16

pcv

Объём осаждённых эритроцитов

Абсолютная

(не указано)

17

wc

Число лейкоцитов

Абсолютная

wc in cells/cumm

18

rc

Число эритроцитов

Абсолютная

rc in millions/cmm

19

htn

Гипертония

Номинальная

yes,no

20

dm

Сахарный диабет

Номинальная

yes,no

21

cad

Ишемическая болезнь сердца

Номинальная

yes,no

22

appet

Аппетит

Номинальная

good,poor

23

pe

Отек ног

Номинальная

yes,no

24

ane

Анемия

Номинальная

yes,no

25

class

Хроническое заболевание почек

Номинальная

ckd,notckd

Класс имеет следующее распределение (рис. 1.1):

Рисунок 1.1

2. В Orange 2.7 была построена схема (рис. 2.1):

Рисунок 2.1

Рассмотрим работу методов классификации, результаты2 занесены в таблицу 2.1.

Таблица 2.1

Методы классификации

Режим тестирования

train

test (30%, 10 times)

cross-validation (7)

one leave out

Naive Bayes

0.9650

0.9583

0.9651

0.9575

Majority

0.6250

0.6250

0.6250

0.6250

Classification Tree

0.9850

0.9733

0.9850

0.9800

CN2 rules

1.0000

0.9867

0.9875

0.9825

Random Forest

1.0000

0.9925

0.9900

0.9875

Жирным текстом выделены наилучшие результаты для каждого режима тестирования. Курсивом – наихудшие. Ниже будут представлены матрицы ошибок для тренировочного режима тестирования.

Majority.

В табл. 2.2.1 представлена матрица ошибок метода.

Таблица 2.2.1

Так как атрибут класса имеет всего 2 значения, то во всех режимах тестирования метод «Majority» причислял все объекты к доминирующему классу – ckd.

Random Forest.

В табл. 2.2.2 представлена матрица ошибок метода.

Таблица 2.2.2

Из-за простоты распределения класса (2 значения) метод «Лес Решений» показал наилучший результат по сравнению с другими методами. Т.к. из вершины выходит 2 листа, что соответствует 2 классам (легче определить правила). По этой же причине в «Дереве Решений» (ниже) глубина составляет 4 уровня.

Classification Tree.

На рис. 2.2 представлены результаты работы метода.

Рисунок 2.2

Минимальное число элементов в листе: 2 (по умолчанию).

Первое разделение идет по показателю гемоглобина в крови на уровне 12.950 gms. Далее – по удельному весу крови (1.017). И последний – по альбумину (0.500).

Число узлов: 3. Глубина: 4. Терминальные узлы: 4 (3 – ckd, 1 – notckd).

Таблица 2.2.3

В табл. 2.2.3 представлена матрица ошибок метода.

CN2 rules.

В таблице 2.3 представлены получившиеся в работе метода CN2 правила классификации.

Таблица 2.3

Rule length

Rule quality

Coverage

Predicted class

Distribution

Rule

1

0.995 

193.000 

ckd

193.0:0.0

IF sc>1.00 THEN class=ckd

1

0.978 

43.000 

ckd

43.0:0.0

IF sg<=1.00 THEN class=ckd

1

0.909 

9.000 

ckd

9.0:0.0

IF al>0.00 THEN class=ckd

1

0.833 

4.000 

ckd

4.0:0.0

IF hemo<=12.00 THEN class=ckd

1

0.667 

1.000 

ckd

1.0:0.0

IF su>0.00 THEN class=ckd

4

0.993 

140.000 

notckd

0.0:140.0

IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd

2

0.875 

6.000 

notckd

0.0:6.0

IF rbcc>4.00 AND sod>139.00 THEN class=notckd

2

0.750 

2.000 

notckd

0.0:2.0

IF bu<=15.00 AND rbc=normal THEN class=notckd

2

0.750 

2.000 

notckd

0.0:2.0

IF sc<=0.00 AND bu>32.00 THEN class=notckd

Алгоритм создал 9 правил, учитывающих от 1 до 4 показателей.

Правило IF sc>1.00 THEN class=ckd (если креатинин в сыворотке крови превышает 1.00, то у человека ХЗП) покрывает набольшее число объектов – 193 из 400, к тому же является наиболее точным. Следующим по правильности и покрытию является правило IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd (если объем осажденных эритроцитов превышает 39, удельный вес больше 1 (у этого показателя номинальная шкала, начинающаяся со значения 1.005), альбумин равен 0 (значения от 0 до 5) и хороший аппетит, тогда у пациента не ХЗП).

Таблица 2.2.4

В табл. 2.2.4 представлена матрица ошибок метода.

Naive Bayes.

В табл. 2.2.5 представлена матрица ошибок метода.

Таблица 2.2.5

Схема 2.3

На схеме 2.3 представлены результаты работы метода.

Вывод Наилучший результат в 4 режимах тестирования на данной выборке показал метод «Лес решений» (Random Forest). Данный метод позволяет решить проблему маскирования, оценить важность показателей, но при этом имеет большую вычислительную сложность и сложную структуру модели.

В таблице 3 представлены средние значения точности каждого метода по всем 4 режимам тестирования.

Таблица 3

Методы классификации

Среднее значение точности

Naive Bayes

0,961475

Majority

0,625000

Classification Tree

0,980825

CN2 rules

0,989175

Random Forest

0,992500

Наихудший результат у Majority. Этот алгоритм является самым примитивным.

1 В случае абсолютной шкалы если не указан диапазон, то подразумеваются значения от 0 до бесконечности (как целочисленные, так и дробные), указаны единицы измерения.

2 Оценивается точность классификации (Accuracy).

Соседние файлы в папке Отчеты