Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1

.docx
Скачиваний:
8
Добавлен:
28.01.2018
Размер:
426.35 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Санкт-Петербургский государственный

электротехнический университет

«ЛЭТИ» им. В.И. Ульянова (Ленина)

Кафедра АПУ

отчет

по лабораторной работе №1

по дисциплине «Моделирование систем»

Студент гр. 5371

Уруков С.Д.

Преподаватель

Туральчук К.А.

  1. Описание системы данных

СВОДКА: Набор данных о хронической болезни почек.

ОПИСАНИЕ: Данные о ранней стадии болезни. Собраны в 2015 году.

ОБЪЕМ ДАННЫХ: 400 записей, 25 атрибутов.

СОДЕРЖИМОЕ:

Обозначение

Содержание

Шкала

Диапазон

1

Age

Возраст в годах

Числовая

2

Blood pressure

Давление в мм рт ст

Числовая

3

Specific gravity

Удельная плотность

Номинальная

1.005,1.010,1.015,1.020,1.025

4

Albumin

Альбумин

номинальная

0,1,2,3,4,5

5

Sugar

Сахар

Номинальная

0,1,2,3,4,5

6

Red blood cells

Клетки крови

Номинальная

normal,abnormal

7

Pus cell

Клетки Пусса

Номинальная

normal,abnormal

8

Pus Cell clumps

Номинальная

present,notpresent

9

Bacteria

Наличие бактерий

Номинальная

present,notpresent

10

Blood Glucose Random

Наличие глюкозы в крови

Числовая

11

Blood urea

Числовая

12

Serum creatinine

Числовая

13

Soduim

Числовая

14

Potassium

Числовая

15

Hemoglobin

Гемоглобин

Числовая

16

Packed Cell Volume

Объем упакованных клеток

Числовая

17

White Blood Cell Count

Белые клетки крови кол-во

Числовая

18

Red Blood Cell Count

Кол-во красных клеток крови

Числовая

19

Hypertension

Номинальная

Yes, no

20

Diabetes Mellitus

Номинальная

Yes, no

21

Coronary Artery Disease

Болезнь

Номинальная

Yes, no

22

Appetite

Аппетит

Номинальная

Good, poor

23

Pedal Edema

Номинальная

Yes, no

24

Anemia

Анемия

Номинальная

Yes, no

25

Class

Класс

Номинальная

ckd,notckd

Результирующее значение классов. Каждая запись в базе описывает отдельного пациента. Мы имеем 62,5% пациентов, у которых выявлена болезнь почек.

  1. Классификация

Точность классификации при кросс-валидации степени 5.

Random Forest

0.9850

Majority

0.6250

CN2 rules

0.9850

Classification Tree

0.9775

Naive Bayes

0.9650

Точность классификации на обучаемых данных

Random Forest

1.0000

Majority

0.6250

CN2 rules

1.0000

Classification Tree

0.9850

Naive Bayes

0.9650

Точность классификации при случайной выборке. Repetitions: 100, Proportion of training instances: 20%

Random Forest

0.9696

Majority

0.6250

CN2 rules

0.9567

Classification Tree

0.9454

Naive Bayes

0.9622

CN2 Rules ViewerWed Oct 11 17, 19:06:23

Rule length

Rule quality

Coverage

Predicted class

Distribution

Rule

1

0.995

193.000

ckd

193.0:0.0

IF sc>1.00 THEN class=ckd

1

0.978

43.000

ckd

43.0:0.0

IF sg<=1.00 THEN class=ckd

1

0.909

9.000

ckd

9.0:0.0

IF al>0.00 THEN class=ckd

1

0.833

4.000

ckd

4.0:0.0

IF hemo<=12.00 THEN class=ckd

1

0.667

1.000

ckd

1.0:0.0

IF su>0.00 THEN class=ckd

4

0.993

140.000

notckd

0.0:140.0

IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd

2

0.875

6.000

notckd

0.0:6.0

IF rbcc>4.00 AND sod>139.00 THEN class=notckd

2

0.750

2.000

notckd

0.0:2.0

IF bu<=15.00 AND rbc=normal THEN class=notckd

2

0.750

2.000

notckd

0.0:2.0

IF sc<=0.00 AND bu>32.00 THEN class=notckd

Classification Tree Graph

Матрицы ошибок

  1. Вывод по работе

В ходе работы были использованы несколько ключевых методов классификации. По полученным данным можно сказать, что наиболее точно на этой выборке данных сработали алгоритмы CN2 и Random Forest. Тестирование было произведено на обучающем множестве, на кросс-валидации.

У алгоритма CN2 наибольшим условием для классификации выдалось следующее: IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd (Если объем клеток больше 39 и гравитация больше 1 и показатель альбумина не положителен и хороший аппетит, то пациент не болен)

Рассматривая матрицу ошибок (confusion matrix), можно судить по правильности работы метода. Наблюдается огромное количество ошибок у метода majority, который предположил, что все данные принадлежат одному классу. Метод Naïve Bayes допустил 14 ошибок, а наиболее точными оказались CN2 и Random Forest, у которых неверно классифицированы 6 записей.

Санкт-Петербург

2017

Соседние файлы в предмете Моделирование систем