1
.docxМИНОБРНАУКИ РОССИИ
Санкт-Петербургский государственный
электротехнический университет
«ЛЭТИ» им. В.И. Ульянова (Ленина)
Кафедра АПУ
отчет
по лабораторной работе №1
по дисциплине «Моделирование систем»
Студент гр. 5371 |
|
Уруков С.Д. |
Преподаватель |
|
Туральчук К.А. |
-
Описание системы данных
СВОДКА: Набор данных о хронической болезни почек.
ОПИСАНИЕ: Данные о ранней стадии болезни. Собраны в 2015 году.
ОБЪЕМ ДАННЫХ: 400 записей, 25 атрибутов.
СОДЕРЖИМОЕ:
№ |
Обозначение |
Содержание |
Шкала |
Диапазон |
1 |
Age |
Возраст в годах |
Числовая |
|
2 |
Blood pressure |
Давление в мм рт ст |
Числовая |
|
3 |
Specific gravity |
Удельная плотность |
Номинальная |
1.005,1.010,1.015,1.020,1.025 |
4 |
Albumin |
Альбумин |
номинальная |
0,1,2,3,4,5 |
5 |
Sugar |
Сахар |
Номинальная |
0,1,2,3,4,5 |
6 |
Red blood cells |
Клетки крови |
Номинальная |
normal,abnormal |
7 |
Pus cell |
Клетки Пусса |
Номинальная |
normal,abnormal |
8 |
Pus Cell clumps |
|
Номинальная |
present,notpresent |
9 |
Bacteria |
Наличие бактерий |
Номинальная |
present,notpresent |
10 |
Blood Glucose Random |
Наличие глюкозы в крови |
Числовая |
|
11 |
Blood urea |
|
Числовая |
|
12 |
Serum creatinine |
|
Числовая |
|
13 |
Soduim |
|
Числовая |
|
14 |
Potassium |
|
Числовая |
|
15 |
Hemoglobin |
Гемоглобин |
Числовая |
|
16 |
Packed Cell Volume |
Объем упакованных клеток |
Числовая |
|
17 |
White Blood Cell Count |
Белые клетки крови кол-во |
Числовая |
|
18 |
Red Blood Cell Count |
Кол-во красных клеток крови |
Числовая |
|
19 |
Hypertension |
|
Номинальная |
Yes, no |
20 |
Diabetes Mellitus |
|
Номинальная |
Yes, no |
21 |
Coronary Artery Disease |
Болезнь |
Номинальная |
Yes, no |
22 |
Appetite |
Аппетит |
Номинальная |
Good, poor |
23 |
Pedal Edema |
|
Номинальная |
Yes, no |
24 |
Anemia |
Анемия |
Номинальная |
Yes, no |
25 |
Class |
Класс |
Номинальная |
ckd,notckd |
Результирующее значение классов. Каждая запись в базе описывает отдельного пациента. Мы имеем 62,5% пациентов, у которых выявлена болезнь почек.
-
Классификация
Точность классификации при кросс-валидации степени 5.
Random Forest |
0.9850 |
Majority |
0.6250 |
CN2 rules |
0.9850 |
Classification Tree |
0.9775 |
Naive Bayes |
0.9650 |
Точность классификации на обучаемых данных
Random Forest |
1.0000 |
Majority |
0.6250 |
CN2 rules |
1.0000 |
Classification Tree |
0.9850 |
Naive Bayes |
0.9650 |
Точность классификации при случайной выборке. Repetitions: 100, Proportion of training instances: 20%
Random Forest |
0.9696 |
Majority |
0.6250 |
CN2 rules |
0.9567 |
Classification Tree |
0.9454 |
Naive Bayes |
0.9622 |
CN2 Rules ViewerWed Oct 11 17, 19:06:23
|
||||||||||
Rule length |
Rule quality |
Coverage |
Predicted class |
Distribution |
Rule |
|
|
|
|
|
1 |
0.995 |
193.000 |
ckd |
193.0:0.0 |
IF sc>1.00 THEN class=ckd |
|
|
|
|
|
1 |
0.978 |
43.000 |
ckd |
43.0:0.0 |
IF sg<=1.00 THEN class=ckd |
|
|
|
|
|
1 |
0.909 |
9.000 |
ckd |
9.0:0.0 |
IF al>0.00 THEN class=ckd |
|
|
|
|
|
1 |
0.833 |
4.000 |
ckd |
4.0:0.0 |
IF hemo<=12.00 THEN class=ckd |
|
|
|
|
|
1 |
0.667 |
1.000 |
ckd |
1.0:0.0 |
IF su>0.00 THEN class=ckd |
|
|
|
|
|
4 |
0.993 |
140.000 |
notckd |
0.0:140.0 |
IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd |
|
|
|
|
|
2 |
0.875 |
6.000 |
notckd |
0.0:6.0 |
IF rbcc>4.00 AND sod>139.00 THEN class=notckd |
|
|
|
|
|
2 |
0.750 |
2.000 |
notckd |
0.0:2.0 |
IF bu<=15.00 AND rbc=normal THEN class=notckd |
|
|
|
|
|
2 |
0.750 |
2.000 |
notckd |
0.0:2.0 |
IF sc<=0.00 AND bu>32.00 THEN class=notckd |
|
|
|
|
|
|
Classification Tree Graph
Матрицы ошибок
-
Вывод по работе
В ходе работы были использованы несколько ключевых методов классификации. По полученным данным можно сказать, что наиболее точно на этой выборке данных сработали алгоритмы CN2 и Random Forest. Тестирование было произведено на обучающем множестве, на кросс-валидации.
У алгоритма CN2 наибольшим условием для классификации выдалось следующее: IF pcv>39.00 AND sg>1.00 AND al<=0.00 AND appet=good THEN class=notckd (Если объем клеток больше 39 и гравитация больше 1 и показатель альбумина не положителен и хороший аппетит, то пациент не болен)
Рассматривая матрицу ошибок (confusion matrix), можно судить по правильности работы метода. Наблюдается огромное количество ошибок у метода majority, который предположил, что все данные принадлежат одному классу. Метод Naïve Bayes допустил 14 ошибок, а наиболее точными оказались CN2 и Random Forest, у которых неверно классифицированы 6 записей.
Санкт-Петербург
2017