Лекция Data Mining
.pdfМетоды «раскопки данных» - Data Mining
Авторы
Тишков Артем Валерьевич Эюбова Наргиз Идаят кызы Делакова Екатерина Александровна Семенова Елена Михайловна
2013
Медицинские данные
Результаты медико-биологических исследований –
большое количество данных различного характера
Результаты лабораторных исследований; Социально-паспортные и антропометрические данные; Факторы риска;
Данные медицинских приборно-компьютерных систем.
Анализ медицинских данных
Статистические методы Методы, основанные на знаниях
–«Раскопка данных» (Data Mining)
–Экспертные системы
Data Mining «Раскопка данных»
–поиск (неочевидных) закономерностей в данных
–обнаружение скрытых знаний
Статистические методы
Frequency
Frequency
Согласованность с нормальным законом распределения
18
16
14
12 |
|
|
|
|
|
|
|
|
|
10 |
|
|
|
|
|
|
|
|
|
8 |
|
|
|
|
|
|
|
|
|
6 |
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
|
80 |
85 |
90 |
95 |
100 |
105 |
110 |
115 |
|
9 |
|
|
|
|
|
|
|
|
|
8 |
|
|
|
|
|
|
|
|
|
7 |
|
|
|
|
|
|
|
|
|
6 |
|
|
|
|
|
|
|
|
|
5 |
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
|
|
20 |
30 |
40 |
50 |
60 |
70 |
80 |
90 |
100 |
110 |
Число_тромбоцитов_вовлеченных_в_аггрегаты_1
Корреляционный анализ
24
20
16
12
8
4
0 -4
-8
12 |
18 |
24 |
30 |
36 |
42 |
48 |
54 |
60 |
Сумма_актив ных_формт
rp-коэффициент корреляции
Pearson
ранговые:
Spearman Kendall
Гармон
изирова
нный
анализ
Нестатистические методы: «раскопка данных»
О
б
у
ч
а
ю
щ
а
я
в
ы
б
о
р
к
а
эотакс эотакс и
ин
н-
2
6,7 13
5,1 9,8
27 11,4
9 20
7 3
13 10
1,2 0
1 0
0 3,2
0,5 1
1,5 4
1 20
3 0
0,4 2
0,3 0,6
0,3 2
|
MIP- |
|
1 |
интерлейки |
al |
н-8 |
p |
|
h |
|
a |
113 |
13 |
89 |
29 |
48 |
73 |
44 |
14 |
16 |
49 |
11 |
28 |
1,2 |
0,8 |
0,8 |
0,1 |
26 |
0 |
7 |
0 |
10 |
0,7 |
33 |
0 |
17 |
0 |
29 |
0,3 |
34 |
0,6 |
9 |
0,3 |
MIP- |
|
|
|
|
|
|
|
1 |
RANT |
|
|
|
CXCR |
CXCR |
|
b |
E |
CCR1 |
CCR3 |
CCR5 |
|
||
1 |
2 |
|
|||||
et |
S |
|
|
|
|
||
|
|
|
|
|
|
||
a |
|
|
|
|
|
|
resu |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
33 |
23 |
126 |
99 |
63 |
113 |
86 |
y |
15 |
23 |
102 |
27 |
32 |
49 |
74 |
y |
36 |
61 |
116 |
118 |
118 |
114 |
85 |
y |
11 |
52 |
111 |
102 |
101 |
101 |
84 |
y |
49 |
61 |
79 |
58 |
39 |
109 |
111 |
y |
10 |
15 |
100 |
91 |
102 |
76 |
66 |
y |
1,6 |
1,4 |
140 |
96 |
158 |
96 |
122 |
n |
0,06 |
10 |
165 |
88 |
66 |
1,8 |
73 |
n |
0,1 |
0 |
94 |
104 |
74 |
27 |
54 |
n |
4 |
18 |
146 |
81 |
112 |
27 |
90 |
n |
1 |
43 |
145 |
103 |
127 |
36 |
103 |
n |
0 |
98 |
152 |
122 |
140 |
50 |
103 |
n |
0 |
39 |
128 |
103 |
18 |
35 |
74 |
n |
0,06 |
32 |
112 |
98 |
96 |
36 |
79 |
n |
0,3 |
6 |
108 |
112 |
92 |
34 |
98 |
n |
0,2 |
1 |
121 |
114 |
105 |
8 |
120 |
n |
|
|
|
|
|
|
|
|
Кластеризация
Кластеризация предназначена для разбиения совокупности объектов на однородные группы —кластеры.
Цель кластеризации — построить оптимальное разбиение объектов на группы: разбить N объектов на k кластеров.
Характеристиками кластера можно назвать два признака:
•внутренняя однородность;
•внешняя изолированность.
Непересекающиеся и пересекающиеся кластеры
Кластеризация. K-means
Разделить образцы на k групп (классов) автоматически, без информации о настоящем классе образца
1. Выбрать |
2. Сгруппировать |
3. Вычислить |
4. Повторить |
начальное |
образцы по |
новые |
шаги 2 и 3 до |
положение |
принципу |
положения |
схождения |
центров |
близости к |
центров |
алгоритма |
классов |
центрам |
|
|