Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекция Data Mining

.pdf
Скачиваний:
40
Добавлен:
14.02.2015
Размер:
1.25 Mб
Скачать

Методы «раскопки данных» - Data Mining

Авторы

Тишков Артем Валерьевич Эюбова Наргиз Идаят кызы Делакова Екатерина Александровна Семенова Елена Михайловна

2013

Медицинские данные

Результаты медико-биологических исследований

большое количество данных различного характера

Результаты лабораторных исследований; Социально-паспортные и антропометрические данные; Факторы риска;

Данные медицинских приборно-компьютерных систем.

Анализ медицинских данных

Статистические методы Методы, основанные на знаниях

«Раскопка данных» (Data Mining)

Экспертные системы

Data Mining «Раскопка данных»

–поиск (неочевидных) закономерностей в данных

–обнаружение скрытых знаний

Статистические методы

Frequency

Frequency

Согласованность с нормальным законом распределения

18

16

14

12

 

 

 

 

 

 

 

 

 

10

 

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

80

85

90

95

100

105

110

115

 

9

 

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

7

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

20

30

40

50

60

70

80

90

100

110

Число_тромбоцитов_вовлеченных_в_аггрегаты_1

Корреляционный анализ

24

20

16

12

8

4

0 -4

-8

12

18

24

30

36

42

48

54

60

Сумма_актив ных_формт

rp-коэффициент корреляции

Pearson

ранговые:

Spearman Kendall

Гармон

изирова

нный

анализ

Нестатистические методы: «раскопка данных»

О

б

у

ч

а

ю

щ

а

я

в

ы

б

о

р

к

а

эотакс эотакс и

ин

н-

2

6,7 13

5,1 9,8

27 11,4

9 20

7 3

13 10

1,2 0

1 0

0 3,2

0,5 1

1,5 4

1 20

3 0

0,4 2

0,3 0,6

0,3 2

 

MIP-

 

1

интерлейки

al

н-8

p

 

h

 

a

113

13

89

29

48

73

44

14

16

49

11

28

1,2

0,8

0,8

0,1

26

0

7

0

10

0,7

33

0

17

0

29

0,3

34

0,6

9

0,3

MIP-

 

 

 

 

 

 

 

1

RANT

 

 

 

CXCR

CXCR

 

b

E

CCR1

CCR3

CCR5

 

1

2

 

et

S

 

 

 

 

 

 

 

 

 

 

a

 

 

 

 

 

 

resu

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

33

23

126

99

63

113

86

y

15

23

102

27

32

49

74

y

36

61

116

118

118

114

85

y

11

52

111

102

101

101

84

y

49

61

79

58

39

109

111

y

10

15

100

91

102

76

66

y

1,6

1,4

140

96

158

96

122

n

0,06

10

165

88

66

1,8

73

n

0,1

0

94

104

74

27

54

n

4

18

146

81

112

27

90

n

1

43

145

103

127

36

103

n

0

98

152

122

140

50

103

n

0

39

128

103

18

35

74

n

0,06

32

112

98

96

36

79

n

0,3

6

108

112

92

34

98

n

0,2

1

121

114

105

8

120

n

 

 

 

 

 

 

 

 

Кластеризация

Кластеризация предназначена для разбиения совокупности объектов на однородные группы —кластеры.

Цель кластеризации — построить оптимальное разбиение объектов на группы: разбить N объектов на k кластеров.

Характеристиками кластера можно назвать два признака:

внутренняя однородность;

внешняя изолированность.

Непересекающиеся и пересекающиеся кластеры

Кластеризация. K-means

Разделить образцы на k групп (классов) автоматически, без информации о настоящем классе образца

1. Выбрать

2. Сгруппировать

3. Вычислить

4. Повторить

начальное

образцы по

новые

шаги 2 и 3 до

положение

принципу

положения

схождения

центров

близости к

центров

алгоритма

классов

центрам