Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

СППР

.pdf
Скачиваний:
192
Добавлен:
19.02.2016
Размер:
10.12 Mб
Скачать

139

Вычислительная часть предложенного алгоритма легко реализуется на матрице значений функций принадлежности, полученной из матрицы знаний путем выполнения операций min и max.

Приведенный алгоритм нахождения дискретных значений {dl,d2,...,dm) выходной переменной у по заданному вектору

фиксированных значений входных переменных X* =^xi*,х2,...<х*п) и

матрице знаний позволяет идентифицировать объект Y= f y(xux2,...,xn) с

дискретным выходом.

1.8.3.3. Методрешения задач нечеткого кластерного анализа

Согласно [89] кластер-анализ - это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как “сгустков” этих точек.

Таким образом основная цель анализа - выделить в исходных многомерных данных такие однородные подмножества, чтобы объекты внутри групп были похожи в известном смысле друг на друга, а объекты из разных групп - не похожи, Под “похожестью” понимается близость объектов в многомерном пространстве признаков, и тогда задача сводится к выделению в этом пространстве естественных скоплений (“гроздей”) объектов, которые и считаются однородными группами.

Как указано в [89] неформально проблему разбиения выборочного множества на классы можно, сформулировать следующим образом: “Сгруппировать точки выборочного множ^ггва в подмножества (называемые кластерами) так, чтобы подобные точки относились к одному и тому же подмножеству, а не подобные - к различным подмножествам.

Использование методов кластерного анализа при решении широкого круга задач, позволяет адекватно описывать модели предметных областей реального мира. Кластерный анализ позволяет в больших наборах данных выявлять те структуры, которые наиболее полно описывают поведение реальных объектов.

Рассмотрим задачу разделения множества S объектов, каждый г-й элемент которого характеризуется вектором Pi = ри, p2i,..., pkl признаков, на области (кластеры), отвечающие компактным группам изображений, при этом вектор признаков характеризуется как качественными, так и количественными признаками.

Методика разбита как бы на две части: в первой части рассматривается пример с проведением процедуры кластеризации как это частично описано в [90], [91], [92], [93] только с количественными признаками; во второй части к данным количественным признакам

140

добавляются качественные и показывается, каким образом происходит объединение признаков и дальнейшая кластеризация данных.

а) Пример выбора оптимальной кластеризации по качественным признакам.

Исходная выборка данных представлена в табл. 1.11

Т а б л и ц а 1.11

Блок I. Нормировка переменных. В [29] приведены наиболее распространенные способы нормирования показателей (переход от исходных значений х к нормированным z).

 

 

 

 

141

где х, cr

- соответственно среднее

и среднее квадратическое

отклонение

JC;

X 1 - некоторое эталонное

(нормативное) значение

х ;

х тах, Xmin -

наибольшее и наименьшее значение х .

 

Пронормируем исходные данные по формуле (1.117). Таблица с

нормированными исходными данными представлена ниже (табл. 1.12).

 

 

 

 

Т а б л и ц а

1.12

Блок 2. Получаем матрицу близости D , элементы которой определяем как межточечные расстояния по формуле

(1.118)

где п - количество всех признаков (для нашего примера ft = 5);

г = I, S (для нашего примера J = Il); j = (7 + \ ) , s .

К примеру из табл. 1.12

(1.119)

= 0.4401.

Рассчитывая аналогичным образом остальные межточечные расстояния для нормированных исходных данных, получим таблицу межточечных расстояний между объектами (табл. 1.13).

142

Блок 3. Построение диполей (пар близко расположенных объектов) и разделение данных на подвыборки A f \ В и С П D. Чтобы достичь однозначного выбора (регуляризации) непротиворечивой кластеризации, последние находятся на двух подвыборках данных, на которых требуется совпадение выбора кластеров.

Т а б л и ц а 1.13

Для выбора кластеризации в качестве основного [90] выходного критерия используется критерий непротиворечивости: этот критерий требует, чтобы кластеризация, полученная на половине выборки A(C), возможно меньше (по всем показателям) отличалась от кластеризации, полученной на половине выборки В(D). Поясним правило образования диполей, которое описано в [91], [92]: по матрице близости объектов D (Sj t Sj ) строятся диполи, причем построение диполей продолжается до

тех пор, пока все объекты войдут в множества А и В, при этом, противоположные вершины (объекты) относятся к разным множествам. Наиболее короткие диполи приведены ниже:

1)3 0.0411 8

2)3 0.0789 6

3)4 0.0880 5

4)6 0.0952 8

5)20.1162 7

6)40.1405 11

7)50.1831

11

8)80.2120 9

9) I 0.2240 10

10) 3 0.2400 9

11)3 0.2400 9

12) 4 0.2529 10

В результате получим девять диполей:

Блок 4. Вычисляем таблицы межточечных расстояний для подвыборок А (табл.1.14) и В (табл.1.15).

 

 

 

 

 

 

 

 

 

 

 

 

143

 

 

 

 

 

 

 

 

 

Т а б л и ц а

1.14

Подмно­

I

II

III

IV

V

VI

 

VII

VIII

 

IX

жество

 

 

 

 

 

 

 

 

 

 

 

 

А

3

3

4

6

2

4

 

5

8

 

1

I

3

0

0

0.4034

0.0789

0.5950

0.4034

0.3626

0.0411

 

0.4629

Її

3

 

0

0.4034

0.0789

0.5950

0.4084

0.3626

0.0411

 

0.4629

III

4

 

 

0

0.4617

0.5111

0

0.0880

0.3716

 

0.3393

IV

6

 

 

 

0

0.5976

0.4617

0.4268

0.0952

 

0.4818

V

2

 

 

 

 

0

0.5111

0.5716

0.5734

 

0.4401

VI

4

 

 

 

 

 

0

0.0880

0.3716

 

0.3393

VII

5

 

 

 

 

 

 

 

0

0.3341

 

0.3882

VIII

8

 

 

 

 

 

 

 

 

0

 

0.4298

IX

I

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

Т а б л и ц а

1.15

Подмно­

I

II

QI

IV

V

VI

 

VII

VIII

 

IX

жество

 

 

 

 

 

 

 

 

 

 

 

 

в

8

б

5

8

. 7

и

 

11

9

 

10

I

8

0

0,0952

0.3341

0

0.5004

0.4563

0.4563

0.2120

0.4803

II

6

 

0

0.4268

0.0952

0.5249

0.5381

0.5381

0.2487

0.5572

III

5

 

 

0.

0.3341

0.5214

0.1831

0.1831

0.3489

0.3162

IV

8

 

 

 

0

0.5004

0.4563

0.4563

0.2120

0.4803

V

7

 

 

 

 

0

0.4692

0.4692

0.3199

0.4539

VI

Il

 

 

 

 

 

0

 

0

0.4095

0.3370

VII

11

 

 

 

 

 

 

 

0

0.4095

0.3370

VIU

9

 

 

 

 

 

 

 

 

0

0.4181

IX

10

 

 

 

 

 

" « U

-

 

 

0

Блок 5. По таблицам строим два дерева перебора гипотез о числе кластеров (рис. 1.33 ).

Блок 6. Осуществляем перебор кластеризаций по критерию непротиворечивости, которыйрассчитываем по формуле [90]:

 

I r _ Klr

(1.120)

 

CYab= — ---- > min,

 

Л-

 

где

к - количество кластеров, выделенное на выборках

А и В

(различных и совпадающих);

 

Ak- количество совпадающих кластеров.

 

Как

видно из рис.1.33, CYab- 0 при кА=кв = 4, что

и будет

являться в данном случае оптимальной кластеризацией. Крайние значения,

когда кл = кв = 1,кл= кв = 9 -

являются

тривиальными и не

рассматриваются:

 

 

Запишем объединенные адреса

объектов

при которых CYab = 0

(таблица 1.16).

 

 

144

Рис.1.33 Иерархическийперебор гипотез о числе кластеров: а - для подвыборкн А, 6 - для подвыборки В

Блок 7. Доопределение (регуляризация). Как указано в [92] критерию может быть присуща неоднозначность. Он указывает своим минимумом оптимальную модель, а также некоторые ложные модели. Проведем дополнительную проверку разделив множество объектов на подмножества С и D, для этого формирование подмножеств C n D осуществим по следующему правилу [92]: для диполей, имеющих нечетные номера, объекты, принадлежащие А, относятся к С; В - соответственно к D, а для четных номеров диполей - наоборот. Далее осуществляем перебор кластеризаций по суммарному критерию непротиворечивости, выражение которого имеет вид {92]:

( 1. 121)

Таким образом для подмножеств C n D получим следующие диполи:

Адрес диполя

I

II

ΠΙ

IV

V

VI

VII

VIII

IX

С:

3

6

4

8

2

11

5

9

I

D:

8

3

5

6

7

4

11

-8

10

Далее алгоритм идентичен как для подвыборок А и В. Приведем лишь дендограммы для подвыборок С и D для наглядности (рис. 1.34).

В дальнейшем производим те же операции, что и в блоке б. Как видно из рис. 1.34 CYcd = Опри кс = kD - 2 и кс = kD = 4, то есть в данном случае наличие нескольких нулей значений критерия непротиворечивости. Рассчитывая суммарный критерий CYz видно, что CYz = 0 при

145

кл = к в = кс = kD = 4 , что и будет соответствовать оптимальной

кластеризации (табл. 1.16).

Т а б л и ц а 1.16

б) Пример выбора оптимальной кластеризации по качественным и количественным признакам.

Рис. 1.34 Иерархический перебор гипотез о числе кластеров: а - для подвыборки С, б - для подвыборки D

Информация о качественных признаках поступает от специалистовэкспертов и не является результатом каких-либо объективных наблюдений, в отличии от количественной информации, которая получена в результате наблюдений за объектами. Информация о возможных значениях в качественной форме моделируется лингвистическими переменными, в соответствии с чем, качественный признак ры,

представляющий собой нечеткое множество будет представлен

146

следующим образом на конечном универсальном множестве

JC *= { } [55].

Р 1 * Р Л ( Х i ) / * t + МЛ ( * 2 ) / X i + - + H r i ( X i ) Z X j , (1.122)

где aMr^( Xj ) / х/ ' - пара “функция принадлежности/элемент”,

называемые синглтоном, а “+” - обозначает совокупность пар, T - нечеткий терм (к примеру: H - низкий, С - средний, В - высокий).

Дополним исходную выборку данных представленную в табл.1.11 качественными показателями pi r p7 в виде терм-множеств (табл. 1.17).

Т а б л и ц а 1.17

В соответствии с (1.122) пусть качественные признаки представлены в следующем виде:

 

147

p f = 0 / у і+ 0 .3/у 2+0 Л / у 3+1 / у 4;

(1.127)

j»f = 0 . 3 / ¾ + 1 / ¾ + 0 . 5 / ^ + 0 . 8 / * ;

0-128)

Блок 1. Нормировка количественных переменных как это описано в предыдущем примере (см. табл.1.12 для количественных признаков).

Блок 2. Получаем матрицу близости D, элементы конторой рассчитываем:

-для качественных оценок находим относительное эвклидово

расстояние ε по степеням принадлежности [55], если А и В - два нечетких подмножества, то

а(1, S ) = ] - Σ (μ Λ(Χ,) - Mt (Xt))1,

(1.129)

VП Ui

 

где и- количество элементов подмножества и

 

0<е(А,В)й\.

(1.130)

Таким образом можно рассчитать относительные эвклидовы расстояния для качественных показателей. К примеру‘из табл.1.18:

(0.8-0.2/ + (0.7-0/ + + (0.9-0/ + (0.5-0.6/ +

е( Реб> Р»б) ~

+ (0.6-0.8/+(0.5-0.4/ +

(1.131)

 

 

+ (0.4-1/

 

= 0.5451;

 

 

 

(1-0)4(0.5-0.3)2+

 

ε(ρΖ, ΡΪ·,) = J t [+ (0.5 - 0.7)2 + (0.2 - l)2J ~

(1-132)

=0.6558;

-обобщенное межточечное расстояние M(StlSj ) - Ie находим по следующей формуле:

м(s,·, Sj) = Ig = Д Σ (рік - Pjkf +

Σ £(p I’ p D

I О ■·:133)

VЛ U»i

*-r+i

J

где η - количество всех признаков (для нашего примера я = 7);

148

г - количество количественных признаков (для нашего примера

г = 5).

Рассчитав по формуле (1.133) все межточечные расстояния получим таблицу межточечных расстояний между объектами, имеющую следующий вид (табл. 1.18):

 

 

 

 

 

 

 

 

 

T а б л и ц а

1.18

Объекты

SI

S2

S3

S4

S5

S6

S7

S8

S9

SlO

SU

SI

0

0.4431

0.4736 0.4971

0.4487 0.5385

0.3437 0.4507 0.4725

0.3599

0.4347

S2

 

0

0.6182 0.5768 0.5552 0.5668

0.2601

0.6034 0.4406 0.4926

0.5512

S3

 

 

0

0.4582 0.5087 0.3746

0.5166 0.0347 0.3149 0.5921

0.4116

S4

 

 

 

0

0.2770 0.5523

0.5648 0.4385 0.3962

0.3419 0.3283

S5

 

 

 

 

0

0.5207

0.5365 0.4946 0.4828 0.2672

0.4346

S6

 

 

 

 

 

0

0.5666 0.3773

0.3494 0.6024 0.5854

S7

 

 

 

 

 

 

0

0.5001

0.4498 0.4908 0.4780

S8

 

 

 

 

 

 

 

0

03002 0.5741

0.3856

S9

 

 

 

 

 

 

 

 

0

0.5206 0.4217

SlO

 

 

 

 

 

 

 

 

 

0

0.4960

S ll

 

 

 

 

 

 

 

 

 

 

0

Далее как вблоке 3 предыдущего примера строим диполи и разделяем

данные на две подвыборки A n B n C n D .

 

 

 

 

 

Приведем наиболее короткие диполи:

 

 

 

 

 

1)3 0.0347 8

2)20.2601 7

 

3)5 0.2672 10

4)4 0.2770 5

5) 8 0.3002 9

6) 3 0.3149 9

 

7) 4 0.3283 11

8) 4 0.3419 10

9) 1 0.3437 7

10)6 0.3494 9

 

11) 1 0.3599 10

12)3 0.3746 6

В результате получим десять диполей:

 

 

 

 

 

Адрес диполя

I

II

ΠΙ

IV

V

VI

VII

VIII

IX

X

А:

 

3

2

5

4

8

 

4

4

1

6

В:

 

8

7

10

5

9

9

I i

10

7

9

С:

 

3

7

5

5

8

9

4

10

1

9

D:

 

8

2

10

4

9

3

II

4

7

6

Вычисляем таблицы межточечных расстояний для подвыборок А и В, CnD, строим деревья перебора гипотез о числе кластеров и рассчитываем критерий непротиворечивости, как это описано в примере для количественных показателей.