Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Государственный университет телекоммуникаций

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

СППР

.pdf

Скачиваний:

192

Добавлен:

19.02.2016

Размер:

10.12 Mб

Скачать

☆

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 1415 / 3215 16 17 18 19 20 21 22 23 24 25 26 27 > Следующая >>>

139

Вычислительная часть предложенного алгоритма легко реализуется на матрице значений функций принадлежности, полученной из матрицы знаний путем выполнения операций min и max.

Приведенный алгоритм нахождения дискретных значений {dl,d2,...,dm) выходной переменной у по заданному вектору

фиксированных значений входных переменных X* =^xi*,х2,...<х*п) и

матрице знаний позволяет идентифицировать объект Y= f y(xux2,...,xn) с

дискретным выходом.

1.8.3.3. Методрешения задач нечеткого кластерного анализа

Согласно [89] кластер-анализ - это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как “сгустков” этих точек.

Таким образом основная цель анализа - выделить в исходных многомерных данных такие однородные подмножества, чтобы объекты внутри групп были похожи в известном смысле друг на друга, а объекты из разных групп - не похожи, Под “похожестью” понимается близость объектов в многомерном пространстве признаков, и тогда задача сводится к выделению в этом пространстве естественных скоплений (“гроздей”) объектов, которые и считаются однородными группами.

Как указано в [89] неформально проблему разбиения выборочного множества на классы можно, сформулировать следующим образом: “Сгруппировать точки выборочного множ^ггва в подмножества (называемые кластерами) так, чтобы подобные точки относились к одному и тому же подмножеству, а не подобные - к различным подмножествам.

Использование методов кластерного анализа при решении широкого круга задач, позволяет адекватно описывать модели предметных областей реального мира. Кластерный анализ позволяет в больших наборах данных выявлять те структуры, которые наиболее полно описывают поведение реальных объектов.

Рассмотрим задачу разделения множества S объектов, каждый г-й элемент которого характеризуется вектором Pi = ри, p2i,..., pkl признаков, на области (кластеры), отвечающие компактным группам изображений, при этом вектор признаков характеризуется как качественными, так и количественными признаками.

Методика разбита как бы на две части: в первой части рассматривается пример с проведением процедуры кластеризации как это частично описано в [90], [91], [92], [93] только с количественными признаками; во второй части к данным количественным признакам

140

добавляются качественные и показывается, каким образом происходит объединение признаков и дальнейшая кластеризация данных.

а) Пример выбора оптимальной кластеризации по качественным признакам.

Исходная выборка данных представлена в табл. 1.11

Т а б л и ц а 1.11

Блок I. Нормировка переменных. В [29] приведены наиболее распространенные способы нормирования показателей (переход от исходных значений х к нормированным z).

				141
где х, cr		- соответственно среднее	и среднее квадратическое
отклонение	JC;	X 1 - некоторое эталонное	(нормативное) значение	х ;
х тах, Xmin -	наибольшее и наименьшее значение х .
Пронормируем исходные данные по формуле (1.117). Таблица с
нормированными исходными данными представлена ниже (табл. 1.12).
			Т а б л и ц а	1.12

Блок 2. Получаем матрицу близости D , элементы которой определяем как межточечные расстояния по формуле

(1.118)

где п - количество всех признаков (для нашего примера ft = 5);

г = I, S (для нашего примера J = Il); j = (7 + \ ) , s .

К примеру из табл. 1.12

(1.119)

= 0.4401.

Рассчитывая аналогичным образом остальные межточечные расстояния для нормированных исходных данных, получим таблицу межточечных расстояний между объектами (табл. 1.13).

142

Блок 3. Построение диполей (пар близко расположенных объектов) и разделение данных на подвыборки A f \ В и С П D. Чтобы достичь однозначного выбора (регуляризации) непротиворечивой кластеризации, последние находятся на двух подвыборках данных, на которых требуется совпадение выбора кластеров.

Т а б л и ц а 1.13

Для выбора кластеризации в качестве основного [90] выходного критерия используется критерий непротиворечивости: этот критерий требует, чтобы кластеризация, полученная на половине выборки A(C), возможно меньше (по всем показателям) отличалась от кластеризации, полученной на половине выборки В(D). Поясним правило образования диполей, которое описано в [91], [92]: по матрице близости объектов D (Sj t Sj ) строятся диполи, причем построение диполей продолжается до

тех пор, пока все объекты войдут в множества А и В, при этом, противоположные вершины (объекты) относятся к разным множествам. Наиболее короткие диполи приведены ниже:

1)3 0.0411 8	2)3 0.0789 6	3)4 0.0880 5		4)6 0.0952 8
5)20.1162 7	6)40.1405 11	7)50.1831	11	8)80.2120 9
9) I 0.2240 10	10) 3 0.2400 9	11)3 0.2400 9		12) 4 0.2529 10

В результате получим девять диполей:

Блок 4. Вычисляем таблицы межточечных расстояний для подвыборок А (табл.1.14) и В (табл.1.15).

												143
									Т а б л и ц а			1.14
Подмно		I	II	III	IV	V	VI		VII	VIII		IX
жество
	А	3	3	4	6	2	4		5	8		1
I	3	0	0	0.4034	0.0789	0.5950	0.4034	0.3626		0.0411		0.4629
Її	3		0	0.4034	0.0789	0.5950	0.4084	0.3626		0.0411		0.4629
III	4			0	0.4617	0.5111	0	0.0880		0.3716		0.3393
IV	6				0	0.5976	0.4617	0.4268		0.0952		0.4818
V	2					0	0.5111	0.5716		0.5734		0.4401
VI	4						0	0.0880		0.3716		0.3393
VII	5								0	0.3341		0.3882
VIII	8									0		0.4298
IX	I											0
									Т а б л и ц а			1.15
Подмно		I	II	QI	IV	V	VI		VII	VIII		IX
жество
	в	8	б	5	8	. 7	и		11	9		10
I	8	0	0,0952	0.3341	0	0.5004	0.4563	0.4563		0.2120	0.4803
II	6		0	0.4268	0.0952	0.5249	0.5381	0.5381		0.2487	0.5572
III	5			0.	0.3341	0.5214	0.1831	0.1831		0.3489	0.3162
IV	8				0	0.5004	0.4563	0.4563		0.2120	0.4803
V	7					0	0.4692	0.4692		0.3199	0.4539
VI	Il						0		0	0.4095	0.3370
VII	11								0	0.4095	0.3370
VIU	9									0	0.4181
IX	10						" « U		-			0

Блок 5. По таблицам строим два дерева перебора гипотез о числе кластеров (рис. 1.33 ).

Блок 6. Осуществляем перебор кластеризаций по критерию непротиворечивости, которыйрассчитываем по формуле [90]:

	I r _ Klr	(1.120)
	CYab= — ---- > min,	(1.120)
	Л-
где	к - количество кластеров, выделенное на выборках	А и В
(различных и совпадающих);
Ak- количество совпадающих кластеров.
Как	видно из рис.1.33, CYab- 0 при кА=кв = 4, что	и будет

являться в данном случае оптимальной кластеризацией. Крайние значения,

когда кл = кв = 1,кл= кв = 9 -	являются	тривиальными и не
рассматриваются:
Запишем объединенные адреса	объектов	при которых CYab = 0
(таблица 1.16).

144

Рис.1.33 Иерархическийперебор гипотез о числе кластеров: а - для подвыборкн А, 6 - для подвыборки В

Блок 7. Доопределение (регуляризация). Как указано в [92] критерию может быть присуща неоднозначность. Он указывает своим минимумом оптимальную модель, а также некоторые ложные модели. Проведем дополнительную проверку разделив множество объектов на подмножества С и D, для этого формирование подмножеств C n D осуществим по следующему правилу [92]: для диполей, имеющих нечетные номера, объекты, принадлежащие А, относятся к С; В - соответственно к D, а для четных номеров диполей - наоборот. Далее осуществляем перебор кластеризаций по суммарному критерию непротиворечивости, выражение которого имеет вид {92]:

( 1. 121)

Таким образом для подмножеств C n D получим следующие диполи:

Адрес диполя	I	II	ΠΙ	IV	V	VI	VII	VIII	IX
С:	3	6	4	8	2	11	5	9	I
D:	8	3	5	6	7	4	11	-8	10

Далее алгоритм идентичен как для подвыборок А и В. Приведем лишь дендограммы для подвыборок С и D для наглядности (рис. 1.34).

В дальнейшем производим те же операции, что и в блоке б. Как видно из рис. 1.34 CYcd = Опри кс = kD - 2 и кс = kD = 4, то есть в данном случае наличие нескольких нулей значений критерия непротиворечивости. Рассчитывая суммарный критерий CYz видно, что CYz = 0 при

145

кл = к в = кс = kD = 4 , что и будет соответствовать оптимальной

кластеризации (табл. 1.16).

Т а б л и ц а 1.16

б) Пример выбора оптимальной кластеризации по качественным и количественным признакам.

Рис. 1.34 Иерархический перебор гипотез о числе кластеров: а - для подвыборки С, б - для подвыборки D

Информация о качественных признаках поступает от специалистовэкспертов и не является результатом каких-либо объективных наблюдений, в отличии от количественной информации, которая получена в результате наблюдений за объектами. Информация о возможных значениях в качественной форме моделируется лингвистическими переменными, в соответствии с чем, качественный признак ры,

представляющий собой нечеткое множество будет представлен

146

следующим образом на конечном универсальном множестве

JC *= { } [55].

Р 1 * Р Л ( Х i ) / * t + МЛ ( * 2 ) / X i + - + H r i ( X i ) Z X j , (1.122)

где aMr^( Xj ) / х/ ' - пара “функция принадлежности/элемент”,

называемые синглтоном, а “+” - обозначает совокупность пар, T - нечеткий терм (к примеру: H - низкий, С - средний, В - высокий).

Дополним исходную выборку данных представленную в табл.1.11 качественными показателями pi r p7 в виде терм-множеств (табл. 1.17).

Т а б л и ц а 1.17

В соответствии с (1.122) пусть качественные признаки представлены в следующем виде:

	147
p f = 0 / у і+ 0 .3/у 2+0 Л / у 3+1 / у 4;	(1.127)
j»f = 0 . 3 / ¾ + 1 / ¾ + 0 . 5 / ^ + 0 . 8 / * ;	0-128)

Блок 1. Нормировка количественных переменных как это описано в предыдущем примере (см. табл.1.12 для количественных признаков).

Блок 2. Получаем матрицу близости D, элементы конторой рассчитываем:

-для качественных оценок находим относительное эвклидово

расстояние ε по степеням принадлежности [55], если А и В - два нечетких подмножества, то

а(1, S ) = ] - Σ (μ Λ(Χ,) - Mt (Xt))1,	(1.129)
VП Ui
где и- количество элементов подмножества и
0<е(А,В)й\.	(1.130)

Таким образом можно рассчитать относительные эвклидовы расстояния для качественных показателей. К примеру‘из табл.1.18:

(0.8-0.2/ + (0.7-0/ + + (0.9-0/ + (0.5-0.6/ +

е( Реб> Р»б) ~	+ (0.6-0.8/+(0.5-0.4/ +	(1.131)
	+ (0.6-0.8/+(0.5-0.4/ +	(1.131)
	+ (0.4-1/
= 0.5451;
	(1-0)4(0.5-0.3)2+
ε(ρΖ, ΡΪ·,) = J t [+ (0.5 - 0.7)2 + (0.2 - l)2J ~		(1-132)

=0.6558;

-обобщенное межточечное расстояние M(StlSj ) - Ie находим по следующей формуле:

м(s,·, Sj) = Ig = Д Σ (рік - Pjkf +	Σ £(p I’ p D	I О ■·:133)
VЛ U»i	*-r+i	J

где η - количество всех признаков (для нашего примера я = 7);

148

г - количество количественных признаков (для нашего примера

г = 5).

Рассчитав по формуле (1.133) все межточечные расстояния получим таблицу межточечных расстояний между объектами, имеющую следующий вид (табл. 1.18):

									T а б л и ц а		1.18
Объекты	SI	S2	S3	S4	S5	S6	S7	S8	S9	SlO	SU
SI	0	0.4431	0.4736 0.4971		0.4487 0.5385		0.3437 0.4507 0.4725			0.3599	0.4347
S2		0	0.6182 0.5768 0.5552 0.5668				0.2601	0.6034 0.4406 0.4926			0.5512
S3			0	0.4582 0.5087 0.3746			0.5166 0.0347 0.3149 0.5921				0.4116
S4				0	0.2770 0.5523		0.5648 0.4385 0.3962			0.3419 0.3283
S5					0	0.5207	0.5365 0.4946 0.4828 0.2672				0.4346
S6						0	0.5666 0.3773		0.3494 0.6024 0.5854
S7							0	0.5001	0.4498 0.4908 0.4780
S8								0	03002 0.5741		0.3856
S9									0	0.5206 0.4217
SlO										0	0.4960
S ll											0
Далее как вблоке 3 предыдущего примера строим диполи и разделяем
данные на две подвыборки A n B n C n D .
Приведем наиболее короткие диполи:
1)3 0.0347 8		2)20.2601 7				3)5 0.2672 10			4)4 0.2770 5
5) 8 0.3002 9		6) 3 0.3149 9				7) 4 0.3283 11			8) 4 0.3419 10
9) 1 0.3437 7		10)6 0.3494 9				11) 1 0.3599 10			12)3 0.3746 6
В результате получим десять диполей:
Адрес диполя		I	II	ΠΙ	IV	V	VI	VII	VIII	IX	X
А:		3	2	5	4	8		4	4	1	6
В:		8	7	10	5	9	9	I i	10	7	9
С:		3	7	5	5	8	9	4	10	1	9
D:		8	2	10	4	9	3	II	4	7	6

Вычисляем таблицы межточечных расстояний для подвыборок А и В, CnD, строим деревья перебора гипотез о числе кластеров и рассчитываем критерий непротиворечивости, как это описано в примере для количественных показателей.

<<< < Предыдущая 3 4 5 6 7 8 9 10 11 12 13 1415 / 3215 16 17 18 19 20 21 22 23 24 25 26 27 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.11.20191.17 Mб2РРЛ_1.doc
#
06.09.2019136.7 Кб3Сертфікація-Лек-16.doc
#
19.02.2016335.36 Кб26Сигнали, модуляція.doc
#
03.12.201866.05 Кб9Склад ядра атома.doc
#
16.11.20191.64 Mб10Соціологія Сірий.docx
#
19.02.201610.12 Mб192СППР.pdf
#
09.11.2019443.39 Кб1Статистика Метод вказівки до ККР2.doc
#
19.02.2016131.58 Кб17Структ_схема.doc
#
07.11.2018697.86 Кб8Суматор.doc
#
19.09.2019153.17 Кб17Схема системы передачи информации.docx
#
19.02.201632.2 Mб19ТЕЗ Курсова.doc