Скачиваний:
1
Добавлен:
23.11.2023
Размер:
592.32 Кб
Скачать

Лабораторное занятие №9

Цель работы: знакомство с процессом кластеризации данных с помощью самоорганизующихся карт признаков. Определение структуры карты и параметров обучения, оценка эффективности кластеризации, содержательная интерпретация кластеров.

Задание:

  • показать структуру кластеров карты Кохонена;

  • составить таблица, полученная при содержательной интерпретации кластеров.

Ход работы

Структура сети Кохонена

Каждый выходной нейрон ассоциирован с кластером и, следовательно, в зависимости от того, какой из нейронов возбуждается при подаче на вход НСК определенного наблюдения, оно относится к соответствующему кластеру.

Обучение сетей Кохонена. Для обучения НСК используется конкурентное обучение или алгоритм Кохонена - итеративная процедура, в которой нейроны выходного слоя «конкурируют» между собой за право оказаться «ближе» к векторам обучающих примеров, подаваемых на вход сети. В начале обучения веса нейронов инициализируются небольшими случайными значениями. Каждая итерация содержит следующие шаги:

1. Конкуренция(competition). На вход сети поступает обучающий пример и для него определяется выходной нейрон, вектор весов которого наиболее близок к . Такой нейрон объявляется «победителем».

2. Объединение(cooperation). Для нейрона-победителя определяется группа нейронов вы-ходного слоя, расстояние до которых не превышает заданной величины, называемой радиусом обучения . Все нейроны, оказавшиеся в пределах радиуса обучения нейрона-победителя, должны подстраивать свои веса в направлении его вектора. В результате нейрон-победитель становится центром некоторого соседства нейронов с близкими векторами весов.

3. Подстройка (adaptation). Выполняется подстройка весов нейронов, оказавшихся в пределах радиуса обучения нейрона-победителя. Пусть на вход сети Кохонена поступает -й пример, случайно выбираемый из обучающего множества .

Данные для анализа:

E

nca

ca

eq

ltd

stl

rfs

cp

np

E1

5116652

1655737

4912417

619623

1240349

6391468

5820259

532581

E2

1226241

1224983

1457028

93921

900275

5027062

3462529

499271

E3

5851307

1460596

421161

395121

1295621

4489673

2291589

67368

E4

86188

840198

93900

604792

227694

141282

122932

10

E5

213652

289893

187876

138430

177239

474607

439172

8238

E6

292249

410349

44432

14565

643601

684336

636529

-36067

E7

107355

265899

132056

7656

233542

293423

302575

110

E8

155221

797983

74255

860

878949

244337

249286

-133140

E9

2852

69444

-27284

913

98667

173460

126278

-27697

E10

292001

130363

129216

155051

138097

357466

312348

-5967

E11

659633

1295344

132248

1650653

1172076

1671660

1626270

122137

E12

170298

666081

616076

582

219721

1002735

807602

117997

1. Запустили аналитическую платформу Deductor и загрузили обучающий набор данных нажав на кнопку Мастер импорта.

2. Открыли окно Мастера обработки и на 1-м шаге в секции Data Mining выбрали пункт «Самоорганизующаяся карта Кохонена».

На 2-м шаге указали столбцу "Предприятие" (Enterprise) назначение "Информационное", а остальным столбцам – "Входное".

На 3-м шаге Мастера обработки отключили использование тестового множества.

На 4-м шаге установили параметры карты: размер по X– 16 ячеек, поY– 12 ячеек, форма ячеек – 6 угольная.

На 5-м шаге, параметры остановки обучения, настройки оставили по умолчанию.

На 6-м шаге установили параметры обучения карты следующим образом:

- способ начальной инициализации весов карты – случайными значениями;

- количество эпох, через которое необходимо перемешивать строки - 20;

- скорость обучения: в начале обучения 0,3, в конце обучения 0,05;

- радиус обучения: в начале обучения 4, в конце обучения 0,1;

- функция соседства ступенчатая.

- число кластеров выбрать соответствующим числу ожидаемых групп объектов со сходными свойствами в обучающем наборе данных, если имеются некоторые априорные сведения.

- уровень значимость выбрали 0,1.

Для отображения полученных групп кластеров выбрали в обработчике "Кластеризация" из списка визуализаторов способы отображения данных: "Что-если" для решения задачи классификации, отнесение нового предприятия к одному из кластеров, "Профили кластеров" для определения структуры формирования группы кластеров и "Куб" для наглядного просмотра полученных результатов.

Для настройки визуализатора "Куб" выбрали рассматриваемые свойства как факты, а номер кластера как измерение.

В "Профили кластеров" представлены все рассматриваемые свойства вместе с характером влияния их на состав кластера.

Далее определили, как в таблице располагать измерения и факты

Для каждого факта выбрали вычисление среднего по рассматриваемой группе.

Алгоритм автоматически разбил предприятия на два кластера с разной поддержкой и разными процентами значимости свойств. Первый кластер содержит 8 предприятий, второй – 4.

Самым значимым для первого кластера является «Выручка от реализации», для второго «Оборотные активы».

При построении кросс-диаграммы на панели инструментов окна кросс-диаграммы нажали кнопки «Нормализация, приведение графиков к единому масштабу».

Добавили в кросс-диаграмму все параметры, по которым проводилась кластеризация, и легенду, которая укажет каким цветом какой параметр отображается.

Соседние файлы в папке Лаба 9