Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Rozd_3.doc
Скачиваний:
6
Добавлен:
15.11.2019
Размер:
369.15 Кб
Скачать

3.2. Кластерні процедури класифікації

Кластер — це група, клас однорідних одиниць сукупності. Основне завдання кластерного аналізу — формування таких груп у багатовимірному просторі. Однорідність сукупності задається правилом обчислення певної метрики, що характеризує ступінь подібності (схожості) j-ї та k-ї одиниць сукупності. Такою метрикою може бути відстань між ними сjk або коефіцієнт подібності rjk. Близькі, схожі за вибраними метриками одиниці вважаються належними до одного типу, однорідними. Вибір метрики є вузловим моментом кластерного аналізу, від якого залежить кінцевий варіант поділу сукупності на класи.

На ознаках метричної шкали формується матриця відстаней розміром n · n з нульовими діагональними елементами. Використовують різні метрики відстані, з-поміж яких найбільш відома Евклідова відстань:

сjk = ,

де zij і zik — стандартизовані значення і-ї ознаки в j-ї та k-ї одиниць сукупності.

Приклад розрахунку Евклідової відстані на ознаковій множині m = 5 наведено в табл. 3.3. Згідно з даними сjk = = 0,7.

Таблиця 3.3

Одиниця сукупності

Стандартизовані значення ознаки

Разом

z1j

z2j

z3j

z4j

z5j

j

0,4

0,9

0,3

1,1

0,5

Х

k

0,8

0,6

0,5

0,9

0,7

Х

(zij zik)2

0,16

0,09

0,04

0,16

0,04

0,49

Якщо ознаки xi різновагомі, то розраховується зважена Евклідова відстань з вагами i:

.

За своєю квадратичною формою Евклідова відстань вписується у традиційні статистичні конструкції, проте на практиці використовують й інші метрики, зокрема Mанхеттенську відстань сjk = .

Інформаційною базою кластерного аналізу є матриця відстаней. Приклад такої матриці для сукупності n = 5 наведено в табл. 3.5. За способом кластеризації розрізняють ієрархічні та ітераційні процедури. З-поміж ієрархічних найбільш відома і вживана агломеративна (об’єднувальна) процедура, суть якої — послідовне об’єднання двох найближчих одиниць сукупності. В матриці відстаней це одиниці, що мають мінімальну відстань сjk. На першому кроці об’єднання всі одиниці сукупності розглядаються як окремі кластери; після кожного кроку розмірність матриці зменшується на одиницю. Повна кластеризація n одиниць відбувається за (n – 1) кроків.

Іноді кластерні процедури вводять обмеження зверху на максимальну відстань між об’єктами одного класу. Таке обмеження називають порогом. Якщо при формуванні кластерів відстань між oб’єктами перевищує поріг c0, то ці об’єкти за певними правилами відносяться до різних кластерів. Порогове значення вибирається суб’єктивно або за певною схемою, може бути постійним або змінюватися, скажімо, монотонно зростаючи на кожному кроці формування кластерів.

Загальну схему агломеративної кластер-процедури на матриці відстаней можна представити як повторення трьох операцій:

  1. пошук мінімальної відстані між j-им і k-им кластерами;

  2. об’єднання j та k в один кластер і надання останньому спільного індексу q;

  3. розрахунок відстаней від сформованого кластера q до інших одиниць сукупності cqs за формулою

cqs = a1 cjs + a2 cks + a3 cjk + a4(cjs cks).

Значення коефіцієнтів а1, a2, a3, a4 залежaть від алгоритму формування кластерів. Для трьох алгоритмів їх наведено в табл. 3.4. Так, за алгоритмом одиничного зв’язку (близького сусіда) одиниця s приєднується до кластера q, якщо вона близька хоча б до одного представника цього кластера. В алгоритмі повного зв’язку (далекого сусіда) відстань між кластером q і s-ю одиницею визначається як відстань до найвіддаленішого представника кластера q. Алгоритм середнього зв’язку використовує середню відстань між кандидатом на включення в кластер q і представниками існуючого кластера.

Таблиця 3.4

Алгоритм

a1

a2

a3

a4

Одиничного зв’язку

0,5

0,5

0

–0,5

Повного зв’язку

0,5

0,5

0

0,5

Середнього зв’язку

0,5

0,5

0

0

Застосуємо алгоритм одиничного зв’язку до матриці відстаней (табл. 3.5). Оскільки мінімальною є відстань с12 = 0,6, то перша і друга одиниці сукупності об’єднуються в один кластер q = 12. Перераховані відстані від новоутвореного кластера до інших одиниць сукупності становлять:

cq3 = 0,5 × 2,8 + 0,5 × 1,7 – 0,5 × (2,8 – 1,7) = 1,7;

cq4 = 0,9;

cq5 = 2,0.

Таблиця 3.5

j

1

2

3

4

5

1

0

0,6

2,8

3,3

2,0

2

0,6

0

1,7

0,9

2,5

3

2,8

1,7

0

0,7

4,2

4

3,3

0,9

0,7

0

1,8

5

2,0

2,5

4,2

1,8

0

Як бачимо, відстань будь-якої одиниці сукупності до кластера q дорівнює мінімальній з тих двох відстаней, за якими велися розрахунки. Нову матрицю наведено в табл. 3.6.

Таблиця 3.6

j

q = 12

3

4

5

q = 12

0

1,7

0,9

2,0

3

1,7

0

0,7

4,2

4

0,9

0,7

0

1,8

5

2,0

4,2

1,8

0

У новій матриці мінімальна відстань с34 = 0,7, отже, об’єд­нанню підлягають третя і четверта одиниці сукупності.

Результати ієрархічних процедур кластеризації оформляються у вигляді деревоподібних діаграм — дендрограм. На одній осі дендрограми зазначаються номери об’єктів, на другій — відстані, за якими відбувається об’єднання. Дендрограма відображує ієрархію структур: кожний кластер можна розглядати як елемент іншого, з більшим значенням відстані cjk (рис. 3.2).

У системі Statistica ієрархічну процедуру класифікації — Joining (Tree clustering) — реалізовано в модулі Cluster Analysis. Діалогове вікно процедури пропонує вибрати установки аналізу:

  • ознакову множину;

  • тип первинних даних: Raw Data — дані типу «об’єкт—ознака» чи Distance Matrix — матриця відстаней;

  • варіант класифікації: за стовпцями (columns) — класифікація ознак чи за рядками (rows) — класифікація об’єктів;

  • алгоритм об’єднання — Amalgamation (linkage) Rules; за умовчування — алгоритм одиничного зв’язку — Single linkage (nearest neighbor);

  • метрику відстаней — Distance measure: Euclidean distances, City-block (Manhattan) distance, інші.

За командою на виконання вибраних установок система видає Joining Results з опціями виду дендрограми — горизонтальної чи вертикальної. На рис. 3.1 наведено вертикальну дендрограму класифікації дітей за рівнем інтелектуального розвитку (алгоритм одиничного зв’язку, Евклідова відстань).

Рис. 3.2. Дендрограма

Ознакова множина класифікації включає результати тестування (тести логічного мислення, змістової та асоціативної пам’яті, просторової візуалізації). На графіку чітко виділяються два кластери: до першого потрапили троє дітей, до другого — семеро.

Вісь дендрограми має розмірність метрики. За допомогою опції Scale tree to dlink/dmax*100 розмірність осі можна нормувати процентним співвідношенням.

Якщо значення ознаки представлені двійковим кодом, для оцінювання ступеня близькості об’єктів використовують коефіцієнт подібності rjk. Розрахунок його ґрунтується на співвідношеннях кількості ознак, значення яких збігаються чи не збігаються. Наприклад, оцінюється якість продукції за m параметрами. Кожна одиниця сукупності характеризується вектором значень цих параметрів якості. Для параметра, що відповідає стандарту, х = 1, для параметра, що не відповідає стандарту, х = 0 (табл. 3.7).

Таблиця 3.7

Одиниця сукупності

Параметр якості

а

б

в

г

ґ

д

е

є

j

0

1

1

0

1

0

0

1

k

0

0

1

1

1

1

0

1

Таблиця 3.8

Значення ознаки

1

0

1

a

b

0

c

d

Частоти однакових і різних пар значень ознак зручно подавати у вигляді чотириклітинкової таблиці (табл. 3.8). У нашому прик­ладі кількість пар однакових значень ознаки: одиничних а (1, 1) = 3; нульових d (0, 0) = 2. Кількість пар ознак, значення яких не збігаються: b (1, 0) = 1; с (0, 1) = 2.

За умови, що одиничні та нульові ознаки рівновагомі, використовують відношення

.

Якщо значущими вважаються лише одиничні ознаки, то частоту а відносять або до загальної кількості ознак (коефіцієнт Рао) або до загальної кількості одиничних значень (коефіцієнт Жаккара):

; .

Іноді важливо надати подвійну вагу одиничним ознакам. Скажімо, коли «1» позначає відхилення і-го параметра від нормативу (коефіцієнт Дейка):

.

У практиці використовують багато інших оцінок ступеня подібності. Значення rjk коливаються в межах 0  rjk 1. Очевидно, що різні коефіцієнти, розраховані для тих самих об’єктів, за величиною будуть різними. Вибір коефіцієнта rjk визначається відносною значущістю одиничних і нульових ознак, важливістю порозрядного збігу чи незбігу їхніх значень, а отже, певною мірою є суб’єктивним.

У матриці коефіцієнтів подібності діагональні елементи представлено одиницями. Агломеративна процедура послідовно об’єд­нує найближчі об’єкти, що мають максимальний коефіцієнт rjk.

Ієрархічна кластер-процедура досить проста і прийнятна для інтерпретації. Проте для численної сукупності вона виявляється громіздкою. У таких випадках перевагу віддають ітераційним процедурам.

На відміну від ієрархічної процедури, яка потребує розрахунку і збереження матриці подібності, ітераційна процедура оперує безпосередньо первинними даними; формуються кластери одного рангу, ієрархічно не підпорядковані. Основні риси ітераційних кластер-процедур розглянемо на прикладі алгоритму k-середніх, який реалізує ідею утворення груп за принципом «найближчого центра».

На першому кроці ітераційного процесу здійснюється орієнтовний поділ сукупності на класи і визначаються центри тяжіння (багатовимірні середні) цих класів.

На другому кроці визначаються Евклідові відстані одиниць сукупності до центрів тяжіння виділених кластерів, і кожна з них відноситься до того кластера, центр тяжіння якого найближчий.

На третьому кроці розраховуються нові центри тяжіння кластерів.

Кроки 2 і 3 повторюються доти, доки склад кластерів не стабілізується. Ітерації за принципом k-середніх у явному вигляді не використовують критеріїв якості класифікації, проте неявно вони мінімізують внутрішньогрупові дисперсії, забезпечуючи тим самим однорідність сформованих кластерів.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]