Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Зацерковний ''Геоінформаційні системи і бази даних. Кн. 2''.pdf
Скачиваний:
532
Добавлен:
17.03.2017
Размер:
21.98 Mб
Скачать

Однорідність сукупності задається правилом обчислення певної мет-

рики, що характеризує ступінь подібності (схожості) j-ї та k-ї одиниць сукупності. Такою метрикою може бути відстань між ними С або коефіцієнт подібності Rjk. Близькі, схожі за вибраними метриками одиниці вважаються належними до одного типу, однорідними. Вибір метрики є вузловим моментом кластерного аналізу, від якого залежить кінцевий варіант поділу сукупності на класи [140].

Основною метою кластерного аналізу є розділення багатовимірної сукупності вхідних даних на однорідні групи так, щоб об’єкти всередині групи були подібними між собою відповідно до деякого критерію, а об’єкти із різних груп відрізнялися один від одного. Причому класифікація об’єктів проводиться одночасно за декількома ознаками на основі введення певної міри сумарної близькості за всіма ознаками класифікації [141].

Отже, критерій якості кластеризації тією чи іншою мірою відбиває наступні неформальні вимоги:

а) усередині груп об’єкти повинні бути тісно пов’язані між собою; б) об’єкти різних груп повинні бути далекими один від іншого;

в) за інших рівних умов розподіл об’єктів по групах повинен бути рівномірним.

4.4. Міри схожості (міри близькості), що використовуються при кластерному аналізі

Вузловим моментом у кластерному аналізі вважається вибір метрики (міри схожості, міри близькості) об’єктів, від якого вирішальним чином залежить остаточний варіант розбивки об’єктів на групи при заданому алгоритмі розбивки. Загалом, кількість мір відстаней буде становити:

M N0 (N 1),

2

де N0 – кількість об’єктів, між якими розраховується відстань.

У кожній конкретній задачі цей вибір здійснюється різним чином, з урахуванням головної мети дослідження, фізичної і статистичної природи використовуваної інформації тощо.

Для проведення кластерного аналізу даних здебільшого використовують такі міри схожості [144]:

1. Коефіцієнт кореляції – це показник характеру взаємного впливу зміни двох випадкових величин. Коефіцієнт кореляції позначається латинською буквою K і може набувати значення від –1 до +1.

Якщо значення по модулю знаходиться ближче до 1, то це означає наявність сильного зв’язку, а якщо ближче до 0 – зв’язок відсутній або є істотно нелінійним. При коефіцієнті кореляції, що дорівнює по модулю

82

одиниці, кажуть про функціональний зв’язок (а саме лінійну залежність), тобто зміну двох величин можна описати лінійною функцією [145].

2. Міра відстані (метрика, міра близькості, відстань між двома об’єктами) встановлює схожість або розбіжності між об’єктами [146]. Два об’єкти є ідентичними, якщо змінні, що їх описують, набувають одинакових значень. У цьому разі відстань між ними дорівнює нулю. Міри відстані зазвичай не обмежені зверху і залежать від вибору шкали (масштабу) вимірів.

Відстань між двома об’єктами позначається як d(xi,yi) – це функція близькості, яка задається за наступних умов [142]:

вона завжди більша або дорівнює нулю;

відстань від точки Х до точки Y така сама, як і від Y до X;

якщо числові значення ознак двох об’єктів однакові, відстань між ними дорівнює нулю;

якщо існує третя точка u, то сума відстаней між точками xu та yu завжди більша, ніж відстань між точками xy. У вигляді формули це записується так:

 

d(xi , yi ) 0

 

 

d(xi , yi ) d(yi ,xi )

 

 

 

 

 

i N.

d(xi , yi ) 0 xi yi

 

 

 

 

 

 

d(xi , yi ) d(xi ,ui ) d(ui , yi

)

Характеристики найбільш уживаних метрик відстаней наведено у табл. 4.1.

 

 

 

 

 

 

 

 

 

 

 

Таблиця 4.1

 

 

 

 

 

 

 

Характеристика метрик відстаней

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Назва

 

 

 

Недоліки

Переваги

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

2

3

 

Метрика Евкліда

 

 

 

Не враховує

1. Пропорційно збільшує відстань

 

 

 

 

 

 

 

 

 

 

 

знакові

між об’єктами у випадку різних

 

d

 

(x ,y

)

 

Nf

y

)2

e

 

(x

 

розходження

абсолютних значень показників.

 

 

 

i i

 

 

i

i

 

 

 

2. Збільшується розмірність

 

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

кластерного поля, об’єкти штучно

 

 

 

 

 

 

 

 

 

 

 

 

віддаляються один від одного.

 

 

 

 

 

 

 

 

 

 

 

 

3. Межі між кластерами стають

 

 

 

 

 

 

 

 

 

 

 

 

чіткими і точними.

 

Метрика Хемінга

 

 

 

Втрачаються

1. Використовується, коли знакові

 

dõeì

 

 

 

Nf

yi)

 

важливі знакові

розходження характеристик об’єк-

 

(xi,yi ) (xi

 

характеристики

тів мають принципове значення.

 

 

 

 

 

 

 

i 1

 

 

 

розходжень

2. За рахунок нівелювання

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

знакових розходжень показників

 

 

 

 

 

 

 

 

 

 

 

 

об’єкти сконцентруються навколо

 

 

 

 

 

 

 

 

 

 

 

 

області ядра кластера.

 

83

 

 

 

 

 

 

 

 

 

 

Продовження таблиці 4.1

1

 

 

 

 

 

 

 

2

3

Метрика L-норма

 

 

 

 

Не враховуються

1. Збільшується розмірність

Nf

 

 

 

 

 

 

 

 

знакові

кластерного поля.

dL(xi,yi )

 

xi yi

 

 

 

 

розходження

2. Об’єкти штучно віддаля-

 

 

 

i 1

 

 

 

 

 

ються один від одного.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. Межі між кластерами стають

 

 

 

 

 

 

 

 

 

 

чіткішими і точнішими.

Метрика Чебишева

 

 

 

 

Неправомірно

З усіх різниць значень факто-

 

 

 

 

 

 

 

 

 

змінює картину

рів, взятих по модулю, обира-

dsup (xi,yi ) SUP

 

xi

yi

 

 

класифікації

ється одна – найбільша, саме

 

 

 

 

 

 

 

 

 

 

 

через

вона буде характеристикою

 

 

 

 

 

 

 

 

 

ігнорування усіх

відстані між об’єктами. Отже,

 

 

 

 

 

 

 

 

 

факторів, крім

чітко формується однакова

 

 

 

 

 

 

 

 

 

одного

відстань між об’єктами.

Метрика Евкліда дуже залежить від розмірності даних. Для усунення цього недоліку найчастіше використовують процедуру нормування (normalization) даних, яка приводить значення усіх перетворених змінних до єдиного діапазону значень шляхом вираження через відношення цих значень до певної величини, яка відбиває властивості конкретної ознаки.

Метрика Хемінга у більшості випадків приводить до таких самих результатів, як і для метрики Евкліда, однак для неї вплив окремих великих викидів зменшується, оскільки вони не зводяться у квадрат. Метрику Хемінга іноді називають манхетенською відстанню, відстанню міських кварталів, або відстанню "сіті-блок".

Метрика Чебишева може виявитися корисною, коли бажають визначити відмінність двох об’єктів, якщо вони різняться якоюсь однією координатою (якимось одним виміром).

3.Коефіцієнти асоціативності застосовуються за потреби встановити схожість між об’єктами, що описуються бінарними змінними, причому 1 вказує на наявність змінної, а 0 – на її відсутність.

4.Імовірнісні коефіцієнти схожості – при утворенні кластерів за цими мірами обчислюється інформаційний виграш від об’єднання двох об’єктів, а потім об’єкти з мінімальним виграшем розглядаються як один.

4.5. Характеристики кластерів

Кластери можуть складатись з різних об’єктів, але всі вони мають певні властивості, найбільш важливі з яких є щільність, дисперсія, розміри, форма і віддільність.

Щільність – це властивість, яка дозволяє визначити кластер як сукупність точок у просторі даних, відносно щільне порівняно з іншими областями простору, містять або мало точок, або не містять їх зовсім.

84