Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Зацерковний ''Геоінформаційні системи і бази даних. Кн. 2''.pdf
Скачиваний:
532
Добавлен:
17.03.2017
Размер:
21.98 Mб
Скачать

Одним із основних елементів аналізу просторового розподілу об’єктів (процесів, явищ), що відбуваються на певній території, є визначення закономірностей у їх просторовому розташуванні. Оскільки на розташування об’єктів впливає велика кількість факторів навколишнього середовища, то вони мають певні просторові розстановки, які відображають вплив цих факторів. Використовуючи ці залежності, відомості про об’єкти геопростору, а також аналізуючи просторовий розподіл об’єктів, можна визначити фактори (економічні, екологічні, соціальні), що впливають на досліджувані об’єкти та місця їх розташування.

При аналізі просторових розподілів визначальними характеристиками об’єкта є не стільки об’єм простору, займаний об’єктом, або його форма, скільки розташування в просторі, яке може характеризуватися кількістю об’єктів у певному місці і тим, як вони розподілені – рівномірно або групами, наскільки віддалені один від одного, а також зв’язком між об’єктами і загальним розміром займаної території.

Просторові розподіли для об’єктів різного типу просторової локалізації аналізуються різними методами.

Локалізація (англ. localization) – обмеження місця дії того чи іншого

явища, процесу певними просторовими межами.

Просторовою локалізацією даних називають процес відношення різних видів інформації до певної просторово визначеної системи.

Такою системою може бути декартова або географічна системи координат, класифікована сукупність територіальних об’єктів тощо. Локалізація може здійснюватись завдяки застосуванню спеціальних класифікаторів або на підставі позиціонування. Просторова локалізація застосовується для аналізу різних типів об’єктів: локалізованих (точкових), лінійних, мережевих або полігональних об’єктів.

Позиційною локалізацією називається локалізація, здійснювана на підставі прив’язки точок об’єкта до системи координат.

4.2. Кластерний аналіз, переваги його застосування

Кластерний аналіз (англ. data clustering) – завдання розбиття

об’єктів (ситуацій) на підмножини, що називаються кластерами, так, щоб кожен кластер складався зі схожих об’єктів, а об’єкти різних кластерів істотно відрізнялися.

Кластерний аналіз застосовується в різних сферах і галузях [143]. Він працює навіть тоді, коли даних мало і не виконуються вимоги нормальності розподілу випадкових величин й інші вимоги класичних методів статистичного аналізу. Він корисний, коли потрібно класифікувати велику кількість інформації. Наприклад, у медицині кластеризація використовується для

78

класифікації захворювань або їх симптомів, таксономії6 пацієнтів, препаратів тощо. В психіатрії – для правильної діагностики симптомів, таких як параноя, шизофренія тощо, що є вирішальним чинником для успішної терапії. В археології встановлюються таксономії кам’яних споруд, похованих об’єктів.

Умаркетингу це можуть бути завдання сегментації конкурентів і споживачів.

Уменеджменті прикладами задач кластеризації слугують розбивка персоналу на різні групи, кластеризація споживачів і постачальників, виявлення схожих виробничих ситуацій, за яких виникає брак. У соціології – розбивка респондентів на однорідні групи. У маркетингових дослідженнях кластерний аналіз застосовується як у теоретичних дослідженнях, так і маркетологами, що практикують і вирішують проблеми угруповання різних об’єктів (аналіз поведінки споживача, групування споживачів в однорідні класи для одержання максимально повної картини про поведінку клієнта з кожної групи й про фактори, що впливають на його поведінку). При цьому розв’язуються питання про групи клієнтів, продуктів тощо. В геоінформатиці кластерний аналіз застосовується для спрощення роботи з геоінформацією, візуалізації даних, сегментації зображень, інтелектуального пошуку; в економіці – для аналізу ринків і фінансових потоків, виведення закономірностей на фондових біржах; в астрономії – виділення груп зірок і галактик, в ДЗЗ – автоматичної обробки космічних знімків. Можна стверджувати, що кластерний аналіз добре зарекомендував себе у всіх сферах життєдіяльності людини.

Завдання кластеризації відноситься до статистичної обробки, а також до широкого класу завдань навчання без учителя, на відміну від класифікації – навчання з учителем, де класи визначені первісно (рис. 4.1).

Класифікація:класи визначаютьсяпопередньо

Кластерізація:класине визначені,здійснюється пошукнайбільшсхожих, одноріднихгруп

Рис. 4.1. Відмінності класифікації і кластеризації

Класифікація – віднесення елемента (об’єкта) до певного класу із заздалегідь відомими параметрами, отриманими на етапі навчання.

Кількість класів при класифікації – строго обмежена.

6Таксономія – наука про принципи та способи класифікації й номенклатури складно організованих ієрархічних систем дійсності: органічного світу, об’єктів географії, геології, мовознавства, суспільства тощо. Синонім понять "систематика", "класифікація". Завдання таксономії – визначення і теоретичне обґрунтування класифікаційних одиниць – таксонів, їх системи, супідрядності, співвідношення та обсягу.

79

Кластеризація – це розбиття множини даних на кластери.

Кластери – підмножини однорідних одиниць сукупності, параметри яких заздалегідь невідомі.

Кластерний аналіз має низку переваг перед іншими методами класифікації даних.

По-перше, він дозволяє виконувати розбивку об’єктів як за однією ознакою, так і за цілим набором ознак. Причому вплив кожного з параметрів може бути доволі просто підсилений або послаблений шляхом внесення в математичні формули відповідних коефіцієнтів.

По-друге, кластерний аналіз не накладає обмежень на вид об’єктів групування і дозволяє розглядати безліч вихідних даних практично довільної природи.

По-третє, особливістю кластеризації є те, що більшість алгоритмів здатні самостійно визначити кількість кластерів, на які потрібно розбити дані, а також виділити характеристики цих кластерів без участі людини, тільки за допомогою використовуваного алгоритму.

На рис. 4.2 наведено приклад кластеризації довільних об’єктів.

Рис. 4.2. Приклад кластеризації об’єктів

Наведені об’єкти доволі прості і мають обмежену кількість характеристик: координати, форма, колір. Залежно від того, які характеристики використовуються для групування, кластеризація може дати абсолютно різні результати. Реальні об’єкти мають значно більший набір властивостей і, отже, більше варіантів компонування.

Для того щоб дати точне визначення кластеру, потрібно знати не тільки умови конкретної задачі, але й те, які саме характеристики використовуються в процесі групування.

Характеристиками кластера можна назвати дві ознаки:

внутрішня однорідність;

зовнішня ізольованість.

Предмет кластерного аналізу визначив і вперше подав його опис Р. Тріон (Trуon) [132] у 1939 р.

80

4.3. Мета використання кластерного аналізу в ГІС

Суть процедури кластерного аналізу полягає в тому, що об’єкти, які потрібно класифікувати, подаються вектором (набором) індивідуальних ознак цих об’єктів у формі таблиці "об’єкт–властивість", на підставі якої будується матриця відстаней (подібності, близькості), за якою і здійснюється кластеризація. Тим самим розв’язується задача класифікації даних з використанням чітко сформованого математичного апарату.

Зміст кластеризації полягає в тому, що об’єкти, які за вектором ознак є найближчими один до одного, утворюють окрему групу − кластер.

Мета кластеризації може різнитись залежно від особливостей конкретної прикладної задачі. Наприклад:

визначення структури безлічі даних шляхом її розбиття на групи по-

дібних об’єктів, для подальшого спрощення обробки даних у кожному кластері окремо;

скорочення (стиснення) об’єму даних, що зберігаються, з мінімаль-

ними втратами інформації шляхом залишку по одному найбільш типовому представнику від кожного кластера, оскільки доволі часто буває достатньо розгляду одного об’єкта для визначення характеристик усіх схожих об’єктів з високою імовірністю;

виділення нетипових об’єктів (виявлення новизни), які не підходять до жодного з кластерів, тощо;

розробка типології або класифікації;

дослідження корисних концептуальних схем групування об’єктів;

породження гіпотез на основі дослідження даних;

перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим або іншим способом, присутні в наявних.

Основним критерієм зарахування об’єктів до тієї чи іншої групи, тобто проведення кластеризації, є у певний спосіб подання та виміряна "відстань" між об’єктами.

Кластеризацію використовують, коли відсутні апріорні відомості щодо класів, до яких можна віднести об’єкти досліджуваного набору даних, або коли кількість об’єктів настільки велика, що ручний аналіз реально неможливий.

Об’єкти в кожному кластері повинні бути схожі один на одного більше, ніж на об’єкти інших класів, і відрізнятися від об’єктів інших кластерів сильніше, ніж від об’єктів власного класу.

Кластерний аналіз просторового розподілу об’єктів дозволяє скорочувати розмірність даних, робити її наочною.

Таким чином, кожного разу, коли потрібно класифікувати велику кількість інформації на придатні для подальшої обробки групи, кластерний аналіз виявляється вельми корисним і ефективним.

Основне завдання кластерного аналізу – формування однорідних груп у багатовимірному просторі.

81