Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3blok_Аналіз даних.doc
Скачиваний:
22
Добавлен:
14.02.2016
Размер:
316.42 Кб
Скачать

2. Задачі класифікації.

1. Задача ідентифікації полягає в тому, щоб вирізнити певний конкретний об’єкт серед йому подібних.

2. Віднесення об’єкту до того чи іншого класу – найбільш типова проблема класифікації.

3. Кластер ний аналіз, який полягає у розділенні заданого набору об’єктів на класи – групи об’єктів схожі між собою за тими чи іншими критеріями. Цю задачу часом називаються класифікацією без вчителя, а попередю – класифікація з вчителем.

Завдання класифікації:Класифікація є простим і найбільш часто вирішуваним завданням.Класифікація – системний розподіл предметів, що вивчається, явищ, процесів за родами, видами, типами, за якими-небудь істотними ознаками для зручності їх дослжіення, групування цих понять і розташування їх в певному порядку, що відображає ступінь цієї схожості.Класифікація – впорядкована за деяким принципом множина об’єктів, які мають схожі класифікаційні ознаки, вибрані для визначення схожості або відмінності між цими об’єктами.

Правила класифікації:У кожному акті поділу необхідно застосовувати тільки одну підставу: - загальний об’єм видових понять повинен дорівнювати об’ємові родового поняття, що розглядається;

- члени поділу повинні взаємно виключати один одного, їхні об’єми не повинні перехрещуватися;

- поділ повинен бути послідовним.

Залежно від вибраних ознак, їх поєднання і процедури ділення понять класифікація може бути:

- простою – ділення родового поняття за однією ознакою і тільки один раз до розкриття всіх видів, прикладом є дихотомія;

- складною – застосовується для поділу одного поняття за різними підставами і синтез отаких простих поділі в єдине ціле, прикладом є таблиця Мендєлєєва.

Процес класифікації: Мета процесу класифікації полягає в тому, щоб побудувати модель, яки викор. прогнозуючі атрибути як вх. параметри і набуває значення незалежного атрибуту. Процес класифікації полягає в розбитті безлічі об’єктів на класи за певними критеріями. Класифікатор визначає, якому із класів належить об’єкт за вектором ознак.

Задача классифікації - формалізована задача, в якій є множин об'єктів (ситуацій), розділених деяким чином на класи. Задана кінцева множина об'єктів, для яких відомо, до яких класів вони відносяться. Ця множина називається вибіркою. Класова приналежність інших об'єктів не відома. Потрібно побудувати алгоритм, здатний класифікувати довільний об'єкт з початкової множини.

Класифікувати об'єкт - значить, вказати номер (або назву) класу, до якого відноситься даний об'єкт.

Типи класів

- Двохкласова класифікація. Найбільш простий в технічному відношенні випадок, який служить основою для вирішення складніших завдань.

- Багатокласова класифікація. Коли число класів досягає багатьох тисяч (наприклад при розпізнаванні ієрогліфів або злитої мови), задача класифікації стає суттєво складнішими.

- Класи, які не пересікаються. - Класи, які пересікаються. ,- Нечіткі класи..

3. Задачі рангової кореляції.

Ряд об’єктів, розташованих у відповідності із деякою ознакою, називають впорядкованим. Сам процес такого впорядкування називають ранжуванням, а кожному членові такого ряду присвоюється ранг.

Зазвичай ранги позначаються порядковими числівниками 1,2, …, n, де n – кількість об’єктів. Таким чином, якщо якийсь об’єкт після ранжування займатиме п’яте місце у ряду, то говорять, що його ранг 5.

Можна назвати кілька способів впорядкування.

1. Впорядкування об’єктів за їхнім місцем у просторі або у часі.

2. Впорядковувати об’єкти можна і за деякою ознакою, для якої не існує об’єктивної абсолютної шкали вимірювання. Ми можемо ранжувати зразки гірських поряд за твердістю, керуючись простим критерієм: А твердіший за В, якщо А залишає подряпини на В, коли вони дотикаються. Якщо А залишає подряпини на В, а В ­ на С, то А ­ твердіше за С. Таким чином, застосувавши такі порівняння, ми можемо з достатньою точністю впорядкувати об’єкти, що розглядаються (якщо тільки такий набір не містить двох об’єктів із однаковою твердістю). Однак, такий спосіб не дозволяє виміряти абсолютну величину. Ми можемо встановити, що А­ твердіше за В, однак не можемо сказати наскільки.

3.  Впорядкування може проводитися у відповідності із вимірюваною (або із такою, що теоретично визначається) величиною деякої ознаки. Наприклад, ми можемо розташувати людей у тій чи іншій послідовності залежно від їхнього зросту. При цьому не завжди потрібно застосовувати сам процес вимірювання: можна „на око” побудувати групу людей за зростом, однак у такому випадку критерій, за яким ми ранжуємо, повинен дозволяти можливість безпосередніх співставлень.

4. Можна впорядковувати об’єкти за деякою ознакою, величину якої на нашу думку, в принципі, можна виміряти, але на практиці (або навіть теоретично) не існує можливості застосувати таке вимірювання. Наприклад, ми можемо впорядкувати ряд осіб за їхніми розумовими здібностями, керуючись тим, що така ознака дійсно існує і що можна здійснити таке порівняння у відповідності з її інтенсивністю.

Кількісну характеристику, котра може змінювати своє значення при переході від одного до іншого із елементів сукупності, називають випадковою величиною. Так, значення тієї чи іншої ознаки, котру можна виміряти, є у межах шкали вимірювання випадковою величиною. Такий набір ми можемо впорядкувати, керуючись місцем, котре займає на шкалі вимірювань кожний об’єкт, після чого можемо сказати, що значення випадкової величини представлені відповідними рангами. Відповідно, можна розглядати процес впорядкування як не зовсім точний спосіб вираження порядкових відношень між елементами. Не зовсім точний тому, що він не дозволяє говорити про те, наскільки близько елементи розташовані на шкалі вимірювання. Уявимо, що ми розтягнули відрізок, що характеризує шкалу вимірювання. Більше того, нехай ми розтягнемо окремі проміжки відрізка, що розглядається, з різною інтенсивністю. У будь-якому випадку порядок розташування елементів не зміниться (мовою математики таке розташування інваріантне) відносно масштабу шкали.

Коефіцієнт рангової кореляції.

Нехай групу учнів ранжували у відповідності із їхніми здібностями, виявленими на уроках музики та математики. Позначимо дітей буквами від А до J і випишемо наступні дві послідовності рангів:

Учні

A

B

C

D

E

F

G

H

I

J

Математика

7

4

3

10

6

2

9

8

1

5

Музика

5

7

3

10

1

9

6

2

8

4

Розглянемо питання, чи існує залежність між математичними та музичним здібностями. Зрозуміло, що чіткої залежності не існує. Однак деякі учні посідають майже однакові місця в обох рядах. Наявність (відсутність) зв’язку між цими показниками стане більш очевидною, якщо ми розташуємо елементи першого ряду в порядку збільшення (у послідовності натуральних чисел):

Учні

I

F

C

B

J

E

A

H

G

D

Математика

1

2

3

4

5

6

7

8

9

10

Музика

8

9

3

7

4

1

5

2

6

10

Необхідно визначити ступінь зв’язку між цими двома послідовностями або, іншими словами, визначити тісноту рангової кореляції. Методика побудови відповідного коефіцієнта кореляції наступна.Коефіцієнт кореляції повинен володіти наступними властивостями. (методика побудови відповідного коеф. кореляції)

1. Якщо між послідовностями порядкових оцінок існує повна відповідність, тобто кожний елемент займає одне і те ж місце в обох рядах, то має бути рівним +1, що означає повну рангову кореляцію.

2. Якщо існує повна негативна залежність, тобто якщо в одній послідовності оцінки розташовані у зворотній послідовності у порівнянні з іншою, то =-1, що означає повну негативну кореляцію;

3. В інших випадках лежить між граничними значеннями; можна стверджувати, що збільшеннявід -1 до +1 у певному розумінні характеризує відповідність між двома послідовностями порядкових оцінок.

У першій послідовності виділимо деяку пару рангів, наприклад А і В. Їхні значення 7 і 4 утворюють зворотній порядок величин (прямим порядком називатимемо порядок натурального ряду 1,…,10); парам, що утворюють прямий порядок, будемо присвоювати значення +1, а тим, що утворюють зворотній порядок, – присвоюватимемо значення -1. У другій послідовності ранги А та В утворюють прямий порядок (5,7). Відповідно, цій парі присвоюється значення 1.

Перемноживши значення, що присвоюються цим парам у першій та другій послідовностях, отримаємо добуток, рівний -1. Зрозуміло, що для довільної пари значень цей добуток буде рівний +1 у тому випадку, коли відповідні значення утворюють в обох послідовностях однаковий порядок рангів, і -1, якщо порядки рангів ­ різні.

Можна сказати, що ми приписуємо значення +1 та -1 залежно від того, чи узгоджуються між собою порядки пари в обох послідовностях.

Сума значень, рівних +1 (назвемо її Р), , а сума значень, рівних -1 (назвемо її Q), Додавши ці два числа, отримаємо загальну суму приписаних значень S3.Якщо б усі пари мали однаковий порядок, то кожне із приписуваних значень було б позитивним; відповідно максимальне значення S було б рівне . Міркуючи аналогічно, приходимо до висновку, що мінімальне значення S повинно складати -45. Таким чином, значення рівне:

.

Ця величина близька до нулю; звідси випливає, що кореляція між двома послідовностями рангів дуже мала. Нульове значення може інтерпретуватися як свідчення незалежності рядів.

Розглянемо загальний випадок, коли є дві послідовності рангів, кожна із яких містить членів; кількість пар, що підлягають порівнянню, дорівнює кількості способів, за допомогою яких можна вибрати два предмети з набору, що міститьпредметів; ця величина рівна; іноді її позначають. Вказане число характеризує найбільшу можливу суму приписаних значень; така її величина може бути досягнута тільки тоді, коли порядок рангів в обох послідовностях співпадатиме. Позначивши загальну кількість приписаних значень буквою, введемо наступне визначення коефіцієнта кореляції:. (1)

Нехай тапозначають відповідно суми приписуваних позитивних та негативних значень (так, що); тоді можна записати еквівалентні формули для обчислення. (2)

Для того, щоб знайти (що рівносильне знаходженнюта), не потрібно відтворювати описану вище послідовність дій. Існують і простіші способи. Найбільш простий із них, очевидно, наступний.

Розглянемо формулу (2). У тих випадках, коли одна послідовність рангів є натуральним рядом 1, 2,..., , то оцінки, що приписуються кожній парі значень цього ряду, позитивні. Відповідно, значення +1, що входять доданками до суми, будуть приписуватися тільки тим парам другого ряду, котів утворюють прямий порядок. Потрібно тільки перерахувати їх

Узагальнений коефіцієнт кореляції

Нехай дана сукупність, що містить об’єктів; при цьому розглядаються дві властивості об’єктів:та. Пронумеруємо об’єкти від 1 до. Тоді ознакабуде набувати значень, ... ,, а ознака– значення, ... ,. Ці значення можуть бути абсолютними величинами або ранговими оцінками.

Кожній парі елементів, наприклад та, приписуватимемо- оцінку (назвемо її), котра володіє наступною властивістю:. Аналогічно введемо- оцінку, використовуючи для цього символ, причому. Знакозначатиме сумування за всіма значеннямитавід 1 до. У такому випадку узагальнений коефіцієнт кореляції можна визначити наступним чином:. (3)Вважатимемо, щонабуває нульових значень у тих випадках, коли.

Коефіцієнт парної кореляції як частинний випадок узагальненого коефіцієнта кореляції

Нехай оцінки базуються на значеннях, котрих дійсно набували змінні величини, що розглядаються. Запишемо:

. (4)

У такому випадкуЗгідно з (3):

(5)

Тоді:, (6)

. (7)

Права частина виразу (6) – це коваріація та, помножена на, а права частина виразу (7) – помножена надисперсія.

Підставляючи ці значення у (2.1), отримаємо:

. (8)

У цьому випадку – це звичайний коефіцієнт кореляції міжта.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]