- •Лекція №6
- •6.2. Інтерполяція.
- •6.3 Кореляційний аналіз даних
- •6.3.1 Матриця даних
- •6.3.2 Кореляційний аналіз
- •6.4 Регрессійний аналіз
- •6.4.1 Постановка задачі
- •6.4.2 Вибір виду рівняння регресії
- •1) Дослідник вносить гіпотезу про структуру скриньки
- •2) Визначення невідомих коефіцієнтів і моделі
- •3) Перевірка
6.4 Регрессійний аналіз
6.4.1 Постановка задачі
Однією з типових задач обробки багатовимірних ЕД є визначення кількісної залежності показників якості об'єкта від значень його параметрів і характеристик зовнішнього середовища. Прикладом такої постановки завдання є встановлення залежності між часом обробки запитів до бази даних і інтенсивністю вхідного потоку. Час обробки залежить від багатьох факторів, у тому числі від розміщення шуканої інформації на зовнішніх носіях, складності запиту. Отже, час обробки конкретного запиту можна вважати випадковою величиною. Але разом з тим, при збільшенні інтенсивності потоку запитів слід очікувати зростання його середнього значення, тобто вважати, що час обробки та інтенсивність потоку запитів пов'язані кореляційною залежністю.
Постановка задачі регресійного аналізу формулюється наступним чином.
Є сукупність результатів спостережень виду (6.1). У цій сукупності один стовпець відповідає показнику, для якого необхідно встановити функціональну залежність з параметрами об'єкта і середовища, представленими іншими стовпцями. Будемо позначати показник через і вважати, що йому відповідає перший стовпець матриці спостережень. Решта стовпців відповідають параметрам (факторам) .
Потрібно: встановити кількісний взаємозв'язок між показником і факторами. У такому випадку завдання регресійного аналізу розуміється як завдання виявлення такої функціональної залежності , яка найкращим чином описує наявні експериментальні дані.
Допущення:
кількість спостережень достатня для прояву статистичних закономірностей щодо факторів і їх взаємозв'язків;
оброблювані ЕД містять деякі помилки (перешкоди), обумовлені похибками вимірювань, впливом неврахованих випадкових чинників;
матриця результатів спостережень є єдиною інформацією про досліджуваний об'єкт, наявною в розпорядженні перед початком дослідження.
Функція , що описує залежність показника від параметрів, називається рівнянням (функцією) регресії. Термін "регресія" (regression (лат.) - відступ, повернення до чогось) пов'язаний зі специфікою однією з конкретних задач, вирішених на стадії становлення методу, і в даний час не відбиває всієї сутності методу, але продовжує застосовуватися.
Рішення задачі регресійного аналізу доцільно розбити на декілька етапів:
попередня обробка ЕД;
вибір виду рівнянь регресії;
обчислення коефіцієнтів рівняння регресії;
перевірка адекватності побудованої функції результатами спостережень.
Попередня обробка включає стандартизацію матриці ЕД, розрахунок коефіцієнтів кореляції, перевірку їх значущості і виключення з розгляду незначущих параметрів (ці перетворення були розглянуті в рамках кореляційного аналізу). В результаті перетворень будуть отримані стандартизована матриця спостережень (черезy будемо позначати стандартизовану величину ) і кореляційна матриця .
Стандартизованій матриці U можна зіставити одну з наступних геометричних інтерпретацій:
в m-вимірному просторі осі відповідають окремим параметрам і показником. Кожен рядок матриці представляє вектор в цьому просторі, а вся матриця - сукупність п векторів в просторі параметрів;
в n-мірному просторі осі відповідають результатам окремих спостережень. Кожен стовпець матриці - вектор в просторі спостережень. Всі вектора в цьому просторі мають однакову довжину, рівну . Тоді кут між двома векторами характеризує взаємозв'язок відповідних величин. І чим менше кут, тим тісніше зв'язок (тим більше коефіцієнт кореляції).
У кореляційної матриці особливу роль відіграють елементи лівого стовпця - вони характеризують наявність або відсутність лінійної залежності між відповідним параметром і показником об'єкта y. Перевірка значущості дозволяє виявити такі параметри, які слід виключити з розгляду при формуванні лінійної функціональної залежності, і тим самим спростити подальшу обробку.