Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Нвчально-методичний посібник.doc
Скачиваний:
434
Добавлен:
11.02.2016
Размер:
4.76 Mб
Скачать

Запитання для самоконтролю

  1. Що досліджує кореляційний аналіз? Яка його основна задача?

  2. Як обчислюється вибірковий коефіцієнт кореляції та що він характеризує?

  3. Що таке статистична та кореляційна залежність?

  4. Що називають умовною середньою?

  5. Які існують методи побудови рівняння залежності? В чому їх сутність?

Тема 11. Поняття дисперсійного аналізу. Однофакторний дисперсійний аналіз

Дисперсійний аналіз – це метод порівняння декількох (більше 2-х) вибірок за властивістю, що виміряна з допомогою метричної шкали. Загальноприйняте скорочення дисперсійного аналізу – (ANOVA). Як і у випадку порівняння двох вибірок за допомогою критерію Стьюдента, ANOVA розв’язує задачу порівняння середніх значень, але не двох, а декількох вибірок. Крім того метод допускає порівняння вибірок більш ніж за однієї основи – коли розподіл на вибірки відбувається по декількох змінних, кожна з яких має дві і більше градації. Наприклад, досліджється вплив на продуктивність відтворення вербального матеріалу (У): а) інтервал між 5-ти повтореннями (Х1–3 градації: 1–0хв., 2 – 3хв., 3 – 10хв.) б) складність матеріалу ( Х2 – 2 градації: 1 – легкий, 2 – складний).

Структура даних

Х1

Х2

У

1

1

2

8

2

3

2

9

3

2

1

4

...

...

...

N

2

2

6

Означення. ANOVA – статистичний метод, за допомогою якого оцінюють вплив різних факторів на результат експерименту, а також для подальшого планування аналогічних експериментів.

ANOVA розробив у 1918 році англійський математик-статист Р.А. Фішер для обробки результатів агрономічних дослідів по вияву умов отримання максимального врожаю різних сортів сільськогосподарських культур.

Типова схема експерименту зводиться до вивчення впливу незалежної змінної (однієї або кількох) на залежну змінну. Незалежна змінна являє собою якісно визначену (номінативну) властивість, що має 2 або більше градацій. Кожній градації незалежної змінної відповідає вибірка об’єктів (досліджуваних), для яких визначені значення залежної змінної. Незалежну змінну називають фактором, що має декілька градацій (рівнів). Залежна змінна в експериментальному дослідженні розглядається як така, що змінюється під впливом факторів.

В залежності від співвідношення вибірок, що відповідають різним рівням фактора, розрізняють два види факторів: міжгруповий – при незалежних вибірках; внутрішньогруповий – при залежних вибірках. По числу факторів, вплив яких досліджується, розрізняють однофакторний і багатофакторний дисперсійний аналіз.

Означення. Однофакторний ANOVA – статистичний метод, що використовується при вивченні впливу одного фактору на залежну змінну.

Означення. Багатофакторний ANOVA – статистичний метод, що використовується при вивченні впливу двох і більше фактору на залежну змінну.

Багатофакторний ANOVA дозволяє перевіряти гіпотезу не тільки про вплив кожного фактора окремо, а й про взаємозв’язок факторів.

Приклад. Припустимо вивчається вплив на глядацьку оцінку різних фільмів (залежна змінна) двох факторів: жанру фільму та статі глядача. Цілком ймовірно, що в результаті такого дослідження будуть виявлені не головні ефекти досліджуваних факторів (вплив кожного з них окремо), а їх взаємодію, тобто що чоловіки і жінки по-різному оцінюють фільми в залежності від їх жанру.

Надалі будемо розглядати однофакторний ANOVA.

Однофакторний ANOVA дозволяє перевірити гіпотезу про те, що досліджуваний фактор чинить вплив на залежну змінну (середні значення, що відповідають різним рівням фактора, різні).

Математична модель однофакторного ANOVA передбачає виділення в загальній мінливості залежної змінної двох її складових: міжгрупова (факторна) складова мінливості обумовлена різницею середніх значень під впливом фактору; внутрішньогрупова (випадкова) складова мінливості обумовлена впливом неврахованих причин. співвідношення першої і другої складової і є основним показником, що визначає статистичну значимість впливу фактора.

Нульова статистична гіпотеза містить твердження про рівність середніх значень. При її відхиленні приймається альтернативна гіпотеза про те, що принаймні два середні значення відрізняються.

Вихідні припущення розподіл залежної змінної в порівнюваних генеральних сукупностях характеризується нормальним законом і однаковими дисперсіями. вибірки є випадковими і незалежними. Перевірка вихідних припущень зводиться до перевірки однорідності дисперсій в порівнюваних вибірках у випадку, якщо вони помітно різняться об’ємами.

Структура вихідних даних досліджувана властивість виміряна на об’єктів, кожен з яких належить до однієї з декількох порівнювальних вибірок.

Обмеження: якщо дисперсії вибірок відрізняються статистично достовірно, то метод не застосовують. Фактично необхідно мати не менше 5 об’єктів в кожній вибірці.

Основний результат: прийняття чи відхилення статистичної гіпотези про рівність середніх значень, що відповідають різним рівням фактора. Основний показник для прийняття рішення – р-рівень значимості критерію F-Фішера.

Розглянемо загальні принципи і послідовність обчислення для однофакторного дисперсійного аналізу у випадку рівних об’ємів порівняльних вибірок.

Вихідна ідея заключається у спроможності розкладання показника мінливості в середині груп і мінливість між групами. В якості показника мінливості використовується сума квадратів відхилення значень ознаки від середнього, що позначається SS.

Загальна сума квадратів SSзаг є показником загальної мінливості залежної змінної і являє собою чисельник дисперсії

SSзаг=

Відповідно, загальна сума квадратів рівна сумі міжгрупової і внутрішньогрупової суми квадратів: SSзаг= SSвг+ SSмг

Міжгрупова SSмг – показник мінливості між k групами (кожна чисельністю п об’єктів): SSмг=, де– середні значення для групj.

Відношення міжгрупової і загальногрупової суми квадратів показує долю загальної дисперсії залежної змінної, що обумовлена впливом фактора

–коефіцієнт детермінації, 01

Чим більший , тим більший вплив досліджуваного фактора на дисперсію залежної змінної.

Внутрішньогрупова сума квадратів SSвг – показник випадкової мінливості

SSвг= SSзаг- SSмг=

На величину сум квадратів впливає об’єм і кількість порівняльних груп. Тому для співвідношення міжгрупової і внутрішньогрупової мінливості використовуються середні квадрати MS.

Означення. Середній квадрат – це частка від ділення суми квадратів на відповідне число ступенів вільності.

Кожна сума квадратів характеризується своїм числом ступенів вільності df. Так, загальне число ступенів вільності відповідає загальній сумі квадратів і рівне: dfзаг=N-1.

Відповідно: dfмг=k-1; dfвг=N-k.

Після визначення числа ступенів вільності обчислюють середні квадрати – міжгруповий середній квадрат;

–внутрішньогруповий середній квадрат.

Основним показником ANOVA є F-відношення – емпіричне значення критерію F-Фішера:

Процедура перевірки Н0 має наувазі направлену альтернативу, так як її відхиленню відповідає тільки більше значення . тому для визначення р-рівня значимості при обчисленнях застосовують таблиці критичних значеньF-розподілу для направлених альтернатив (односторонній критерій). Для одних і тих же df рівень значимості зростає (р-рівень спадає) при зростанні .

Приклад. Досліджується різниця в продуктивності відтворення одного і того ж матеріалу трьох груп досліджуваних (по 5 чоловік), що відрізняються умовами представлення цього матеріалу для запам’ятовування. Залежна змінна (У) – кількість відтворених одиниць матеріалу, незалежна змінна (фактор) – умови представлення (три градації). Перевіримо на рівні =0,01 гіпотезу про те, що продуктивність відтворення матеріалу залежить від умов його представлення.

Умова 1

Умова 2

Умова 3

У

У

У

1

5

1

8

1

11

2

4

2

7

2

9

3

3

3

6

3

7

4

6

4

9

4

10

5

7

5

5

5

8

Розв’язання

Загальна середня М=7

Середня для різних умов: М1=5, М2=7, М2=9

  1. SSзаг==;

SSмг==;

SSвг= SSзаг- SSмг=70-40=30

  1. ; ;

  2. =;

=;

  1. =.

  2. Визначимо р-рівень значимості. За табл. критичних точок F-розподілу для р=0,01 та , Fкрит.=6,927. Відповідно, р0,01.

Обчислимо коефіцієнт детермінації: =.

  1. Відхиляємо гіпотезу Н0 і приймаємо альтернативну гіпотезу про те, що міжгрупова мінливість більша внутрішньогрупової (Fкрит.).

Змістовний висновок: виявлено статистично достовірний вплив умов представлення матеріалу на продуктивність його відтворення (р0,01). Або: середні значення продуктивності відтворення матеріалу статистично достовірно відрізняються в залежності від умов його представлення