Однофакторный anova
Однофакторный (One-Way) ANOVA позволяет проверить гипотезу о том, что изучаемый фактор оказывает влияние на зависимую переменную (средние значения, соответствующие разным градациям фактора, различаются).
Математическая модель однофакторного ANOVA предполагает выделение в общей изменчивости зависимой переменной двух ее составляющих. Межгруп-повая (факторная) составляющая изменчивости обусловлена различием средних значений под влиянием фактора. Внутригрупповая (случайная) составляющая изменчивости обусловлена влиянием неучтенных причин. Соотношение первой и второй из указанных составляющих изменчивости и есть основной показатель, определяющий статистическую значимость влияния фактора (различия средних значений групп, соответствующих уровням фактора).
Нулевая статистическая гипотеза содержит утверждение о равенстве средних значений. При ее отклонении принимается альтернативная гипотеза о том, что по крайней мере два средних значения различаются.
Исходные предположения: распределение зависимой переменной в сравниваемых генеральных совокупностях характеризуется нормальным законом и одинаковыми дисперсиями. Выборки являются случайными и независимыми. Проверка исходных предположений сводится к проверке однородности дисперсии в сравниваемых выборках в случае, если они заметно различаются по численности.
Структура исходных данных, изучаемый признак измерен у объектов (испытуемых), каждый из которых принадлежит к одной из нескольких сравниваемых выборок.
Пример_
Исследовалось влияние на продуктивность воспроизведения (Y) вербального материала интервала между 5 повторениями {Хх — 3 градации: 1 — 0 мин, 2 — 3 мин, 3 — 10 мин).
Структура данных:
Ограничения: если дисперсии выборок различаются статистически достоверно, то метод неприменим. Для проверки однородности дисперсии применяется критерий Ливена (Levene’s Test of Homogeneity of Variances). Формально численность выборок не должна быть менее 2 объектов (фактически необходимо иметь не менее 5 объектов в каждой выборке).
Альтернатива методу, сравнение независимых выборок по критерию Н- Краскала-Уоллеса.
Основной результат', принятие или отклонение нулевой статистической гипотезы о равенстве средних значений, соответствующих разным уровням фактора. Основной показатель для принятия решения — р-уровень значимости критерия F-Фишера.
Дополнительно возможны множественные сравнения средних значений, позволяющие сделать вывод о том, как различаются друг от друга средние значения для разных градаций фактора.
Рассмотрим общие принципы и последовательность вычислений для однофакторного ANOVA в случае равной численности сравниваемых выборок.
Исходная идея ANOVA заключается в возможности разложения показателя изменчивости признака на две составляющие: изменчивость внутри групп и изменчивость между группами. В качестве показателя изменчивости используется сумма квадратов отклонения значений признака от среднего, которая обозначается SS (Sum of Squares).
Общая (Total) сумма квадратов (SStotai) является показателем общей изменчивости зависимой переменной и представляет собой числитель дисперсии:
Соответственно, общая сумма квадратов равна сумме межгрупповой и внутригрупповой сумм квадратов:
Межгрупповая (Between-Group) сумма квадратов (SSbg) — показатель изменчивости между к группами (каждая численностью п объектов):
где Mj — среднее значение для группы j.
Отношение межгрупповой и общей суммы квадратов показывает долю общей дисперсии зависимой переменной, обусловленную влиянием фактора. Этот показатель идентичен по смыслу квадрату коэффициента корреляции в регрессионном анализе, поэтому тоже называется коэффициентом детерминации (Rг):
Коэффициент детерминации может принимать значения от 0 до 1. Чем больше этот показатель, тем больше влияние изучаемого фактора на дисперсию зависимой переменной. Помноженный на 100, он выражает процент учтенной дисперсии.
Внутригрупповая (Within-Group) сумма квадратов (SSwg) — показатель случайной изменчивости (внутри групп):
На величину сумм квадратов влияет численность и количество сравниваемых групп. Поэтому для сопоставления межгрупповой и внутригрупповой изменчивости используются средние квадраты (обозначается MS — от английского Mean of Squares). Средний квадрат — это частное отделения суммы квадратов на соответствующее число степеней свободы.
Каждая сумма квадратов характеризуется своим числом степеней свободы (df). Так, общее число степеней свободы соответствует общей сумме квадратов и равно:
Заметим, что частное от деления общей суммы квадратов на общее число степеней свободы — общий средний квадрат — это общая дисперсия.
Число степеней свободы для межгрупповой суммы квадратов равно числу слагаемых минус один (число групп минус 1):
Число степеней свободы для внутригрупповой суммы квадратов:
После определения числа степеней свободы вычисляются средние квадраты.
Следует отметить, что тот и другой средние квадраты представляют собой различные выборочные оценки одной и той же генеральной дисперсии — для случая, когда сравниваемые средние не различаются. Однако это не так в случае, если хотя бы два из всех сравниваемых средних различаются: тогда межгрупповой средний квадрат превысит внутригрупповой средний квадрат. И чем больше величина отношения межгруппового к внутригрупповому среднему квадрату, тем больше оснований считать, что сравниваемые средние значения различаются. Соответственно, основным показателем ANOVA является F-отношение — эмпирическое значение критерия /’-Фишера:
Процедура проверки Н0 подразумевает направленную альтернативу, так как ее отклонению соответствует только большее значение F3 (MSbg > MSwg). Поэтому для определения ^-уровня значимости при вычислениях «вручную» применяются таблицы критических значений /'’-распределения для направленных альтернатив (односторонний критерий). Для одних и тех же df уровень значимости возрастает (р-уровень убывает) при возрастании F3.
Последовательность выполнения ANOVA является общей для | любого числа факторов. Вначале в общей изменчивости зависи- I мой переменной выделяются основные ее составляющие. (В однофакторном ANOVAhx две: внутригрупповая (случайная) и меж- | групповая (факторная) изменчивость.) После этого вычисляются | соответствующие показатели в следующей последовательности: 1
□ суммы квадратов (SS)\ I
□ числа степеней свободы (dj)\ 1
□ средние квадраты (MS);
□ F-отношения;
□ р-уровни значимости.