Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
омои.doc
Скачиваний:
1
Добавлен:
29.07.2019
Размер:
181.25 Кб
Скачать

Критерий Краскела-Уоллиса

Критерий Краскела-Уоллиса предназначен для проверки равенства средних нескольких выборок. Данный критерий является многовыборочным обобщением критерия Уилкоксона-Манна-Уитни. Критерий Краскела-Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. Известен так же под названиями: критерий Крускала-Уоллиса, H-критерий Краскела-Уоллиса, Kruskal-Wallis one-way analysis of variance, Kruskal-Wallis test.

Пример 1. Проходит чемпионат мира по футболу. Первая выборка — опрос болельщиков с вопросом "Каковы шансы на победу сборной России?" до начала чемпионата. Вторая выборка — после первой игры, третья — после второго матча и т.д. Значения в выборках — шансы России на победу по десятибальной шкале (1 — никаких перспектив, 10 — отвезти в Россию кубок — дело времени). Требуется проверить, зависят ли результаты опросов от хода чемпионата.

Пример 2. Выборка состоит из пациентов, у которых был диагностирован неизлечимый рак какого-либо органа. Всем им в качестве поддерживающей терапии был назначен к приёму витамин C (считалось, что он может способствовать выздоровлению раковых больных). Приведены данные об остаточной продолжительности жизни пациентов в днях. То есть выборка состоит из пар вида (пораженный орган, число дней), разделяясь на несколько числовых подвыборок, каждая из которых соответствует своему пораженному органу.

Требуется проверить, отличается ли остаточная продолжительность жизни в зависимости от того, какой орган поражён раковой опухолью.

Описание критерия

Заданы k выборок:  . Объединённая выборка:  .

Дополнительные предположения:

все k выборок простые, объединённая выборка независима;

выборки взяты из неизвестных непрерывных распределений  .

Проверяется нулевая гипотеза   при альтернативе  .

Упорядочим все   элементов выборок по возрастанию и обозначим   ранг j-го элемента i-й выборки в полученномвариационном ряду.

Статистика критерия Краскела-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения сравниваемых выборок имеет вид 

 

где  .

При наличии связанных рангов (т.е. когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику   где   — размер j-й группы одинаковых элементов; q — количество групп одинаковых элементов.

Гипотеза сдвига отклоняется на уровне значимости  , если  , где   — критическое значение, при   и  вычисляемое по таблицам. При больших значениях применимы различные аппроксимации.

При   справедлива аппроксимация распределения статистики    -распределением с k-1 степенями свободы, т.е. нулевая гипотеза отклоняется, если  .

Аппроксимация Краскела-Уоллиса

Пусть 

Тогда статистика 

будет иметь при отсутствии сдвига распределение Фишера с   и   степенями свободы. Таким образом, нулевая гипотеза отклоняется с достоверностью  , если  .

Аппроксимация Имана-Давенпорта

В соответстви с ней нулевая гипотеза сдвига отклоняется с достоверностью  , если  , где 

 

 — критическое значение статистики хи-квадрат.

Это более точная аппроксимация, чем аппроксимация Краскела-Уоллиса.

Критерий χ2 («хи-квадрат») К. Пирсона

Как бы точно не вычислялись теоретические частоты они, как правило, не совпадают с эмпирическими частотами ряда. Отсюда возникает необходимость сопоставления эмпирических частот с вычисленными, или ожидаемыми, частотами, с тем, чтобы установит достоверность или случайность наблюдаемого между ними расхождения. Нулевая гипотеза сводится к предположению, что несоответствие эмпирических частот частотам, вычисленным по тому или иному закону распределения, - совершенно случайное, т. е. между вычисленными и эмпирическими частотами никакой разницы нет. Для проверки нулевой гипотезы используются особые критерии. Одним из наиболее часто применяемых служит критерий χ2, предложенный к. Пирсоном в 1900 г. Этот критерий представляет сумму квадратов отклонений эмпирических частот (p) от частот теоретических или ожидаемых (p'), отнесенную к теоретическим частотам (p')

Символ χ2 - не квадрат какого-то числа, он выражает лишь исходную величину, определяемую данной формулой.

Так как отклонения эмпирических частот от ожидаемых или вычесленных возводятся в квадрат, величина критерия χ2всегда положительная. Поэтому при определении разности (p – p') = d знаки можно не учитывать, вычисляя из больших чисел меньшие.

При полном совпадении эмпирических частот с частотами, вычисленными или ожидаемыми S (p – p') = 0 и критерий χ2тоже будет равен нулю. Если же S ( p – p') не равно нулю это укажет на несоответствие вычисленных частот эмпирическим частотам ряда. в таких случаях необходимо оценить значимость критерия χ2 который теоретически может изменяться от нуля до бесконечности. Это производится путем сравнения фактически полученной величины χ2ф с его критическим значением (χ2st).Нулевая гипотеза, т. е. предположение, что расхождение между эмпирическими и теоретическими или ожидаемыми частотами носит случайный характер, опровергается, если χ2ф больше или равно χ2st для принятого уровня значимости (a) и числа степеней свободы (k).

Распределение вероятных значений случайной величины χ2 непрерывно и ассиметрично. Оно зависит от числа степеней свободы (k) и приближается к нормальному распределению по мере увеличения числа наблюдений (т). Поэтому применение критерия χ2 к оценке дискретных распределний сопряжено с некоторыми погрешностями, которые сказываются на его величине, особенно на малочисленных выборках. Для получения более точных оценок выборка, распределяемая в вариационный ряд, должна иметь не мене 50 вариант. Правильное применение критерия χ2 требует также, чтобы частоты вариант в крайних классах не были бы меньше 5; если их меньше 5, то они объединяются с частотами соседних классов, чтобы в сумме составляли величину большую или равную 5. Соответственно объединению частот уменьшается и число классов (N). Число степеней свободы устанавливается по вторичному числу классов с учетом числа ограничений свободы вариации.

Так как точность определения критерия χ2 в значительной степени зависит от от точности расчета теоретических частот (p'), для получения разности между эмпирическими и вычисленными частотами p – p' = d следует использовать неокругленные теоретические частоты (p').

Критерий тенденций S-Джонкира

Нередко в процессе подготовки исследования становится известно, что имеющиеся группы результатов упорядочены по возрастанию влияния фактора. В таких случаях целесообразно использовать критерий тенденций Джонкира. Интерпретация полученных результатов будет зависеть от того, по какому принципу были сформированы исследуемые выборки. Возможны два принципиально различных варианта: если обследованные выборки различаются качественно (профессии, место работы, образование и т.д.), то с помощью рассматриваемого критерия их можно упорядочить по количественному признаку (гибкости, толерантности, креативности); если обследованные выборки различаются или специально сгруппированы по количественному признаку (возрасту, стажу работы, социометрическому статусу), то, упорядочивая их по другому количественному признаку, фактически устанавливается мера связи между двумя количественными признаками. Например, при переходе от одной возрастной группы к другой (по возрастанию) толерантность увеличивается, а гибкость, наоборот, снижается. Все выборки располагаются в порядке возрастания исследуемого признака слева направо. Для каждого индивидуального значения подсчитывается количество значений справа, превышающих его по величине. Если тенденция возрастания признака существенна, то большая часть значений справа должна быть выше. Статистика критерия Джонкира отражает степень этого преобладания. Чем выше эмпирическое значение критерия, тем существеннее тенденция возрастания признака. Следовательно, это прямой критерий, и, если Sэмп равняется критическому значению или превышает его, нулевая гипотеза может быть отвергнута. Гипотезы: H0 – тенденция возрастания значений признака при переходе от выборке к выборке является случайной; H1 – тенденция возрастания значений признака при переходе от выборки к выборке не является случайной. Ограничения критерия Джонкира: в каждой из сопоставляемых выборок должно быть одинаковое число наблюдений, в противном случае выборки искусственно уравниваются, утрачивая при этом часть полученных наблюдений, и общая картина может быть искажена; нижний порог - не менее 3 выборок и не менее 2 наблюдений в каждой выборке. Верхний порог в существующих таблицах - не более 6 выборок и не более 10 наблюдений в каждой из них.