- •«Непараметрические критерии однородности статистических данных»
- •Список обозначений
- •Введение
- •1. Непараметрические (свободные от распределения) критерии однородности статистических данных
- •1.1. Непараметрические критерии сдвига
- •1.1.1. Сравнение параметров сдвига двух совокупностей
- •1.1.1.1 Быстрый (грубый) критерий Кенуя
- •1.1.1.2. Быстрый (грубый) ранговый критерий
- •1.1.1.3. Критерий Манна-Уитни-Вилкоксона
- •1.1.1.4. Критерий Фишера-Йэйтса-Терри-Гёфдинга
- •1.1.1.5. Критерий Ван дер Вардена
- •1.1.1.6. Медианный критерий
- •1.1.2.2. Критерий Неменьи
- •1.1.2.3. Критерий Вилкоксона—Вилкокс
- •1.2 Непараметрические критерии масштаба
- •1.2.1 Сравнение параметров масштаба двух совокупностей
- •1.2.1.1. Критерий Ансари—Бредли
- •1.2.1.2. Критерий Муда
- •1.2.1.3. Критерий Сижела-Тьюки
- •1.2.1.4. Критерий Кейпена
- •1.2.1.5. Квартальный критерий
- •2. Реализация непараметрических критериев в статистическом пакете r
- •2.1. Реализация критерия Манна-Уитни-Вилкоксона
- •2.2. Реализация критерия Крускала-Уоллиса
- •2.3. Реализация критерия Ансари-Бредли
- •2.4. Реализация критерия Муда
- •3. Исследования
- •3.1. Исследование распределения статистик рассматриваемых гипотез при "малых" и "больших" выборках
- •3.2. Исследование распределения статистик по критериям согласия Колмогорова и Смирнова
- •3. 3. Исследование асимптотических свойств рассматриваемых критериев
- •3.4. Эмпирическая мощность критериев
- •3.5. Реальные данные
- •Заключение
1.1.1.4. Критерий Фишера-Йэйтса-Терри-Гёфдинга
Критерий основан на статистике - математическое ожидание -ой порядковой статистики в выборке объема из стандартного нормального распределения; - ранг значений в объединенной ранжированной выборке и (или ранг в объединенной выборке, тогда суммирование нужно вести по
Для может быть использована аппроксимация
, где
Гипотеза сдвига отклоняется, если , где - критические значения
статистики Фишера-Йэйтса-Терри-Гёфдинга [1].
1.1.1.5. Критерий Ван дер Вардена
Статистика критерия имеет вид
где – γ - квантиль стандартного нормального распределения.
Для вычисления квантилей может быть применено приближение
.
Гипотеза сдвига отклоняется, если , где - критические значения статистики Ван дер Вардена.
При распределение X удовлетворительно описывается нормальным со средним и дисперсией
Если , гипотеза сдвига отклоняется с достоверностью α.
При эффективность критерия Ван дер Вардена не уступает эффективности критерия Стьюдента [1].
1.1.1.6. Медианный критерий
Статистика критерия строится следующим образом. Находится медиана общего упорядоченного ряда и подсчитывается число наблюдений выборки , превосходящих медиану (если нечетно и медиана принадлежит выборке , то это число увеличивается на 1/2). Тогда статистика критерия может быть записана как
, где
При распределение удовлетворительно описывается нормальным со средним и дисперсией
Если
то с достоверностью гипотеза сдвига отклоняется.
Иногда применяется другая форма медианного критерия. Пусть А и С — количества элементов выборки соответственно бо́льших и меньших медианы объединенной выборки, а В и D — аналогичные числа для выборки . Тогда статистикой критерия сдвига является величина
имеющая, при отсутствии сдвига, распределение хи-квадрат с степенью свободы.
Критерий неприменим, если А, В, С или D < 5 и . Эффективность медианного критерия по сравнению с критерием Стьюдента в случае нормального распределения равна 2/π ≈ 0,64 [1].
1.1.1.7. Критерий Мостеллера
Гипотеза равенства средних двух выборок одинакового объема отклоняется с доверительной вероятностью 0,95, если 5 (при 25) или 6 (при ) наибольших или наименьших значений содержатся в одной и той же выборке. Критерий имеет низкую мощность и может быть рекомендован только для быстрой грубой проверки гипотез сдвига [1].
1.1.1.8. Критерий Розенбаума
Применим для двух выборок равного объема. Если не менее 5 (для и α=0,95) или 7 (для и α = 0,99) значений одной выборки находятся вне размаха второй выборки, то нулевая гипотеза отсутствия сдвига на указанных уровнях достоверности отклоняется.
Критерий рекомендуется использовать для быстрой приближенной проверки гипотезы сдвига [1].
1.1.2 Сравнение параметров сдвига нескольких ( ) совокупностей
1.1.2.1. Критерий Круcкала—Уоллиса
Пусть в нашем распоряжении имеются выборок случайных величин
Упорядочим все элементов выборок по возрастанию и обозначим через ранг -ого элемента -й выборки в общем упорядоченном ряду.
Статистика критерия Крускала-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения нескольких сравниваемых выборок имеет вид [1]
где . (1.17)
Критерий Крускала-Уоллиса является многомерным обобщением двухвыборочного критерия Вилкоксона-Манна-Уитни. Гипотеза сдвига отклоняется на уровне значимости α, если , где - критическое значение критерия Крускала-Уоллиса для . При применимы различные аппроксимации.
Аппроксимация Крускала-Уоллиса.
Пусть [1]
(1.18)
(1.19)
Тогда статистика [1]
(1.20)
будет иметь при отсутствии сдвига -распределение с и степенями свободы. Таким образом, нулевая гипотеза отклоняется с достоверностью α, если [1]
( ). (1.21)
Аппроксимация Имана-Давенпорта.
В соответствии с ней нулевая гипотеза сдвига отклоняется с достоверностью α, если [1]
(1.22)
где
(1.23)
- соответственно критические значения статистик Фишера и хи-квадрат с соответствующими степенями свободы.
Это более точная аппроксимация, чем аппроксимация Крускала-Уоллиса. При наличии связанных рангов (т. е. когда совпадают значения величин из разных выборок и им присваивается одинаковые средние ранги) необходимо использовать модифицированную статистику [1]
, (1.24)
где
(1.25)
– размер группы одинаковых элементов; q – количество одинаковых элементов.
При 20 справедлива аппроксимация распределения статистики -распределением с степенями свободы, т. е. нулевая гипотеза отклоняется, если .