- •1. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ
- •1.1. Законы распределения дискретных случайных величин
- •1.2. Числовые характеристики дискретных случайных величин, их свойства
- •1.3. Законы распределения непрерывных случайных величин
- •1.4. Числовые характеристики непрерывных случайных величин
- •1.5. Выборочные аналоги интегральной и дифференциальной функций распределения
- •1.6. Лабораторная работа № 1. Методы описательной статистики в пакете STATGRAPHICS
- •1.7. Нормальное распределение и его числовые характеристики
- •2. РАСПРЕДЕЛЕНИЯ, СВЯЗАННЫЕ С НОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ
- •2.1. -распределение
- •2.5. Гамма–распределение
- •2.7. Лабораторная работа № 2. Семейства вероятностных распределений в математических пакетах STATGRAPHICS и MAHTCAD
- •3. МЕТОД СТАТИСТИЧЕСКИХ ИСПЫТАНИЙ (МЕТОД МОНТЕ-КАРЛО)
- •3.1. Общие принципы метода статистических испытаний
- •3.2. Датчики базовой случайной величины (БСВ)
- •3.3. Моделирование на ЭВМ стандартной равномерно распределенной случайной величины (базовой случайной величины)
- •3.5. Моделирование непрерывных случайных величин
- •3.6. Лабораторная работа № 3. Моделирование некоторых распределений с помощью базовых случайных величин в пакете MATHCAD
- •4. ТОЧЕЧНЫЕ И ИНТЕРВАЛЬНЫЕ ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ И ИХ СВОЙСТВА
- •4.1. Статистические характеристики вариационных рядов и показатели их качества
- •4.3. Точечные оценки вероятности по частоте, математического ожидания и дисперсии
- •4.5. Методы получения точечных оценок
- •4.6. Сущность интервального оценивания
- •4.7. Приближенные и точные доверительные интервалы для параметров распределений
- •4.8. Лабораторная работа № 4. Оценивание параметров вероятностных распределений в пакетах STATGRAPHICS и MATHCAD
- •5. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ. КРИТЕРИИ СОГЛАСИЯ
- •5.1. Понятие статистической гипотезы. Основные этапы проверки гипотез
- •5.2. Критерий Неймана – Пирсона
- •5.3. Проверка гипотез о числовых значениях параметров нормального распределения
- •5.4. Проверка гипотез о параметрах двух нормальных распределений
- •5.5. Лабораторная работа № 5. Проверка статистических гипотез о числовых значениях нормальных распределений в математических пакетах STATGRAPHICS и MATHCAD
- •5.6. Критерии согласия
- •Решение
- •5.7. Лабораторная работа № 6. Критерии согласия в статистическом пакете STATGRAPHICS
- •5.8. Лабораторная работа №7. Критерии согласия в математическом пакете MATHCAD
- •6. ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
- •6.1. Постановка задачи
- •6.2. Дисперсионный анализ
- •Решение
- •6.3. Ранговый однофакторный анализ
- •6.4. Критерий Краскела - Уоллиса (Н-критерий)
- •Решение
- •6.5. Лабораторная работа № 8. Однофакторный ранговый и дисперсионный анализ в статистическом пакете STATGRAPHICS
- •7. РЕГРЕССИОННЫЙ АНАЛИЗ
- •7.1. Модели регрессии
- •7.4. Проверка адекватности линейной регрессии
- •7.5. Выбор наилучшей регрессии
- •8. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ
- •8.2. Критерий знаков
- •8.3. Критерий знаков для одномерной выборки
- •8.4. Ранговый критерий (одновыборочный критерий Вилкоксона)
- •8.5. Двухвыборочный ранговый критерий Вилкоксона
8.НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ
8.1.Основные понятия и область применимости непараметрических
методов
При рассмотрении статистических гипотез стандартными средствами приходится предполагать вид распределения статистик критерия. Для более тонких и глубоких выводов вводится предположение, что наблюденные случайные величины имеют нормальное распределение. На этой основе за многие годы выросла обширная и развитая система статистической обработки регрессионных и факторных экспериментов, в частности дисперсионный анализ. Она позволяла решать основные статистические задачи: получать оценки неизвестных параметров (как точечные, так и интервальные), проверять статистические гипотезы, проводить сравнения и тому подобное. На практике все эти методы приходиться применять и в тех случаях, когда наблюдения, возможно, распределены иначе, что превращает точные методы в приближенные. Иногда при этом нарушения, кажущиеся незначительными и поэтому трудно обнаружимые, могут существенно исказить конечные результаты: привести к смещению оценок и доверительных границ.
Один из способов ослабить эти неприятные явления – разработать и применять такие статистические правила, результаты которых были бы устойчивы или малочувствительны к тем или иным отступлениям от предпосылок модели. К сожалению, такие устойчивые (робастные) правила приводят к тому, что если модель полностью справедлива, они имеют меньшую точность, чем традиционные оптимальные процедуры и правила. Такой подход и методы, им реализованные, называются непараметрическими. Точнее эти методы, не предназначенные специально для какогонибудь параметрического семейства распределений (например, гауссовского) и не использующие его свойства. Благодаря этому, непараметрические методы имеют более широкую область применения, но более низкую точность.
Непараметрические методы используют не сами численные значения элементов выборки, а структурные свойства выборки: отношения порядка между ее элементами. В связи с этим, конечно, теряется часть информации, содержащаяся в выборке, поэтому мощность непараметрических критериев меньше, чем мощность их параметрических аналогов. Однако непараметрические методы могут применяться при более общих предположениях и более просты с точки зрения выполнения вычислений.
Большая группа непараметрических критериев используется для проверки гипотезы о принадлежности двух выборок x1, x2 ,..., xn1 и
222
n2 к одной и той же генеральной совокупности, т.е. о том, что функции распределения двух генеральных совокупностей FX (x) и FY (y) равны: H0 : FX (x) ≡ FY (y)x=y . Такие генеральные совокупности называ-
ются однородными. Необходимое условие однородности состоит в равенстве характеристик положения и (или) рассеивания таких, как средние, медианы, дисперсии и тому подобное. Непараметрические критерии в качестве основного предположения используют только непрерывность распределения генеральной совокупности.
Все выводы статистических методов непараметрического типа основаны на исследовании знаков и рангов. Особенно значимые результаты получены за последние десятилетия. Рассмотрим несколько примеров.
8.2. Критерий знаков
Простейший критерий такого рода, критерий знаков, применяется для проверки гипотезы H0 об однородности генеральных совокупностей по-
парно связанным выборкам. Статистикой критерия знаков является число знаков «+» или «-» в последовательности знаков разностей парных выбо-
рок (xi , yi ), i =1, n . Если сравниваемые выборки получены из однородных генеральных совокупностей, то значения xi и yi взаимозаменяемы и,
следовательно, вероятности появления положительных и отрицательных |
|||||||
разностей xi |
− yi равны, т.е. |
можно предположить, что p(x, y) = p(y, x). |
|||||
Если же совокупность x в сред- |
|
||||||
нем |
больше |
или |
меньше, |
то |
|
||
p(x, y) ≠ p(y, x). |
|
|
|
W |
|||
|
Пусть, к примеру, каждый y |
Ω1 |
|||||
будет на θ больше, чем соответ- |
X=W |
||||||
ствующий x . Тогда |
p(x, y − θ) = |
X<W |
|||||
= p(y − θ, x), |
т.е. θ |
является ме- |
X>W |
||||
дианой разности |
y − x . Покажем |
Ω2 |
|||||
это. |
Подставим |
w = y − θ , |
полу- |
||||
чим |
p(x, w) = p(w, x), т.е. |
совме- |
X |
||||
|
|||||||
стная плотность |
симметрична |
|
|||||
относительно |
прямой w = y − θ |
Рис. 8.1. Области интегрирования |
|||||
(рис. 8.1). Тогда |
|
∫ p(x, w)dΩ = |
вероятностей |
||||
|
|
||||||
|
|
|
Ω1 |
|
|
|
|
|
|
|
|
|
|
|
223 |
p(x < w) = ∫ p(x, w)dΩ = p(w < x). Из свойств симметричности |
следует, |
|||||||
|
|
Ω2 |
|
|
|
|
p(x < w) = p(w < x) или, подставляя |
|
что интегралы численно равны, тогда |
||||||||
y − θ |
вместо |
w , |
имеем |
p(x < y − θ) = p(y − θ < x). Далее, очевидно, что |
||||
p(y − θ < x) = p(y − x < θ) |
и p(x < y − θ) = p(θ < y − x) = p(y − x > θ). |
|||||||
Так |
как |
левые |
части |
равны, то |
равны и правые, следовательно, |
|||
p(y − x < θ) = p(y − x > θ). |
Наконец, вычисляя вероятности противопо- |
|||||||
ложных событий, |
получим |
p(y − x > θ) = p(θ > y − x), а это и есть опре- |
||||||
деление |
θ |
как |
медианы для |
совокупности случайных |
величин |
zi = yi − xi .
Таким образом, проверка нулевой гипотезы H0 : θ = 0 равносильна
проверке гипотезы, согласно которой медиана случайной величины z равна нулю, и, аналогично, при альтернативной гипотезе H1 : θ > 0 медиа-
на случайной величины z будет больше нуля. Предполагалась непрерывность вероятности p(x, y), поэтому распределение случайной величины z
непрерывно, т.е. вероятность совпадения xi = yi равна нулю. Реально на-
блюдается всегда дискретная последовательность случайных величин, и могут быть случайные совпадения. Как поступать в этом случае – вопрос наименее теоретически обоснованный. Простейший выход - отбрасывать совпадающие наблюдения, сокращая при этом выборку.
Обозначим zi = yi − xi и примем модель
zi = θ + εi , i = |
1, n |
, |
(8.2.1) |
где εi - ненаблюдаемая случайная величина, θ - интересующий нас неизвестный параметр. При этом предполагается, что все εi - взаимно независимы и извлечены из непрерывной совокупности, имеющей медиану, рав-
ную нулю, т.е. P(εi |
< 0) = P(εi > 0) = 1 2 , i =1, n . |
||||||
Проверим гипотезу |
H0 : θ = 0 , определив для этого переменную - |
||||||
1, |
z |
i |
> 0, |
Положим |
|
n |
|
счетчик ψi = |
|
|
B = ∑ψi . Статистика B есть число |
||||
0, |
zi < 0. |
|
|
i=1 |
|||
положительных величин среди zi , |
i = |
|
. Случайные величины ψi неза- |
||||
1, n |
висимы и, в силу симметричности распределения относительно медианы, с ними можно связать схему последовательных независимых испытаний, в которой вероятность успеха P(ψi = 1) = 0.5 для каждого испытания. Сле-
224
довательно, при нулевой гипотезе H0 их сумма B распределена по биномиальному закону с параметрами B(n, p) = B(n,12).
Пусть b - верхняя α-процентная точка биномиального распределения при объеме выборки n и вероятности p в схеме Бернулли. Введем обо-
значение b = b(α, n, p). Оно указывает на зависимость b от вероятности ошибки первого рода α. b(α, n, p) есть корень уравнения
n |
|
|
P(B > b n, p) = ∑Cni pi (1 − p)n |
−i = α . |
(8.2.2) |
i =b |
|
|
Тогда процедура проверки гипотезы H0 |
при уровне значимости α |
выглядит следующим образом.
1. Односторонний критерий для H0 против альтернативы H1 : θ > 0 : отклонить H0 , если B ≥ b(α, n,12),
принять H0 , если B < b(α, n,12).
Рис. 8.2 показывает критическую область правостороннего критерия для биномиального распределения.
Рис. 8.2. Критическая область и область принятия решения для биномиального распределения
2. |
Односторонний критерий для H0 против альтернативы H1 : θ < 0 : |
||
отклонить H0 |
, если B ≤ [n − b(α, n,1 2)], |
||
принять H0 , если B > [n − b(α, n,1 2)]. |
|||
3. |
Двусторонний критерий для H0 против альтернативы H1 : θ ≠ 0 : |
||
отклонить H0 |
B ≤ [n − b(α1, n,1 2)], или |
||
, если |
B ≥ b(α2 , n,1 2), |
||
|
|
|
|
|
|
|
225 |
принять |
H0 , если |
n − b(α1, n,1 2) < B < b(α2 , n,1 2), |
|
|
α = α1 + α2 , |
||
|
|
|
т.е. левый и правый хвосты распределения могут учитываться несимметрично.
Рассмотрим теперь приближения для большой выборки. Интегральная функция распределения для биномиального закона имеет вид
m |
|
F(m, n, p) = ∑Cni pi (1 − p)n−i , 0 < p < 1, m = 0,1,..., n . |
(8.2.3) |
i=0
Именно по этой формуле вычислена функция распределения P(x) на
рис. 8.2.
В большинстве статистических приложений желательно иметь достаточно точную аппроксимацию для тех значений функции F(m, n, p), ко-
торые принадлежат отрезкам [0.005, 0.05] и [0.93, 0.995]. В этом случае условимся говорить, что аппроксимация осуществляется на хвостах рас-
пределения. Если же истинные |
значения аппроксимируемой функции |
F(m, n, p) принадлежат отрезку |
[0.05, 0.93], то будем использовать тер- |
мин аппроксимация между хвостами распределения. При небольших значениях m и n значения функции (8.2.3) легко подсчитать непосредственным образом, но при больших m и n необходимо использовать нормальную аппроксимацию.
Для быстрых прикидочных расчетов рекомендуется следующая про-
стая аппроксимация: |
|
|
|
|
Φ(2 (m +1)(1 − p) − 2 (n − m)p ) на хвостах, |
|
|
|
|
|
(8.2.4) |
F (m, n, p) ≈ |
(4m + 3)(1 − p) − |
(4n − 4m −1)p ) между хвостами. |
|
Φ( |
|
||
|
|
|
|
Здесь Φ - функция Лапласа. Более точная аппроксимация: |
|
||
|
Φ( (4m + 3)(1 − p) − (4n − 4m −1)p ) нахвостах, |
|
|
|
|
|
(8.2.5) |
F(m, n, p) ≈ |
(4m + 2.5)(1 − p) − |
(4n − 4m −1.5)p ) между хвостами. |
|
Φ( |
|
||
|
|
|
|
Наконец, для очень большой выборки применима интегральная тео-
рема Муавра – Лапласа. Статистика B = B − M (B) =
D(B)
= B − n 2 N (0,1) при n → ∞ . n 4
Приближение нормальной теории для одностороннего критерия для H0 против альтернативы H1 : θ > 0 таково:
отклонить H0 , если B ≥ z(α) ; 226