Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Балтийский государственный технический университет "ВОЕНМЕХ" им. Д.Ф. Устинова

Предмет:

Теория вероятностей и математическая статистика

Файл:

Учебное пособие С.Д. Шапорев ПРИКЛАДНАЯ СТАТИСТИКА.pdf

Скачиваний:

504

Добавлен:

26.03.2015

Размер:

2.25 Mб

Скачать

☆

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3031 / 3331 32 33 > Следующая >>>

8.НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ

8.1.Основные понятия и область применимости непараметрических

методов

При рассмотрении статистических гипотез стандартными средствами приходится предполагать вид распределения статистик критерия. Для более тонких и глубоких выводов вводится предположение, что наблюденные случайные величины имеют нормальное распределение. На этой основе за многие годы выросла обширная и развитая система статистической обработки регрессионных и факторных экспериментов, в частности дисперсионный анализ. Она позволяла решать основные статистические задачи: получать оценки неизвестных параметров (как точечные, так и интервальные), проверять статистические гипотезы, проводить сравнения и тому подобное. На практике все эти методы приходиться применять и в тех случаях, когда наблюдения, возможно, распределены иначе, что превращает точные методы в приближенные. Иногда при этом нарушения, кажущиеся незначительными и поэтому трудно обнаружимые, могут существенно исказить конечные результаты: привести к смещению оценок и доверительных границ.

Один из способов ослабить эти неприятные явления – разработать и применять такие статистические правила, результаты которых были бы устойчивы или малочувствительны к тем или иным отступлениям от предпосылок модели. К сожалению, такие устойчивые (робастные) правила приводят к тому, что если модель полностью справедлива, они имеют меньшую точность, чем традиционные оптимальные процедуры и правила. Такой подход и методы, им реализованные, называются непараметрическими. Точнее эти методы, не предназначенные специально для какогонибудь параметрического семейства распределений (например, гауссовского) и не использующие его свойства. Благодаря этому, непараметрические методы имеют более широкую область применения, но более низкую точность.

Непараметрические методы используют не сами численные значения элементов выборки, а структурные свойства выборки: отношения порядка между ее элементами. В связи с этим, конечно, теряется часть информации, содержащаяся в выборке, поэтому мощность непараметрических критериев меньше, чем мощность их параметрических аналогов. Однако непараметрические методы могут применяться при более общих предположениях и более просты с точки зрения выполнения вычислений.

Большая группа непараметрических критериев используется для проверки гипотезы о принадлежности двух выборок x1, x2 ,..., xn1 и

222

y1, y2 ,..., y

n2 к одной и той же генеральной совокупности, т.е. о том, что функции распределения двух генеральных совокупностей FX (x) и FY (y) равны: H0 : FX (x) ≡ FY (y)x=y . Такие генеральные совокупности называ-

ются однородными. Необходимое условие однородности состоит в равенстве характеристик положения и (или) рассеивания таких, как средние, медианы, дисперсии и тому подобное. Непараметрические критерии в качестве основного предположения используют только непрерывность распределения генеральной совокупности.

Все выводы статистических методов непараметрического типа основаны на исследовании знаков и рангов. Особенно значимые результаты получены за последние десятилетия. Рассмотрим несколько примеров.

8.2. Критерий знаков

Простейший критерий такого рода, критерий знаков, применяется для проверки гипотезы H0 об однородности генеральных совокупностей по-

парно связанным выборкам. Статистикой критерия знаков является число знаков «+» или «-» в последовательности знаков разностей парных выбо-

рок (xi , yi ), i =1, n . Если сравниваемые выборки получены из однородных генеральных совокупностей, то значения xi и yi взаимозаменяемы и,

следовательно, вероятности появления положительных и отрицательных
разностей xi		− yi равны, т.е.				можно предположить, что p(x, y) = p(y, x).
Если же совокупность x в сред-
нем	больше	или		меньше,		то
p(x, y) ≠ p(y, x).							W
	Пусть, к примеру, каждый y						Ω1
будет на θ больше, чем соответ-							X=W
ствующий x . Тогда				p(x, y − θ) =			X<W
= p(y − θ, x),		т.е. θ		является ме-			X>W
дианой разности			y − x . Покажем				Ω2
это.	Подставим		w = y − θ ,		полу-
чим	p(x, w) = p(w, x), т.е.				совме-		X

стная плотность				симметрична
относительно		прямой w = y − θ					Рис. 8.1. Области интегрирования
(рис. 8.1). Тогда				∫ p(x, w)dΩ =			вероятностей

			Ω1
							223

p(x < w) = ∫ p(x, w)dΩ = p(w < x). Из свойств симметричности								следует,
		Ω2					p(x < w) = p(w < x) или, подставляя
что интегралы численно равны, тогда
y − θ	вместо		w ,	имеем	p(x < y − θ) = p(y − θ < x). Далее, очевидно, что
p(y − θ < x) = p(y − x < θ)						и p(x < y − θ) = p(θ < y − x) = p(y − x > θ).
Так	как	левые		части	равны, то		равны и правые, следовательно,
p(y − x < θ) = p(y − x > θ).						Наконец, вычисляя вероятности противопо-
ложных событий,				получим		p(y − x > θ) = p(θ > y − x), а это и есть опре-
деление		θ	как	медианы для			совокупности случайных	величин

zi = yi − xi .

Таким образом, проверка нулевой гипотезы H0 : θ = 0 равносильна

проверке гипотезы, согласно которой медиана случайной величины z равна нулю, и, аналогично, при альтернативной гипотезе H1 : θ > 0 медиа-

на случайной величины z будет больше нуля. Предполагалась непрерывность вероятности p(x, y), поэтому распределение случайной величины z

непрерывно, т.е. вероятность совпадения xi = yi равна нулю. Реально на-

блюдается всегда дискретная последовательность случайных величин, и могут быть случайные совпадения. Как поступать в этом случае – вопрос наименее теоретически обоснованный. Простейший выход - отбрасывать совпадающие наблюдения, сокращая при этом выборку.

Обозначим zi = yi − xi и примем модель

zi = θ + εi , i =

1, n

(8.2.1)

где εi - ненаблюдаемая случайная величина, θ - интересующий нас неизвестный параметр. При этом предполагается, что все εi - взаимно независимы и извлечены из непрерывной совокупности, имеющей медиану, рав-

ную нулю, т.е. P(εi			< 0) = P(εi > 0) = 1 2 , i =1, n .
Проверим гипотезу				H0 : θ = 0 , определив для этого переменную -
1,	z	i	> 0,	Положим		n
счетчик ψi =					B = ∑ψi . Статистика B есть число
0,	zi < 0.					i=1
положительных величин среди zi ,					i =		. Случайные величины ψi неза-
						1, n

висимы и, в силу симметричности распределения относительно медианы, с ними можно связать схему последовательных независимых испытаний, в которой вероятность успеха P(ψi = 1) = 0.5 для каждого испытания. Сле-

224

довательно, при нулевой гипотезе H0 их сумма B распределена по биномиальному закону с параметрами B(n, p) = B(n,12).

Пусть b - верхняя α-процентная точка биномиального распределения при объеме выборки n и вероятности p в схеме Бернулли. Введем обо-

значение b = b(α, n, p). Оно указывает на зависимость b от вероятности ошибки первого рода α. b(α, n, p) есть корень уравнения

n
P(B > b n, p) = ∑Cni pi (1 − p)n	−i = α .	(8.2.2)
i =b
Тогда процедура проверки гипотезы H0	при уровне значимости α

выглядит следующим образом.

1. Односторонний критерий для H0 против альтернативы H1 : θ > 0 : отклонить H0 , если B ≥ b(α, n,12),

принять H0 , если B < b(α, n,12).

Рис. 8.2 показывает критическую область правостороннего критерия для биномиального распределения.

Рис. 8.2. Критическая область и область принятия решения для биномиального распределения

2.	Односторонний критерий для H0 против альтернативы H1 : θ < 0 :
отклонить H0		, если B ≤ [n − b(α, n,1 2)],
принять H0 , если B > [n − b(α, n,1 2)].
3.	Двусторонний критерий для H0 против альтернативы H1 : θ ≠ 0 :
отклонить H0		B ≤ [n − b(α1, n,1 2)], или
		, если	B ≥ b(α2 , n,1 2),

			225

принять	H0 , если	n − b(α1, n,1 2) < B < b(α2 , n,1 2),
			α = α1 + α2 ,

т.е. левый и правый хвосты распределения могут учитываться несимметрично.

Рассмотрим теперь приближения для большой выборки. Интегральная функция распределения для биномиального закона имеет вид

m
F(m, n, p) = ∑Cni pi (1 − p)n−i , 0 < p < 1, m = 0,1,..., n .	(8.2.3)

i=0

Именно по этой формуле вычислена функция распределения P(x) на

рис. 8.2.

В большинстве статистических приложений желательно иметь достаточно точную аппроксимацию для тех значений функции F(m, n, p), ко-

торые принадлежат отрезкам [0.005, 0.05] и [0.93, 0.995]. В этом случае условимся говорить, что аппроксимация осуществляется на хвостах рас-

пределения. Если же истинные	значения аппроксимируемой функции
F(m, n, p) принадлежат отрезку	[0.05, 0.93], то будем использовать тер-

мин аппроксимация между хвостами распределения. При небольших значениях m и n значения функции (8.2.3) легко подсчитать непосредственным образом, но при больших m и n необходимо использовать нормальную аппроксимацию.

Для быстрых прикидочных расчетов рекомендуется следующая про-

стая аппроксимация:
	Φ(2 (m +1)(1 − p) − 2 (n − m)p ) на хвостах,
			(8.2.4)
F (m, n, p) ≈	(4m + 3)(1 − p) −	(4n − 4m −1)p ) между хвостами.	(8.2.4)
Φ(	(4m + 3)(1 − p) −	(4n − 4m −1)p ) между хвостами.

Здесь Φ - функция Лапласа. Более точная аппроксимация:
	Φ( (4m + 3)(1 − p) − (4n − 4m −1)p ) нахвостах,
			(8.2.5)
F(m, n, p) ≈	(4m + 2.5)(1 − p) −	(4n − 4m −1.5)p ) между хвостами.	(8.2.5)
Φ(	(4m + 2.5)(1 − p) −	(4n − 4m −1.5)p ) между хвостами.

Наконец, для очень большой выборки применима интегральная тео-

рема Муавра – Лапласа. Статистика B = B − M (B) =

D(B)

= B − n 2 N (0,1) при n → ∞ . n 4

Приближение нормальной теории для одностороннего критерия для H0 против альтернативы H1 : θ > 0 таково:

отклонить H0 , если B ≥ z(α) ; 226

<<< < Предыдущая 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3031 / 3331 32 33 > Следующая >>>

Соседние файлы в предмете Теория вероятностей и математическая статистика