Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие С.Д. Шапорев ПРИКЛАДНАЯ СТАТИСТИКА.pdf
Скачиваний:
504
Добавлен:
26.03.2015
Размер:
2.25 Mб
Скачать

определенному параметрическому семейству (нормальному, показательному или какому-то другому) на практике выполняется лишь приближенно. Метод, который принимает это предложение безоговорочно, может привести к результатам, не имеющим даже приблизительно правильного характера. Так может происходить и при определенных, хоть и небольших, отклонениях от начальных предположений.

4.6. Сущность интервального оценивания

Поскольку все точечные оценки основаны на данных выборки, следовательно, они являются случайными величинами. В предыдущих подразделах были оценены их математические ожидания и дисперсии. Интервальные оценки учитывают факт случайности точечных оценок и дают представление об их точности и надежности. Рассмотрим интервальную оценку на примере математического ожидания.

 

 

 

 

 

 

 

 

m

 

m

 

< ε

 

 

, где β

= 0.9, 0.95, 0.99 ,

 

 

 

 

 

 

 

 

 

Найдем ε из равенства P

 

X

X

= β

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

т.е. событие

 

mX mX

 

 

 

 

 

 

 

 

 

 

 

 

 

< ε

практически достоверное. Снимем модуль под

знаком вероятности,

получим P(mX ε < mX

< mX + ε)= β. Это означает,

что mX с вероятностью β

попадает в интервал

Iβ = (mX ε,

mX + ε). В

данном случае, поскольку

mX

 

не случайно,

а mX случайно, то Iβ тоже

случайная

величина. Поэтому правильнее говорить,

что с вероятностью

 

 

 

 

Iβ

 

 

 

 

 

 

β

случайный

интервал Iβ

 

 

 

 

 

 

 

 

 

 

 

 

длиной

накрывает точку

 

 

 

 

 

 

 

 

 

 

 

 

mX (рис. 4.2).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+ ε

 

 

 

 

Вероятность β называется

mX ε

 

 

mX mX

mX

 

 

 

доверительной вероятностью, а

Рис. 4.2. Доверительный интервал для

 

 

Iβ

-

доверительным

интерва-

 

 

 

параметра mX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

лом.

Границы

доверительного

интервала могут быть вычислены точно и приближенно.

4.7. Приближенные и точные доверительные интервалы для параметров распределений

1. Приближенное оценивание - это оценивание длин доверительных интервалов - базируется на центральной предельной теореме. Пусть произведено n независимых опытов над случайной величиной X , характе-

96

ристики которой – математическое ожидание и дисперсия – неизвестны.

Для

 

 

этих

параметров

получены

оценки

mX

 

n

 

 

=

1 xi ,

 

 

 

 

(xi mX )2 . Вид распределения случайной величины

 

n i=1

DX

 

1

n

X может

=

 

 

n i=1

 

 

 

 

 

 

 

быть произвольным. Требуется построить доверительный интервал Iβ , соответствующий доверительной вероятности β , для математического ожидания mX .

Оценка математического ожидания – величина mX представляет собой сумму n независимых одинаково распределенных случайных величин

xi , и, согласно центральной предельной теореме, при

n → ∞ ее закон

распределения превратится в нормальный.

 

 

 

 

 

 

n

 

 

 

 

 

Итак, если Y = xi , то P(Y < y)

 

y mY

 

, где

Φ -

 

= F(y) → Φ

 

 

i=1

 

σY

 

 

функция Лапласа. Если использовать стандартизированное среднее ариф-

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(1 n) xi mX

 

 

 

 

 

 

 

 

mY

 

 

 

 

 

 

 

 

 

 

 

метическое, то

 

Y

 

< y

 

= P

 

i =1

 

< x ≈ Φ(x)

,

поскольку,

 

P

 

σY

 

 

DX n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

как было показано в предыдущих подразделах, mY

= mX и DY

= DX n .

Пусть DX

нам известно,

тогда известно и

DY

= DX

n . Найдем

εβ

из равенства

 

 

 

 

 

 

 

< εβ

 

= β. Так

как

 

=

1

n

то

 

 

 

 

 

P

 

mX mX

 

 

 

mX

 

xi ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M (mX )= mX и D(mX )= DX n . Распишем исходное равенство для определения длины доверительного интервала подробнее:

P(mX εβ < mX < mX + εβ )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= β ≈ Φ mX + εβ

mX

 

−Φ mX

εβ mX

 

 

 

 

 

 

 

 

 

 

 

 

 

DX

n

 

 

 

 

 

 

DX n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ε

β

 

 

 

ε

 

 

ε

β

 

 

 

ε

β

 

 

 

ε

β

 

 

 

 

 

 

 

 

 

β

 

 

 

 

 

 

 

 

 

 

= 2Φ

 

 

 

1.

≈ Φ

 

 

 

−Φ

 

 

 

 

= Φ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D

X

n

 

 

D

X

n

 

D

X

n

 

 

 

D

X

 

n

 

 

D

X

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

97

Здесь, чтобы привести выражение в правой части к одной функции Лапласа,

были сокращены mX и mX . Так как mX

mX , этим допущена еще одна

неточность, помимо использования центральной предельной теоремы.

 

Итак,

окончательно

 

 

 

 

 

 

 

 

DX n )−1.

При-

 

 

 

 

 

P

 

mX mX

 

 

< εβ 2Φ(εβ

 

 

 

 

 

 

равнивая правую часть найденного равенства β ,

найдем приближенные

границы

доверительного

 

интервала

2Φ(εβ

DX

n )−1 = β.

Тогда

 

 

 

 

 

 

 

 

x

 

 

 

εβ = DX

n Ф-1((1 + β) 2), Ф(x) = 1

2π et 2 2dt .

Отсюда

−∞

Iβ = (mX εβ, mX + εβ ).

На практике, конечно, очень часто DX не известна, поэтому ее при-

ходиться заменять смещенной или несмещенной оценкой дисперсии. Это еще более «размывает» границы приближенного доверительного интервала для математического ожидания.

Построим теперь приближенный доверительный интервал для дисперсии. Все ранее приведенные предположения о распределении случайной величины X остаются в силе. Построим интервал для несмещенной

 

)

 

1

n

2

оценки дисперсии, т.е. для

DX

=

(xi mX ) . Величины, стоящие

 

 

 

 

n 1 i=1

 

под знаком суммы, уже не могут считаться независимыми, так как в каждое слагаемое входит mX , зависящее от всех xi . Поэтому непосредственно центральную предельную теорему применить нельзя. Однако можно

 

 

 

 

 

 

 

n

(xi mX )2

 

 

 

 

 

показать, что при

n → ∞ распределение

тоже стремится к

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

)

 

)

 

 

2

 

 

 

 

нормальному. Тогда имеем

M (DX ) = DX ,

D(DX ) =

 

 

 

DX2

(см. под-

n 1

 

 

 

 

 

 

 

 

 

 

 

 

разд. 4.3). Далее поступим как в случае с математическим ожиданием:

)

 

 

 

)

 

 

)

 

 

 

 

)

 

 

 

 

 

 

 

 

DX + εβ

DX

 

 

DX

εβ DX

P(DX εβ

< DX < DX + εβ)

= β ≈ Φ

 

 

− Φ

 

 

 

.

 

 

 

 

 

 

 

2 (n 1)DX

 

 

 

 

 

2 (n 1)DX

Тогда

P(

 

)

DX

 

 

εβ

 

1

= β .

Отсюда

 

 

 

DX

< εβ )≈ 2Φ

 

 

 

 

 

 

 

 

 

2 (n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1)DX

 

 

 

 

 

 

 

εβ = 2 (n 1)DX Φ1((1 + β) 2).

98

Естественно, в тех случаях когда DX не известна вместо нее употребляется ее оценка. Это еще более снижает точность доверительного интервала. Наконец, если εβ найдено, то Iβ = (DX εβ, DX + εβ).

2. Точное оценивание. Точный доверительный интервал для математического ожидания строится на основе распределения Стьюдента, а для

дисперсии - на основе χ2 -распределения. Для точного нахождения длин

доверительных интервалов совершенно необходимо заранее знать вид закона распределения случайной величины X , тогда как для применения приближенных методов это не обязательно. Длина любого доверительного интервала находится из распределения каких-то статистик, а распределения этих статистик выводятся на основе известных вероятностных законов.

Пусть выборка x1, x2 ,..., xn взята из нормальной генеральной совокупности с определенными математическим ожиданием и дисперсией, т.е. xi N (mX , DX ), i = 1, n . Рассмотрим две вспомогательные статистики.

По определению (см. подразд. 2.1) χ2n - распределение с n степенями свободы есть сумма квадратов независимых случайных величин, каждая из

которых

 

имеет

 

 

стандартное

нормальное

распределение,

т.е.

χ2

= x2

+ x2

+ ... + x2

,

 

x

 

N (0,1), i =

 

. Рассмотрим формулу для сме-

 

1, n

n

1

 

2

 

 

 

n

 

 

i

 

 

 

 

 

 

 

 

 

 

(xi mX )2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DX

 

1

n

 

 

щенной

 

оценки

 

 

 

 

 

дисперсии

 

 

 

 

=

 

Здесь

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i =1

 

 

 

 

 

 

xi N (mX , DX ),

i =

 

,

 

тогда

(xi mX )

DX N(0,1), но

так как

1, n

 

M (mX )= mX ,

 

то

 

 

 

 

и

 

(xi mX )

 

 

DX

N (0,1).

 

Следовательно,

 

 

 

2

 

 

 

 

 

2

 

 

 

 

 

2

 

 

 

n

 

 

 

2

 

x1

mX

 

+

x2

mX

 

 

+... + xn mX

 

 

= χn2 , но

xi mX

= DX n .

 

DX

 

 

 

DX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DX

 

 

 

 

 

 

 

 

 

 

 

DX

 

 

 

 

 

i=1

DX

 

Тогда статистика

DX n DX имеет

χ2 -распределение с n 1

степенью

свободы, так как на

 

xi

 

наложено одно ограничение (связь) при вычисле-

нии mX . Аналогично доказывается,

 

 

 

 

 

 

 

 

)

 

(n 1)

DX

 

что статистика

DX

имеет

χ2 -распределение с n 1 степенью свободы.

 

 

 

 

 

 

 

 

 

 

Таким же образом рассмотрим дробь Стьюдента

t = z

n

v

(см.

подразд. 2.2). Здесь

 

z N (0,1),

а v χn2 . Пусть z = mX

mX

N (0,1), а

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DX n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

99

 

 

 

 

 

 

 

 

 

 

роль

статистики

v

будет

играть

дробь v = DX n DX . Тогда

t = z

n = n (mX

mX )

DX

n = n (mX

mX ) , причем эта статистика

 

v

nDX DX

DX

имеет распределение Стьюдента с n 1 степенью свободы. Аналогичным

 

)

 

образом полученная статистика t =

n(mX mX ) DX

будет распреде-

лена по закону Стьюдента с n 1 степенью свободы. Напишем вновь ис-

ходное

 

 

равенство

 

 

для

 

длины

 

доверительного

 

интервала

 

 

m

 

m

 

 

< ε

 

 

= β и преобразуем его следующим образом:

 

 

 

 

 

 

 

 

 

 

P

 

X

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

β

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

mX

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

εβ

 

mX

 

 

<

εβ n

 

 

 

 

или

 

 

 

(mX mX ) n

<

n

P

 

 

)

 

 

 

 

 

 

 

)

 

 

= β

 

 

P

)

 

)

=

 

 

 

D

X

 

 

 

 

 

 

D

X

 

 

 

 

 

 

 

 

 

 

 

D

X

 

D

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

 

 

εβ

 

n

 

 

 

 

= P(t

 

 

 

)= β, где случайная величина t

 

 

 

P t

 

<

 

 

= t

 

 

< t

β

имеет рас-

 

 

 

)

 

 

 

 

β

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

DX

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

пределение

 

 

Стьюдента

 

 

 

с

n 1

 

степенью

 

свободы.

Но

P(

 

 

 

 

 

 

< tβ) =

 

tβ

 

 

 

 

 

 

 

tβ

 

 

 

 

 

 

 

 

 

 

tβ

 

 

 

 

 

 

t

 

 

 

 

sn1(t)dt = 2 sn1(t)dt = β. Итак,

2 sn1

(t)dt = β.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

tβ

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

Величину tβ

можно найти обратным интерполированием по таблице

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

εβ

= tβ

)

 

 

 

 

 

 

 

распределения Стьюдента. Тогда

DX

n , а сам интервал будет

иметь вид

 

I

 

 

 

 

 

t

 

)

 

 

 

n,

m

 

+ t

 

)

 

 

 

 

 

 

 

 

β

= m

X

β

D

X

X

β

D

X

n .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Построим, наконец, точный доверительный интервал для дисперсии при тех же предположениях относительно выборки, что и в предыдущем случае.

Так как χ2 -распределение

α2

α2

 

β

χ12

χ22

100

Рис. 4.3. Доверительный интервал для дисперсии,

построенный на основе χ2 -распределения

несимметрично, то условимся интервал, в которой попадает

случайная величина с χ2 -

распределением, с заданной вероятностью β выбирать

так, чтобы с левого и правого конца кривой плотности вероятности выхода случайной