romanovskiy_romanovskaya_elementy_teorii_veroyatnostey
.pdf§4. Выборочные оценки параметров случайной величины. Основные требования к оценкам
Для выполнения инженерных расчетов, связанных с прогнозированием по массовым случайным явлениям и основанных на методах теории вероятностей, необходимо знать параметры случайных величин, участвующих в этих расчетах: математическое ожидание, дисперсию и т.д.
На практике эти параметры находятся приближенно по данным опыта.
Пусть с испытанием связана случайная величина ξ с неизвестным параметром θ , и пусть в результате серии независимых испытаний получена выборка (40). В качестве приближенного значения параметра θ принимают надлежащим образом выбранную комбинацию элементов
выборки (40).
θ = f (x1 , x2 , . . . , xn ) .
Величина θ называется выборочной оценкой параметра θ .
К выборочным оценкам предъявляются следующие три основных требования: состоятельность, несмещенность, эффективность.
Чтобы были понятны даваемые далее определения этих понятий, обратим внимание на следующее: до выполнения испытаний числа (40) представляют собой независимые случайные величины, подчиненные одному и тому же закону распределения, совпадающему с законом распределения случайной величины ξ , поэтому θ также является случайной величиной, и имеет смысл говорить о математическом ожидании, дисперсии, СКО и т.д. случайной величины θ .
1. Оценка θ называется состоятельной, если при неограниченном увеличении объема выборки θ сходится
по вероятности к истинному значению параметра θ : q ¾¾®вер q при n ® ¥.
81
Это означает: при достаточно большом объеме |
выборки |
|
с практической |
достоверностью (с вероятностью, близкой |
|
к единице) |
θ практически совпадает с |
истинным |
значением θ . |
|
|
2.Оценка θ называется несмещенной, если ее
математическое ожидание совпадает с истинным значением параметра θ : M [θ ]= θ .
3. Оценка θ называется эффективной, если она несмещенная и при этом имеет наименьшую дисперсию (наименьший разброс относительно θ ) по сравнению с другими несмещенными оценками параметра θ .
§ 5. Состоятельные несмещенные оценки для математического ожидания, дисперсии, ковариации
Пусть с испытанием связана случайная величина ξ с неизвестными числовыми характеристиками (а, D) и пусть набрана независимая выборка (40).
В дальнейшем будем употреблять следующий удобный термин: любую функцию f (x1 , . . . , xn ) от выборки
(40) будем называть статистикой. Лемма 1. Статистика
|
|
|
|
x1 |
+ ... + xn |
|
|
|
x = |
(42) |
|||||
|
|
n |
|||||
|
|
|
|
|
|
||
является |
состоятельной |
несмещенной |
оценкой |
||||
математического ожидания а. |
|
Доказательство. 1. Мы знаем, что элементы выборки (40) являются независимыми случайными величинами с одним и тем же законом распределения, совпадающим с законом распределения случайной величины ξ , а значит, имеют те же числовые характеристики (а, D).
По теореме Чебышева среднее арифметическое независимых
82
случайных величин с одинаковыми параметрами (а, D), при неограниченном возрастании числа слагаемых сходится по
вероятности к общему математическому ожиданию |
|
|
|||||||||||||||||||||||||||||
|
|
|
|
|
|
|
|
|
x |
|
¾¾® a |
при n ® ¥, |
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
вер |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
что и означает состоятельность оценки. |
|
|
|
|
|||||||||||||||||||||||||||
2. Имеем |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||
M [ |
|
] = |
1 |
M [x + x |
|
+ ... + x |
|
] = |
1 |
(M [x ]+ M [x |
|
]+ ... + M [x |
|
]) = |
|||||||||||||||||
x |
2 |
n |
2 |
n |
|||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||
|
|
|
|
|
|
n |
1 |
|
|
|
|
|
|
|
n |
1 |
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
= |
|
|
a + a + ... + a |
= a. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
n |
|
|
n раз |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
Это означает несмещенность оценки |
|
. |
|
|
|
|
|
|
|
||||||||||||||||||||||
x |
|
|
|
|
|||||||||||||||||||||||||||
|
|
|
|
|
Лемма 2. Статистика |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
(x - |
|
)2 |
+ ... + (x |
|
|
- |
|
)2 |
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
S 2 |
|
= |
x |
n |
x |
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(43) |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
n -1 |
|
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
является состоятельной несмещенной оценкой дисперсии D. Доказывается аналогично лемме 1.
Замечание 1. Если в формуле (43) заменить (n - 1) на n , то оценка останется состоятельной, но будет смещенной.
Величина S2 называется исправленной дисперсией.
Замечание 2. Из леммы 2 следует, что статистика:
|
(x - |
|
)2 |
+ ... + (x - |
|
) 2 |
|
|
|
|
|
S = |
x |
x |
|||||||||
1 |
|
|
|
n |
|||||||
|
|
|
|
||||||||
|
|
|
|
n -1 |
|
|
|
|
|
|
|
является состоятельной оценкой для СКО (σ = |
|
). Можно |
|||||||||
D |
|||||||||||
доказать, что M [S ] ¹ σ , т.е. |
оценка S является смещенной |
оценкой для σ .
Пусть по данным опыта получим ряд значений случайной точки (ξ1 ,ξ2 ) (выборка):
(х1, у1) (х2, у2), …, ( хn, уn).
83
Справедлива следующая Лемма 3. Состоятельной несмещенной оценкой для
cov( ξ1 ,ξ2 ) является выборочная ковариация
|
|
|
|
− |
− |
|
− |
− |
− |
− |
|||
cov* (ξ1 ,ξ2 ) = |
(x1 − x)( y1 |
− y) + (x2 − x)( y2 |
− y) + ... + (xn |
− x)( yn |
− y) |
, |
|||||||
|
|
|
|
n − 1 |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|||
− |
+ x2 |
+ ... + xn |
|
− |
|
y1 + y2 + ... |
+ yn |
|
|
|
|
||
где x = |
x1 |
, |
y |
= |
. |
|
|
|
|||||
|
|
|
|
n |
|
|
|
|
|||||
|
|
|
|
n |
|
|
|
|
|
|
|
§ 6. Два распределения, связанные с нормальным законом
Сформируем два результата, которые понадобятся
далее.
Теорема 1. Пусть случайные величины ξ1 ,...,ξ n
независимы и нормальны с параметрами (0,1), тогда
случайная величина |
χ 2 = ξ12 |
+ ... + ξ n2 подчинена закону |
||||||||
распределения с плотностью вероятности |
|
|
||||||||
|
n |
−1 |
− |
x |
|
|
x > 0, |
n |
> 1. |
|
|
|
|
||||||||
Cx 2 |
L 2 , |
если |
||||||||
2 |
||||||||||
f (x) = |
|
|
|
|
|
|
||||
|
, |
если |
x ≤ 0. |
|
|
|||||
0 |
|
|
f(x)
0
Рис.30
84
χ 2 – распределение (Пирсона)
Теорема 2. Пусть случайные величины ξ1 ,...,ξ n
независимы и нормальны с параметрами (0,1), тогда случайная величина
t = |
|
ξ |
|
|
|
|
|
ξ12 + ... + ξ n2 |
|
||
|
|
|
|
|
|
n |
|
подчинена закону распределения с плотностью
f (x) = |
|
c |
|
|
|
|
(1 + |
x |
2 |
|
n+1 |
||
|
|
|||||
|
|
|
|
|
||
|
|
) 2 |
|
|||
|
|
|
n
рис.31
t – распределение (Стьюдента)
В обоих случаях константа С подобрана так, чтобы площадь под графиком плотности была равна 1.
Число n называется числом степеней свободы.
85
§ 7. Квантиль распределения
Пусть имеется случайная величина ξ с функцией распределения F(x). Будем предполагать, что функция F(x) непрерывна и строго монотонна.
Рис.32
Зададимся числом p (0,1).
Квантилем уровня p распределения F(x) называется корень уравнения F(x) = p, х - ?
Обозначим его x p (см. рис.32). Из определения функции
F(x) вытекает: P(ξ < x p ) = p .
Нам понадобится далее квантили распределений Пирсона и Стьюдента. Они обозначаются:
χ 2p (n) , t p (n)
Для этих квантилей имеются таблицы.
§8. Доверительные интервалы для математического ожидания и дисперсии
Пусть с испытанием связана случайная величина ξ с неизвестными числовыми характеристиками (а, D) и пусть по выборке (40) вычислены оценки x, S 2 , S.
Зададимся числом р в интервале (0,1).
86
Теорема. В указанной ситуации при достаточно большом объеме выборки с вероятностью р имеют место неравенства
|
− |
|
S |
|
t1+ p |
(n − 1) < a < |
|
+ |
S |
|
t1+ p (n − 1); |
(44) |
||||||||||
x |
x |
|||||||||||||||||||||
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
||||||||||||||||
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
||
|
|
|
|
|
2 |
|
2 |
|
|
|||||||||||||
(n − 1)S 2 |
< D < |
(n − 1)S 2 |
. |
|
|
|
|
(45) |
||||||||||||||
χ12+ p (n − 1) |
|
|
|
|
|
|||||||||||||||||
|
χ12− p (n − 1) |
|
|
|
|
|
||||||||||||||||
|
2 |
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
Интервалы (44), (45) называются доверительными интервалами для математического ожидания и дисперсии. Число р называется уровнем доверия или доверительной вероятностью.
Здесь n-объем выборки, χ 2p , t p -квантили распреде-
лений Пирсона и Стьюдента.
Указанные интервалы иногда называют интервальными оценками для математического ожидания и дисперсии.
Пример. Выполнена выборка значений случайной величины ξ объема n = 25 и вычислены состоятельные несмещенные оценки для математического ожидания и дисперсии: x = 20, S 2 = 4. Найти доверительные интервалы для математического ожидания и дисперсии с уровнем доверия р = 0,95.
В силу неравенств (44), (45) с р = 0,95 имеют место интервальные оценки:
20 − |
2 |
t |
|
( 24 ) < a < 20 |
+ |
2 |
t 0 , 975 ( 24 ) ; |
||||||
|
|
0 , 975 |
|
||||||||||
5 |
|
|
|
|
|
5 |
|
|
|
|
|||
|
|
|
|
24 × 4 |
|
|
24 × 4 |
|
. |
||||
|
|
χ |
2 |
(24 ) < D < χ |
2 |
|
(24 ) |
||||||
|
|
|
|
||||||||||
0 , 975 |
|
|
|
0 , 025 |
|
|
|
|
|||||
По таблице квантилей (IV, V) найдем: |
|
|
|
|
|||||||||
t0,975 (24) = 2,064, |
χ 02,975 (24) = 39,4, |
|
|
χ 02,025 (24) = 12,4 . |
Подставляя эти значения, получим: с вероятностью 0,95 верны неравенства:
19 ,174 |
< a < 20 ,826 , |
2 ,436 |
< D < 7 ,791 . |
87
§ 9. Общая схема проверки гипотез по данным опыта
Пусть исследователем выдвинута по некоторым соображениям гипотеза Н и требуется проверить справедливость этой гипотезы по данным опыта.
Укажем правило (схему) проверки гипотезы, разработанную
в математической статистике. |
|
|
|
||||||||
|
|
Пусть |
построена |
статистика |
(функция от |
выборки) |
|||||
Ζ(x1 ,..., xn ) |
со следующим свойством: если гипотеза Н верна, |
||||||||||
то известен закон распределения случайной величины Z. |
|||||||||||
|
|
1. Задаются малым числом α (0,1) , (например, α = |
|||||||||
0,01 или α = 0,05) и находят множество V значений |
|||||||||||
случайной величины Z такое, что |
|
|
|
||||||||
|
|
|
|
P(Z V / H ) = α . |
(46) |
||||||
|
|
|
|
|
|
|
|
|
Z |
|
|
|
|
|
|
|
|
V |
|
|
|
||
|
|
V |
|
|
|
|
|
||||
|
|
2. Производят |
выборку x1 ,..., xn и вычисляют |
||||||||
значение Z по этой выборке. Обозначим его Zвыб. . |
|
|
|||||||||
Возможны два случая: |
|
|
|
|
|
|
|
||||
|
|
|
|
Zвыб. . |
|
Zвыб. |
|
|
|
||
|
|
|
|
Z |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Z |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
V |
|
|
|
|
V |
|
|
V |
|
|
|
V |
|
|
|||||
|
|
|
|
||||||||
Гипотеза отвергается |
|
|
Гипотеза принимается |
Комментарии: В первом случае гипотеза не согласуется с данными опыта, т.к. при этой гипотезе вероятность попадания Z в область V ничтожно мала (46).
В этом случае говорят: расхождение гипотезы с данными опыта значительно.
Во втором случае гипотеза согласуется с данными опыта, т.к. при этой гипотезе вероятность попадания в область V равна p = 1 − α ≈ 100% .
88
Расхождение гипотезы с опытом незначимо.
Термины:
V – критическая область;
V- область принятия гипотезы;
α- уровень значимости;
Ζ(x1 ,..., xn ) - критерий проверки гипотезы.
3. На практике критическую область V находят следующим образом. Вычисляют квантиль случайной
величины Z p уровня |
p = 1 -α . Тогда V – множество |
||
значений Z, больших либо равных Z p (рис. (33)). |
|||
|
|
|
V |
V |
|
||
|
|
|
X |
Z p
Рис.33
В самом деле, из определения квантиля следует:
p(Z ³ Zp / H ) = 1 - p(Z < Zp / H ) = 1 - p = α .
§ 10. Проверка гипотезы о законе распределения случайной величины по данным опыта
Пусть с испытанием связана случайная величина ξ с неизвестным законом распределения и пусть по некоторым соображениям выдвинута гипотеза Н: ξ имеет закон распределения F (x;θ1 ,...,θ l ) , где θ k – неизвестные
параметры.
Например, пусть гипотеза Н состоит в том, что случайная величина ξ нормальна:
F (x; a,σ ) = 1 + ô ( x − a ). 2 σ
Укажем правило проверки гипотезы о законе распределения, принадлежащее Пирсону. Для этого построим критерий Z = f (x1 ,..., xn ) , т.е. такую статистику, для которой закон
89
распределения известен при условии, что исходная гипотеза верна.
1 |
2 |
… |
m |
1. |
|
|
|
xmin |
|
[xmin , xmax ] |
xmax |
Разделим отрезок |
на m интервалов одинаковой |
||
длины (m > l + 1). |
Обозначим n1 , n2 , ... , nm - частоты |
||
попадания элементов выборки в эти интервалы. |
|||
2. Обозначим |
θ1 ,...,θ l |
- состоятельные оценки |
неизвестных параметров θ k . Тогда гипотетическая функция распределения случайной величины имеет вид:
F (x;θ1 ,...,θ l ) . |
(47) |
3.Вычислим вероятности p1 , p2 ,..., pm попадания ξ в
эти интервалы по формуле:
p(α < ξ < β ) = F (β ) − F (α ) ,
где F(x) – функция (47).
4.Построим статистику Z по формуле:
m |
nk |
|
n |
|
|
|
Z = ∑( |
− pk )2 |
. |
(48) |
|||
|
|
|||||
k −1 |
n |
pk |
|
Критерий (48) был построен Пирсоном.
Теорема. Если гипотеза Н верна, то при достаточно большом объеме выборки случайная величина (48) подчинена приближенно закону распределения Пирсона χ 2 с m − l − 1 степенями свободы.
Из этой теоремы и указанной выше схемы проверки гипотезы вытекает следующее правило проверки гипотезы о законе распределения:
1. Задаются уровнем значимости α (0,1) и вычисляют квантиль χ p2 (m − l − 1), p = 1 − α .
2.Выполняют выборку x1 ,..., xn и по формуле (48) вычисляют χвыб2 . = Zвыб. .
90