Анализ данных отчеты Катков / Prakticheskaya_rabota_2
.pdfIp
|
|
|
a |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
a |
0 |
a1 |
ε |
а~ |
ε |
a2 |
||||
|
|
|
|
|
|
|
|||
Рисунок 3 – Доверительный интервал для оценки параметра а~ |
|||||||||
Перепишем (21) в виде: |
~ |
|
|
|
|
|
|
||
~ |
|
|
|
|
|
|
|
(22) |
|
P(a |
−ε < a < a +ε) = р |
|
|
|
|
||||
Равенство (22) означает, что с вероятностью р неизвестное зна- |
|||||||||
чение параметра а попадает в интервал I р |
~ |
~ |
+ε) |
|
|||||
= (a |
−ε,a |
|
При этом необходимо отметить одно обстоятельство: величина а неслучайна, зато случаен интервал Iр. Случайно его положение на оси абсцисс, определяемое его центром а; случайна вообще и длина интервала 2ε, так как величина ε вычисляется, как правило, по опытным данным. Поэтому в данном случае лучше будет толковать величину р не как вероятность «попадания» точки а в интервал Iр, а как вероятность того, что случайный интервал Iр. накроет точку а (рисунок 3).
Вероятность р принято называть доверительной вероятностью, а интервал Iр. – доверительным интервалом. Границы интервала Iр.:
а1 = a~ −ε и а2 = a~ +ε называются доверительными границами.
Дадим еще одно истолкование понятию доверительного интервала: его можно рассматривать как интервал значений параметра а, совместимых с опытными данными и не противоречащих им. Действительно, если условиться считать событие с вероятностью α = 1 – р практически невозможным, то те значения параметра а, для которых | a~ −a |>ε , нужно признать противоречащими опытным данным, а те,
для которых | a~ −a | M <ε , — совместимыми с ними.
Перейдем к вопросу о нахождении доверительных границ a1 и
а2.
Пусть для параметра а имеется несмещенная оценка а~. Если бы был известен закон распределения величины а~ , задача нахождения доверительного интервала была бы весьма проста: достаточно было бы найти такое значение ε для которого
P(| a −а|<ε) = р |
(23) |
~
11
Затруднение состоит в том, что закон распределения оценки а зависит от закона распределения величины X и, следовательно, от его неизвестных параметров (в частности, и от самого параметра а).
Чтобы обойти это затруднение, можно применить следующий грубо приближенный прием: заменить в выражении для ε неизвестные параметры их точечными оценками. При сравнительно большом числе опытов L (порядка 20 – 30) этот прием обычно дает удовлетворительные по точности результаты.
В качестве примера рассмотрим задачу о доверительном интервале для математического ожидания.
Пусть произведено L независимых опытов над случайной величиной X, характеристики которой – математическое ожидание ~x и дисперсия D неизвестны. Для этих параметров получены оценки:
L
∑x(l)
~ = l=1 x
L
|
|
L |
~ |
2 |
|
|
|
∑ |
|
||
~ |
|
(x(l) − x ) |
|
|
|
|
l=1 |
|
|
|
|
, d |
= |
|
|
(24) |
|
|
L −1 |
|
|||
|
|
|
|
|
Требуется построить доверительный интервал Ip., соответствующий доверительной вероятности p, для математического ожидания то величины X.
При решении этой задачи воспользуемся тем, что величина ~x представляет собой сумму L независимых одинаково распределенных случайных величин Хp и, согласно центральной предельной теореме, при достаточно большом L ее закон распределения близок к нормальному. На практике даже при относительно небольшом числе слагаемых (порядка 10 – 20) закон распределения суммы можно приближенно считать нормальным. Будем исходить из того, что величина то распределена по нормальному закону. Характеристики этого закона – это математическое ожидание и дисперсия – равны соответственно ~x
и |
~ |
/L. Предположим, что величина |
~ |
известна, найдем |
такую вели- |
|||
d |
d |
|||||||
чину εp, для которой |
|
|
|
|
|
(25) |
||
|
|
P(| x −m |< ε p ) |
|
|
||||
|
|
~ |
|
|
|
|
|
|
|
|
Применяя формулу |
|
|
|
t2 |
|
|
|
|
|
1 |
∞ |
|
|
||
|
|
Ф*(x) = |
∫e− |
|
dt , |
|
||
|
|
2 |
(26) |
|||||
|
|
|
2π |
−∞ |
|
|
|
|
выразим вероятность в левой части (25) через нормальную функцию распределения
12
~ |
|
ε |
p |
|
|
|
* |
|
|
−1, |
|||
σ~ |
||||||
P(| x |
−m |< εp ) = 2Ф |
|
||||
|
|
|
x |
|
|
|
~ |
|
|
|
|
|
|
|
|
|
|
~ |
где σ~ = |
d |
– среднее квадратическое отклонение оценки |
||||||||||
|
x . |
|||||||||||
x |
L |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Из уравнения |
|
|
|
ε |
|
|
|
|
|
|
||
|
|
|
|
|
|
p |
|
|
|
|
|
|
|
|
|
|
2Ф |
* |
|
|
−1 |
= p |
|
||
|
|
|
|
σ~ |
|
|||||||
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
x |
|
|
|
|
|
находим значение εβ: |
|
|
|
|
|
|
|
|
1+ p |
|
||
|
|
ε |
|
=σ~ argФ |
* |
|
||||||
|
|
p |
|
|
|
|||||||
|
|
|
|
x |
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
(27)
(28)
(29)
где argФ*(х) – функция, обратная Ф*(х), т.е. такое значение аргумента, при котором нормальная функция распределения равна х.
Дисперсия D, через которую выражена величина σ~x , нам в точности не известна; в качестве ее ориентировочного значения можно
~ |
(24) и положить приближенно: |
|
||
воспользоваться оценкой d |
|
|||
|
|
~ |
|
|
|
σ~ = d |
|
(30) |
|
|
x |
L |
|
|
|
|
|
|
|
Таким образом, приближенно решена задача построения дове- |
||||
рительного интервала, который~равен~ |
+ε p ) , |
(31) |
||
I p = (x |
−ε p , x |
где εp определяется формулой (29).
Чтобы избежать при вычислении εp обратного интерполирования в таблицах функции Ф*(х), удобно составить специальную таблицу (таблица 1), где приводятся значения величины
t p = argФ |
* |
1+ p |
(32) |
|
|
|
|
||
|
||||
|
|
2 |
|
в зависимости от p. Величина tp определяется для нормального закона числа средних квадратических отклонений, которое нужно отложить вправо и влево от центра рассеивания для того, чтобы вероятность попадания в полученный участок была равна p.
Через величину tp доверительный интервал выражается в виде
I = (x −t |
σ~ , x +t |
σ~ ) |
(32) |
|
p |
~ |
~ |
p x |
|
|
p x |
|
13
Таблица 1 – Значения величины tp в зависимости от вероятности р
p |
tp |
p |
tp |
p |
tp |
p |
tp |
0,80 |
1,282 |
0,86 |
1,475 |
0,92 |
1,750 |
0,98 |
2,325 |
0,81 |
1,310 |
0,87 |
1,513 |
0,93 |
1,810 |
0,99 |
2,576 |
0,82 |
1,340 |
0,88 |
1,554 |
0,94 |
1,880 |
0,9973 |
3,000 |
0,83 |
1,371 |
0,89 |
1,597 |
0,95 |
1,960 |
0,999 |
3,290 |
0.84 |
1,404 |
0,90 |
1,643 |
0,96 |
2,053 |
|
|
0,85 |
1,439 |
0,91 |
1,694 |
0,97 |
2,169 |
|
|
Пример 1. Имеется ряд отсчетов значений величины X; результаты приведены в таблице 2.
Таблица 2 – Ряд отсчетов значений величины Х
ℓ |
x(ℓ) |
|
ℓ |
x(ℓ) |
|
ℓ |
x(ℓ) |
|
ℓ |
|
x(ℓ) |
1 |
10,5 |
6 |
|
10,6 |
11 |
|
10,6 |
16 |
|
|
10,9 |
2 |
10,8 |
7 |
|
10,9 |
12 |
|
11,3 |
17 |
|
|
10,8 |
3 |
11,2 |
8 |
|
11,0 |
13 |
|
10,5 |
18 |
|
|
10,7 |
4 |
10,9 |
9 |
|
10,3 |
14 |
|
10,7 |
19 |
|
|
10,9 |
5 |
10,4 |
10 |
|
10,8 |
15 |
|
10,8 |
20 |
|
|
11,0 |
Требуется найти оценку ~x для математического ожидания т величины X и построить доверительный интервал, соответствующий доверительной вероятности p = 0,8.
~ |
|
1 |
20 |
Решение. Имеем x |
= |
|
∑x(l) =10,78 |
|
|||
|
|
20 l=1 |
Выбрав за начало отсчета х=10, находим по формуле (18) не-
смещенную оценку ~ : d
~ |
13,38 |
|
|
|
20 |
|
|
|
~ |
|
|||
−0,78 |
2 |
= 0,064; |
σ~ |
= |
d |
= 0,0564 . |
|||||||
d |
|
= |
|
|
|
|
|
|
|||||
|
|
|
|
20 |
|
|
|
19 |
|
x |
|
L |
|
|
|
|
|
|
|
|
|
|
|||||
По таблице находим tp = 1,282 и |
|
|
|
||||||||||
ε |
p |
= t |
p |
σ~ = 0,072 |
|
|
|
|
|
|
|
||
|
|
x |
|
|
|
|
|
|
|
|
|
Доверительные границы:
x1 = ~x −0,072 =10,71; x2 = ~x +0,072 =10,85
Доверительный интервал:
Ip=(10,71; 10,85)
14
Значения параметра т, лежащие в этом интервале, являются совместимыми с опытными данными, приведенными в таблице 2.
Аналогичным способом может быть построен доверительный интервал и для дисперсии.
Пусть произведено L независимых опытов над случайной величиной Х с неизвестными параметрами т и D, и для дисперсии D получена несмещенная оценка.
Требуется приближенно построить доверительный интервал для дисперсии.
Из формулы (24) видно, что величина ~ представляет собой d
|
~ |
2 |
|
|
|
сумму L случайных величин вида |
(x(l) − x ) |
|
. Эти величины не явля- |
||
L −1 |
|
||||
|
|
|
x |
, за- |
|
ются независимыми, так как в любую из них входит величина |
|||||
|
|
|
|
~ |
|
висящая от всех остальных. Однако можно показать, что при увеличении L закон распределения их суммы тоже приближается к нормальному. Практически при L = 20 30 он уже может считаться нормальным.
Предположим, что это так, и найдем характеристики этого закона: математическое ожидание и дисперсию. Так как оценка – несме-
щенная, то |
~ |
~ |
M [d ] = D . Вычисление дисперсии |
D[d ] связано со сравни- |
тельно сложными выкладками, поэтому приведем ее выражение без вывода:
~ |
1 |
|
|
L −3 |
|
2 |
, |
(33) |
D[d ] = |
|
µ4 |
− |
|
D |
|
||
L |
L(L −1) |
|
||||||
|
|
|
|
|
|
|
где µ4 – четвертый центральный момент величины X.
Чтобы воспользоваться этим выражением, нужно подставить в него значения µ4 и D (хотя бы приближенные). Вместо D можно вос-
пользоваться его оценкой ~ . В принципе четвертый центральный d
момент µ4 тоже можно заменить его оценкой, например величиной вида:
L
∑ − ~ 4
(x(l) x )
~ |
= |
l=1 |
|
, |
(34) |
µ4 |
|
|
|||
|
L |
||||
|
|
|
|
|
но такая замена даст крайне невысокую точность, так как вообще при ограниченном числе опытов моменты высокого порядка определяются с большими ошибками. Однако на практике часто бывает, что вид
15
закона распределения величины X известен заранее: неизвестны лишь его параметры. Тогда можно попытаться выразить µ4 через D.
Возьмем наиболее часто встречающийся случай, когда величина X распределена по нормальному закону. Тогда ее четвертый центральный момент выражается через дисперсию:
µ4=3D2 |
|
|
|
|
|
|
(35) |
||||||||||
и формула (22) дает |
|
|
|
|
|
|
|
|
|
|
L −3 |
|
|
|
|||
~ |
3 |
|
|
|
2 |
|
|
|
|
|
2 |
(36) |
|||||
D[d ] = |
|
D |
|
− |
|
D |
|
||||||||||
L |
|
L(L −1) |
|
||||||||||||||
или |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
~ |
|
|
|
|
2 |
|
|
|
|
|
2 |
. |
|
|
(37) |
||
D[d |
] = |
|
|
|
D |
|
|
|
|||||||||
L −1 |
|
|
~ |
||||||||||||||
Заменяя в (37) неизвестное D его оценкой |
, получим |
||||||||||||||||
d |
|||||||||||||||||
~ |
|
|
|
|
2 |
|
|
|
~2 |
|
|
|
(38) |
||||
D[d |
] = |
|
|
d |
|
|
|
|
|||||||||
|
L −1 |
|
|
|
|
||||||||||||
откуда |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
σd |
= |
|
|
|
2 |
|
|
|
~ |
|
|
|
(39) |
||||
|
|
|
|
|
|
|
|
d |
|
|
|
|
|||||
~ |
|
|
|
|
L −1 |
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
Момент µ4 можно выразить через D также и в некоторых других случаях, когда распределение величины Х не является нормальным, но вид его известен. Например, для закона равномерной плотности имеем
µ4 = |
(β −α)4 |
; D = |
(β −α)2 |
, |
(40) |
|
80 |
12 |
|||||
|
|
|
|
где (α, β) - интервал, на котором задан закон. Следовательно,
µ4=1,8D2.
По формуле (33) получим
~ |
0,8L +1,2 |
|
2 |
, |
(41) |
D[d ] = |
L(L −1) |
D |
|
откуда находим приближенно
0,8L +1,2 ~
σ~ = d (42) d L(L −1)
Вслучаях, когда вид закона распределения величины X неизвес-
тен, при ориентировочной оценке величины σ ~ рекомендуется все же
d
пользоваться формулой (39), если нет специальных оснований счи-
16
тать, что этот закон сильно отличается от нормального (обладает заметным положительным или отрицательным эксцессом).
Если ориентировочное значение σ ~ тем или иным способом по-
d
лучено, то можно построить доверительный интервал для дисперсии, |
||
аналогично тому, как строили его для математического ожидания: |
||
~ |
~ |
(43) |
I p = (d −t pσd |
,d +t pσd ), |
|
~ |
~ |
|
где величина tp в зависимости от заданной вероятности p находится по таблице 1.
Пример 2. Найти приближенно с восьмидесяти процентной вероятностью доверительный интервал для дисперсии случайной величины Х в условиях примера 1, если известно, что величина X распределена по закону, близкому к нормальному.
Решение. Величина tp остается такой же, как и в примере 1: tp =1,282
По формуле (39)
σd = |
2 |
0,064 |
= 0,0207 |
~ |
19 |
|
|
|
|
|
По формуле (43) находим доверительный интервал:
Ip=(0,043; 0,085)
Соответствующий интервал значений среднего квадратического отклонения: (0,21; 0,29).
Задание 2
Для полученных оценок в задании 1 выборочного среднего значения и дисперсии найти их доверительные интервалы с вероятно-
стью р= 95 %.
17
СПИСОК ЛИТЕРАТУРЫ
1.Вентцель Е.С. Теория вероятностей и ее инженерные приложения / Е.С. Вентцель, Л.А. Очаров. – М. : Высшая школа, 2010. – 480 с.
2.Назаров М.Г. Статистика: учебно-практическое пособие для вузов / М.Г. Назаров, В.С. Варагин, Т.Б. Великанова [и др.]. – М. :
КноРус, 2009. – 480 с.
3.Мелкунов Я.С. Социально-экномическая статистика: учебное пособия для вузов / Я.С. Мелкунов. – М. : Инфра-М, 2009. – 235 с.
4.Гмурман В.Е. Теория вероятностей и математическая статистика : учебное пособие для вузов / В.Е. Гмурман. – М. : Высшее об-
разование, 2008. – 479 с.
18
Учебное издание
Составитель Кораблина Татьяна Валентиновна
СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ
Методические указания к выполнению практической работы №2 по дисциплине «Анализ и обработка данных»
для студентов специальности 080801 – Прикладная информатика (в управлении),
Редактор Н.И. Суганяк
Подписано в печать Формат бумаги 60х84 1/16. Бумага писчая. Печать офсетная
Усл. печ. л. Уч.-изд. л. Тираж экз. Заказ
Сибирский государственный индустриальный университет, 654007, г. Новокузнецк, ул. Кирова, 42.
Типография СибГИУ