Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие мат. статистика+контрольные работы

.pdf
Скачиваний:
11
Добавлен:
30.11.2016
Размер:
811.62 Кб
Скачать

0.045

 

 

 

 

 

 

 

 

0.04

 

 

 

 

 

 

 

 

0.035

 

 

 

 

 

 

 

 

0.03

 

 

 

 

 

 

 

 

0.025

 

 

 

 

 

 

 

 

0.02

 

 

 

 

 

 

 

 

0.015

 

 

 

 

 

 

 

 

0.01

 

 

 

 

 

 

 

 

0.005

 

 

 

 

 

 

 

 

0

150

160

170

180

190

200

210

220

140

Рис.3

В действительности, представленная в примере выборка является не результатом реальных измерений, а сформирована на основе значений датчика случайных чисел, имеющегося в ЭВМ. Не описывая детали построения выборки, следует сказать, что она представляет множество реализаций случайной величины, имеющей нормальный закон распределения с математическим ожиданием 175 см и стандартным отклонением 10 см. Эта выборка будет использоваться и в других примерах. Тот факт, что она имеет известные нам свойства позволяет получить суждение о свойствах используемых методов обработки статистических данных.

ОЦЕНКИ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ

Как показывают соответствующие оценки, для получения закона распределения случайной величины требуется иметь выборку, объ¸мом в тысячи и десятки тысяч наблюдений, что практически оказывается невозможным. Кроме того, гистограмма плотности распределения получается в виде кусочно-постоянного графика, разрывы которого объясняются не существом явления, а способом назначения интервалов постоянства плотности распределения.

Поэтому часто используется другой подход: по выборке определяется не сам закон распределения, а его параметры (обычно математическое ожидание и дисперсия). В таком подходе предполагается известной форма (структура) закона распределения, например, нормальный, показательный, равномерный и так далее. Тем самым, исследователь добавляет к имеющейся выборке априорную информацию о типе закона распределения, вследствие чего его уда¸тся оценить с требуемой точностью при меньшем объ¸ме выборки.

41

Нужно отдавать себе отч¸т, что при этом возникает опасность совершить б´ольшую ошибку – если априорная информация не верна, то полученный результат будет неверным.

Общая постановка задачи параметрического оценивания заключается в следующем.

Для параметра µ=(µ1; µ2; : : : ; µr) закона распределения случайной величины X требуется получить его оценку µ¤ по имеющейся выборке fx1; x2; : : : ; xng. Формула, связывающая оценку µ¤ с членами выборки µ¤=µ¤(x1; : : : ; xn) представляет точечную оценку параметра µ.

Оценка параметра, как правило, не совпадает с его истинным значением, то есть параметр определяется приближ¸нно. Важно знать, с какой точностью он определ¸н. Оценка интервала, где находится искомое значение параметра, называется интервальной оценкой. Обычно, интервальная оценка представлена доверительным интервалом.

Доверительный интервал

В приложениях, не связанных с вероятностью, если некоторый параметр известен неточно, возможный диапазон его значений зада¸тся интервалом, например, для параметра ¯, для которого используется значение ¯0, возможные значения определяются интервалом

j¯ ¡ ¯0j < ":

В теории вероятностей и е¸ применениях все выводы сопровождаются дополнительным условием: с вероятностью такой-то.

Поэтому и точность определения параметра в статистике зада¸тся интервалом с дополнительным условием. В результате получается соотношение, называемое доверительным интервалом :

P fj¯ ¡ ¯0j < "g = °:

Доверительный интервал включает два параметра: ", определяющий размер интервала, и °, называемый доверительной вероятностью и равный вероятности, с которой интересующая величина находится в заданном интервале. Очевидно, для данного параметра могут быть записаны много доверительных интервалов, отличающихся длинами интервалов и доверительными вероятностями.

Пример 13. Пусть случайная величина подчиняется нормальному закону распределения с математическим ожиданием mx и дисперсией ¾x2. Тогда c вероятностями 0,95 и 0,99 случайная величина X находится в интервалах

P fmx ¡ 2¾x < X < mx + 2¾xg) = 0; 95;

P fmx ¡ 3¾x < X < mx + 3¾xg) = 0; 99;

42

(правила двух и тр¸х сигм).

При анализе эффективности оценки параметров распределений обычно используются следующие требования:

1.Несмещ¸нность (не обязательно): Математическое ожидание оценки параметра должно совпадать с его истинным значением

¤ = µ:

2.Состоятельность: с увеличением объ¸ма выборки вероятность погрешности оценивания стремится к нулю

lim P fjµ¤ ¡ µj > "g = 0:

n!1 n

3.Эффективность (не обязательно): Дисперсия оценки минимальна на классе возможных оценок.

Для заданного параметра µ существует много несмещ¸нных и состоятельных оценок. Эффективная оценка – единственная.

ОЦЕНКА МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ

Чаще всего, в качестве оценки математического ожидания используется среднее арифметическое выборки:

m¤ =

1

 

n

xk;

(1)

 

Xk

x

n

 

 

 

 

 

 

=1

 

 

хотя могут использоваться и другие оценки.

Пример 14. Для выборки, рассмотренной в примере 12, оценка математического ожидания получилась равной m¤x=174; 95.

По схеме вычисления математического ожидания можно вычислять и другие параметры случайных величин.

Для этого удобно рассмотреть аналог формулы (1), применяемый для некоторой функции от случайной величины.

Пусть случайная величина Y определяется через случайную величину X по формуле Y = '(X). Тогда оценка математического ожидания Y может определяться по выборке fx1; x2; : : : ; xng с помощью формулы

(MY )¤ = (M'(X))¤ = 1 n '(xk); (2)

X

n k=1

43

Используя свойства математического ожидания, из формулы (1) по-

лучаем:

 

 

 

!

 

 

 

 

 

1

n

1

n

 

Mmx¤

 

 

X

 

 

Xk

 

 

 

 

 

 

= M Ãn k=1 xk

= n =1 mx = mx:

(3)

Эта формула означает, что оценка математического ожидания, полученная по формуле (1), является несмещ¸нной.

Используя свойства дисперсии и учитывая, что случайные величины xk, входящие в выборку, независимы, получаем:

 

1

n

!

1

n

1

n

DX

Dmx¤

 

 

Xk

 

 

X

 

X

 

 

 

 

 

 

 

 

 

= D Ãn =1 xk

= n2 k=1 Dxk = n2 k=1 DX = n :

Дисперсия оценки математического ожидания зависит от дисперсии самой случайной величины X. Эта ситуация является типичной, легко показать, что дисперсия оценки момента порядка k зависит от момента порядка 2k.

ОЦЕНКА ДИСПЕРСИИ

По определению дисперсия случайной величины X равна математическому ожиданию квадрата разности случайной величины X и е¸ математического ожидания:

DX = M[(X ¡ mx)2];

где mx – математическое ожидание X.

Если ввести функцию Y = '(X) = (X ¡ mx)2, из формулы (2) получается формула для оценки дисперсии

~

1

n

2

 

 

Xk

(xk ¡ mx) :

 

 

DX = n =1

Однако, для того, чтобы пользоваться этой формулой, необходимо знать математическое ожидание mx. В реальных ситуациях имеется только выборка. Поэтому для получения оценки дисперсии в написанной выше формуле заменим mx его оценкой m¤x:

~ 1

 

n

¤ 2

 

 

 

 

Xk

(xk ¡ mx) :

 

DX = n

(4)

=1

44

Подсч¸т математического ожидания оценки дисперсии (проводится применением оператора вычисления математического ожидания к оценке и , из-за громоздкости, здесь не приводится) показывает, что оценка дисперсии является смещ¸нной:

~ n ¡ 1

M(DX) = n DX:

Поэтому обычно используется исправленная оценка дисперсии, полу- n

ченная из формулы (4) умножением на n ¡ 1

 

 

2

 

n

~

 

 

s

 

 

=

n ¡ 1

DX;

 

или

 

 

 

n

 

 

 

 

¡

Xk

 

s2 =

 

 

 

1

(xk ¡ mx¤)2;

(5)

n

 

1

 

 

 

 

 

=1

 

 

математическое ожидание которой совпадает с истинным значением дисперсии. (Традиционно, дисперсия обозначается как ¾2, а е¸ несмещ¸нная оценка – как s2).

Соответственно, стандартное отклонение обычно обозначается как ¾, а его оценка как s.

Пример 15. Для выборки примера 12 оценка дисперсии по формуле (5) получилась равной s2x=142; 576, а стандартное отклонение – sx=11; 94.

Теоретический подсч¸т дисперсии оценки дисперсии да¸т:

D(s2) =

1

¹

 

 

n ¡ 3

¾2;

n

4

 

 

 

¡ n(n

¡

1)

 

 

 

 

 

 

 

 

 

где ¹4 – центральный момент четв¸рного порядка случайной величины X. Для подсч¸та дисперсии оценки дисперсии, таким образом, нужно знать момент четв¸ртого порядка случайной величины X. Поскольку он, как правило, неизвестен, обычно пользуются предположением, что случайная величина X распределена по нормальному закону, который зависит только от двух параметров: математического ожидания mx и дисперсии ¾x2, из чего следует, что все моментные характеристики выражаются через эти параметры. В частности, центральный момент четв¸р- того порядка равен утроенному квадрату дисперсии: ¹4 = 3¾x4.

Подставляя это значение в выражение для дисперсии оценки дисперсии, получаем:

D(s2) = n ¡2 1¾4:

45

Заменяя в этой формуле неизвестное значение ¾ его оценкой s, полу-

чим:

D(s2) = n ¡2 1s4;

откуда r

¾s2 = 2 s2: n ¡ 1

ИНТЕРВАЛЬНЫЕ ОЦЕНКИ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ И ДИСПЕРСИИ

Понятно, что оценки математического ожидания и дисперсии (1) и

(3) определяют эти характеристики неточно. Возникает вопрос, с какой точностью? Ответ на этот вопрос можно получить, рассчитав моментные характеристики оценок, а затем по моментным характеристикам построить доверительные интервалы.

Пусть требуется оценить точность оценки µ¤ параметра µ. Известны три способа оценивания доверительных интервалов, которые упорядочены по мере возрастания точности:

1. По неравенству Чебышева:

P fjµ¤ ¡ Mµj < "g > 1 ¡ "2¤ :

Эта оценка, как правило, очень грубая, величина в правой части существенно больше доверительной вероятности.

2.В нормальном приближении:

Поскольку оценка µ¤ представляет сумму n случайных величин µk, согласно предельной теореме теории вероятностей е¸ закон распределения близок к нормальному и тогда

P fjµ¤ ¡ Mµj < "g = 2© ³¾" ´;

где ¾ – дисперсия оценки µ¤.

Эта оценка более точна, но не самая точная, поскольку не учитывает конкретной формы распределения случайной величины X. Она пригодна в случае большого объ¸ма выборки, когда суммирование, используемое в оценках, достаточно хорошо приближает распределение оценки к нормальному.

46

3.Точный расч¸т.

Для точного расч¸та определяется закон распределения оценки µ¤ и по нему строится доверительный интервал. Точность такого подхода – условная, потому что закон распределения µ¤ зависит от закона распределения X, который неизвестен. Поэтому для применения третьего способа делаются субъективные предположения относительно формы распределения случайной величины X. Если предположения не верны, результаты будут тоже неверными.

Доверительный интервал для оценки математического ожидания

Если дисперсия случайной величины X известна, доверительный интервал для оценки математического ожидания получается из формулы, соответствующей второму способу оценивания доверительного интерва-

ла:

 

 

 

P fjmx¤ ¡ mxj < "g = 2© µ

p

 

;

" n

¾x

где ¾x – стандартное отклонение случайной величины X.

Если X имеет нормальное распределение, формула для доверительного интервала - точная. Если закон распределения X отличен от нормального, формула является приближ¸нной, поскольку выведена в предположении, что сумма нескольких независимых значений случайной величины X, содержащихся в выборке, имеет распределение, близкое к нормальному (что вытекает из центральной предельной теоремы).

В технических приложениях дисперсия случайной величины X может быть известной, например, если разброс X в экспериментах возникает вследствие неточности измерений. В этом случае исследователь может провести определ¸нное число опытов специально для того, чтобы оценить точность используемых приборов, а полученное значение дисперсии затем использовать для оценки точности выводов по оценке математического ожидания. Однако, в большинстве случаев, математическое ожидание и дисперсия случайной величины определяются одновременно, по одной и той же выборке. В этом случае в формуле (5) стандартное отклонение ¾x заменяется его оценкой sx, о которой см. ниже, и формула для оценки доверительного интервала принимает вид:

P fjmx¤ ¡ mxj < "g = 2©

µ"sxn

:

(6)

 

 

p

 

 

 

 

 

 

 

 

 

 

 

47

Когда случайная величина X распределена по нормальному закону, точное выражение для доверительного интервала получается с помощью распределения Стьюдента. Теоретически доказано, что случайная вели-

чина

p m¤ ¡ mx

T = n x ; s

где s – “исправленная”оценка стандартного отклонения, полученная по выборке, имеет распределение Стьюдента с n ¡ 1 степенями свободы. Таблицы критических значений распределения Стьюдента имеются во всех учебниках и в приложении к этому пособию.

Плотность распределения Стьюдента – ч¸тная функция, поэтому вероятность выполнения неравенства определяется формулой

½

 

¯

 

s

¯

°¾

 

P p

 

¯

mx¤

¡ mx

¯

 

 

n

¯

¯

< t = °;

где t° определяется из таблицы¯

критических¯

значений распределения

Стьюдента.

Заменяя неравенство в фигурных скобках равносильным, получаем удобное выражение для доверительного интервала математического

ожидания:

½mx¤ ¡ p°n

< mx < mx¤ + p°n¾

= °:

(7)

P

 

t

 

 

t

 

 

 

 

При объ¸мах n выборки больше нескольких десятков различие между формулами (6) и (7) становится незначительным. При малых n доверительные интервалы, полученные с помощью этих формулах демонстрируют плохую точность определения математического ожидания, причиной этого является малый объ¸м выборки. И в той и другой формуле объ¸м выборки n входит под квадратным корнем. Это означает, что для повышения точности определения математического ожидания на порядок объ¸м выборки надо увеличить на два порядка.

Данное свойство является универсальным, оно выполняется и в других задачах статистического оценивания

Пример 16. Для выборки примера 12 точечная оценка математического ожидания случайной величины X равна m¤x=174; 95, а точечная оценка дисперсии равна s2x=142; 576. Требуется построить доверительный интервал для математического ожидания, зная его точечную оценку.

Решение: Оценка математического ожидания получена по выборке примера 12 объ¸ма 20, оценка дисперсии оценки математического ожидания получается делением оценки дисперсии s2x на объ¸м выборки:

 

 

s2

142; 576

 

s2

=

 

x

=

 

 

= 7; 12738;

 

 

 

 

mx

 

 

n

20

 

 

 

 

 

48

откуда s = sx =2; 674.

mx pn

Построим доверительный интервал, основываясь на неравенстве Чебыше-

ва.

В неравенстве Чебышева

s2 P fjm¤x ¡ mxj > "g < "x2

можно подобрать величину " из условия, что выражение в правой части равно

s2 7; 129

0,05: "2=0;m95x = 0; 05 =7; 502 и "=11; 94. Таким образом, с помощью неравенства Чебышева получилась оценка доверительного интервала:

P fjm¤x ¡ mxj > 11; 94g < 0; 05;

или

P fjm¤x ¡ mxj < 11; 94g > 0; 95:

Это оценка доверительного интервала, потому что в ней фигурирует не равенство, а неравенство в правой части. Оценка является очень грубой, ширина доверительного интервала, равная 2 ¢ 11; 94 слишком велика.

Оценим доверительный интервал, опираясь на свойство близости распределения оценки m¤x к нормальному распределению, так как оценка представляет сумму 20 независимых случайных величин. Используя правило двух сигм, по-

лучаем:

P fjmx ¡ m¤xj < 2smx = 2 ¢ 2; 27 = 5; 34g = 0; 95:

Ширина доверительного интервала равна 2¢5; 34, (наполовину меньше, чем полученная из неравенства Чебышева).

Если использовать предположение о нормальности распределения случайной величины X (в этом случае оценка математического ожидания подчиняется закону Стьюдента), из таблицы критических точек распределения Стьюдента для доверительной вероятности 0,95 коэффициент °, на который нужно умножить стандартное отклонение, при объ¸ме выборки 20 равен 2,09

P fjmx ¡ m¤xj < 2; 09smx = 2; 09 ¢ 2; 27 = 5; 34g = 0; 95:

Этот доверительный интервал не отличается от доверительного интервала, полученного в предыдущем случае. Различие становится заметным при объ¸- ме выборки порядка 10 и меньше, но при этом сам доверительный интервал становится большим из-за недостаточного числа наблюдений.

49

Доверительный интервал для оценки дисперсии

Используя второй подход к построению доверительного интервала, получаем из предположения нормальности распределения оценки s2:

P fs2 ¡ t°s2 < ¾2 < s2 + t°s2g = °;

где t° определяется по ° обычным способом с использованием функции Лапласа.

Согласно третьему способу оценивания доверительного интервала, если известно, что случайная величина X распределена по нормальному закону, можно определять доверительный интервал точно, используя тот факт, что случайная величина

V = (n ¡ 1)s2

¾2

имеет распределение Â2 с 1 степенями свободы.

Распределение Â2 несимметричное. Обычно доверительный интервал, соответствующий вероятности ¯ выбирается из условия, чтобы вероятности выхода величины V вправо и влево за пределы доверительного

интервала были одинаковы, и равны: ®2 = 1 ¡2 ¯ . Границы этого интервала определяются из таблицы критических точек распределения Â2.

Пример 17. Рассчитать интервальную оценку дисперсии роста человека по выборке, приведенной в примере 12.

Решение:

Точечная оценка математического ожидания для выборки примера 12 получена в примере 14 по формуле (1): m¤x=174; 25, оценка дисперсии, получена в примере 15 по формуле (5) – s2x=142; 576.

Будем строить доверительные интервалы с доверительной вероятностью 0,95, что для случая нормального распределения соответствует интервалу 2¾ относительно математического ожидания.

Поскольку оценки математического ожидания и дисперсии получены по выборке примера 12 объ¸ма 20, оценка дисперсии оценки математического ожидания получается делением оценки дисперсии s2x на объ¸м выборки:

 

 

 

 

 

s2

142; 576

 

 

 

s2

=

 

x

=

 

 

= 7; 12738;

 

 

 

 

 

 

 

 

mx

 

20

20

 

 

 

 

 

 

sx

 

 

 

 

 

 

 

 

откуда smx =p

 

=2; 674.

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

50