Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2003_-_Gmurman__TV_i_MS

.pdf
Скачиваний:
19
Добавлен:
27.03.2015
Размер:
16.8 Mб
Скачать

то первое слагаемое принимает вид

 

~тj (Xj- х1)2 = N lDlrp + N 1 1-Х)I.

(**)

Аналогично можно представить второе слагаемое чи­

слителя (*) (вычтя и прибавив Х2):

~ni (Xi-x)1 = N1D.rp+N. lI- х)l.

Подставим (**) и (***) в (*):

Dобщ = (N lDlrp +N2D2ГP)/n +

+ (N1 1- х)2 + N 2(Х.- Х)I)/n = Dвигр +Dмеж1,1"

Итак,

Dобщ= DBBrp + D.ежгр

Пример, иллюстрирующий доказанную теорему, приведеи

в предыдущем параграфе.

3 а м е ч а н н е. Теорема нмеет не ТOJJЬKO теоретическое, но и

важное практическое зиачение. Например, еслн в резуnьтате набто­

деНIJА получены несколько групп значеинй прнзнака, то ДJlЯ вычис­

пения общей дисперсни можно группы в единую совокупиость не

объединять. С другой стороны, если совокупность имеет бonьmоА

объем, то целесообразно разбить ее на несколько ·групп. В том и

другом случаях непосредствеиное вычисление с6щей дисперсии заме­

ияется вычислением дисперснй отдельных групп, что с6nегчает рас­

четы.

§ 13. Оценка генеральной дисперсии по исправленной выборочной

Пусть И3 генеральной совокупности в резуль­

тате n независимых наблюдений над количественным при­ знаком )( извлечена повторная выборка объема n:

значения

признака. . .

. ..

. X1 Х... Xk

частоты.

. . . • • . .

. . . .

. n 1 111 • •• nk

При этом n1 +n. + ... +nk =

n.

 

Требуется по данным выборки оценить (приближенно

найти) неизвестную генеральную дисперсию D r Если в ка­ честве оценки генеральной дисперсии принять выборочную

дисперсию, то эта оценка будет приводить к систематиче­

ским ошибкам, давая заииженное значение генеральной

дисперсии. Объясняется это тем, что, как можно дока­

зать, выборочная дисперсия является смещенной оценкой

D r , другими словами, математическое ожидание выбороч­ ной дисперсии не равно оцениваемой генеральной дис-

14*

211

леиной дисперсией, еcnи примерно
212

персии, а равно

Легко «исправить» выборочную дисперсию так, чтобы

ее математическое ОЖИДание было равно генеральной

дисперсии. Достаточно для этого умножить D B на дробь n/(n-l). Сделав это, получим исправленную дисперсию,

которую обычно обозначают через 511:

 

 

k

вll = n

D _ n

~ n{ (х{ - хв)2

:..1;::=.:..'_____

n-I

b-n_1

n

Исправленная дисперсия является, конечно, несме­

щенной оценкой генеральной дисперсии. Действительно,

М[Sl] = М [n~I D B ] = n~1М [D B ] = n~I • n-;; I Dr= D r.

Итак, в качестве оuенки генеральной дисперсии при­

нимают исправленную дисперсию

ВII=( ±n{ (X;-XB)I)/<n-l).

t =,

Для оuенки же среднего квадратического отклонения

генеральной совокупности используют «исправленное»

среднее квадратическое отклонение, которое равно квад­

ратному корню из исправленной дисперсии:

Подчеркнем, что S не является несмещенной оценкой;

чтобы отразить этот факт, мы написали и будем писать

далее так: «исправленное» среднее квадратическое откло­

нение.

3 а м е ч а н и е. Сравиивая формулы

D B(~n{ (x{-хв)'А)/n

и S2=(~ n{ (Х{-Х)II )/(n-О,

видим, что они ОТличаются

лишь зиаменателями. Очевидно, при

достаточно большнх значеииях n объема выборки выборочная и исправ­

ленная дисперсии различаются мало. Ив. практике пользуются исправ­

n < 30.

§ 14. Точность оценки, Аоверительная

вероятность (надежность). Доверительный

интерваJl

Точечной называют оценку, которая определяется о Д н и м ч и с л о м. Все оценки, рассмотренные выше,­ точечные. При выборке малого объема точечная оценка

может значительно отличаться от оцениваемого параметра,

т. е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интер­

вальными оценками.

Интервальной называют оценку, которая определяется

Д в у м я ч и с л а м и - концами интервала. Интервальные

оценки позволяют установить точность и надежность

оценок (смысл этих пб>нятий выясняется ниже).

Пусть найденная по данным выборки статистическая

характеристика е· служит оценкой неизвестного пара­

метра е. Будем считать е постоянным числом (е может

быть и случайной величиной). Ясно, что е· тем точнее

определяет параметр е, чем меньше абсолютная величина

разности

1е-е·,.

Другими

словами, если

6> О и

Iе-е*,

< 6, то чем меньше б, тем оценка точнее. Таким

образом,

положительное число 6 характеризует точность

оценки.

 

 

 

 

Однако статистические методы не позволяют катего­

рически

утверждать,

что оценка е· удовлетворяет нера­

венству

j е-е·, < 6;

можно

лишь говорить О

вероят­

ности у, с которой это неравенство осуrцествляется.

Надежностью (доверительной вероятностью) оценки е по е· называют вероятность у, с которой ocyrцecTB­

ляется неравенство 1e-e·1 < 6. Обычно надежность

оценки задается наперед, причем в качестве у берут

число, близкое к единице. Наиболее часто задают надеж­

ность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что ,e-e·1 < 6, равна '\'~

Р[,е-е·, < 6]=у.

Заменив неравенство '8-е·, < 6 равносильным ему двой­

ным неравенством - 6

< 8-е·

< 6, или 8·-6

< 8 <

< е· + 6, имеем

 

 

 

р [е·- 6 < е < е· + 6] = у.

Эго соотношение следует понимать так: вероятность того,

что интервал (е·-6, е·+6) заключает в себе (покры­

вает) неизвестный параметр в, равна у.

213

доверительным называют интервал (8*-б, е*+б),

который покрывает неизвестный параметр с заданной

надежностью у.

3 а r..t е ч а н и е. Интервал (е-- 6,

е- +6) имеет случайные

концы (их называют доверительными

границами). Действительно.

в разных выборках пмучаются разnичные ЗНачеиия е-. Следова­ тельно, от выборки к выборке будут изменяться и концы довери­

тельного интервала, т. е. доверительиые граиицы сами ЯВJIяются

случайными величинами-фуикnиями от Хl. Х2, •••• "".

Так как случайиой величиной является ие оцеииваемый пара­

метр е. а доверительный интервал. то 60JJее правильно говорить

ие о вероятности попадания е в доверительный иитервan, а о вероят­ ности того, что доверительный интервал покроет е.

Метод доверительных интервалов разработал амери­

канский статистик Ю. Нейман, исходя из идей англий­

ского статистика Р. Фишера.

§ 15. Доверительные интерваJlbl АЛЯ оценки

математического ожиnaния нормальиого

распределения при известном а

Пусть количественный признак Х генеральной

совокупности распределен нормально, причем среднее

квадратическое отклонение а этого распределения известно.

Требуется оценить неизвестное математическое ожидание

а по выборочной средней х. Поставим своей задачей найти

доверительные интервалы, покрывающие

параметр а

с надежностью у.

_

Будем рассматривать выборочную среднюю Х как слу­

чайную величину Х (х изменяется от выборки к выборке)

и выборочные значения признака Хl' Х., ••• , Х"- как

одинаково распределенные независимые случайные вели­

чины Х1, Ха' ... , Х" (эти числа также изменяются от

выборки к выборке). Другими словами, математическое

ожидание каждой из ~тих величин равно а и среднее

квадратическое отклонение-а.

Примем без доказательства, что если случайная вели­

чина Х распределена нормально, то выборочная средняя

Х, найденная по ·независимым наблюдениям, также рас­

пределена нормально. Параметры распределения Х таковы

(см. гл. VIIl, § 9):

М (Х) =а. а (Х) = а!Vn.

214

Потребуем, чтобы выполнялось соотношение

Р(/Х-аl < 6) = '\'.

где '\' - заданная надежность.

Пользуясь формулой (см. Г.l. ХII. § б)

Р(I Х-аl < 6)=2Ф(6/0),

заменив Х на Х и о на о (Х) = о(vn. получим Р <1 Х-а 1< 6) = 2ф (6 Vп/o) = (t),

где t = f> Vn: /0,

Найдя из последнего равенства 6 = tcr/Vn:, можем на-

писать

Р (1 Х-а 1< 'о/vn> = (t).

Приняв во внимание. что вероятность Р задана и равна '\'. окончательно имеем (чтобы получить рабочую

формулу. выборочную среднюю вновь обозначим через х)

Р (x-to/Vn < а < х+ to/Vn) = (t)='\',

Смысл полученного соотношения таков: с надежностью '\' можно утверждать, что доверительный интервал

(x-to/Vn:. х + to/Vn) покрывает неизвестный параметр

а; точность оuенки 6 = to/Vn,

Итак, поставленная выше задача полностью решена.

Укажем еще, что

число t

определяется

из равенства

2ф и) = у, или Ф (t) = 1'/2; по

таблиuе функuии Лапласа

(см. приложение 2)

находят

аргумент '.

которому соот­

ветствует значение функuии Лапласа, равное у/2.

3 а м е ч а и н е 1. Оценку Iх-а I < tu/ упназывают классиче­

ской. Из формулы 6=to/ Уn, определяющей точность классической

оценки, можно сделать следующие выводы:

1) при возрастании объема выборки n число б убывает и. следо­

вательно, точность оценки увеличивается;

2)

увеличение надежности оценкн

у = (t) приводит к увеличе­

нию t

(Ф (t)-возрастающая функция),

следовательно, и к возраста­

нию б; другнми с..10вами, увеличение надежности классической оцеики

влечет за собой уменьшение ее точности.

Пример. Случайная велнчина Х имеет нормальное распределение

с известным средним квадратическнм отклонением 0=3. Найти )lOвe­

рительные интервалы для оценки неизвестного математического ожн-

Дания а по выборочным средним х, если объем выборки n=З6 и задана надежность оценкн у = 0,95.

215

Реш е н и е. Найдем t. Из соотношения 2ф (t) = 0,95 пмучим

Ф (t) = 0,475. По таблице приложения 2 находим t = 1,96.

Найдем точность оценки:

6=to/ Уn =(1,96.3)/ V 36=0,98.

Доверительный интервал таков: (х-О,98; Х+О,98). Например, если x=4,I, то доверительный интервал имеет следующие Довернтельные

границы:

x-O,98=4,I-O,98= 3,12; Х+О,98= 4,1 +0,98 =5,08.

Таким образом, зиачения неизвестного параметра а, согласую­

щиеся с данными выборки, удовлетьоряют неравенству 3,12 < а < 5,08.

Подчеркнем, что было бы ошибочным написать Р (3,12 < а < 5,08) = 0,95. Действительно, так как а- постояиная величина, то либо она заклю­

чена

в

найденном интервале (тогда событие 3,12 < а < 5,08

досто­

верно

и

его вероятность

равиа единице),

либо в нем

не заключена

(в этом

случае событие

3,12 < а < 5,08

невозможно

и его

вероят­

иость равна нулю). Другими словами, доверительную вероятность не

следует связывать с оценнваемым параметром; она связана лншь

с границами доверительного интервала, которые, как уже было ука­ зано, изменяются от выборки к выборке.

Поясним смысл, который имеет заданная надежность. Надеж­ ность у = 0,95 указывает, что если произведено достаточно большое число выборок, то 95% из них определяет такие доверительные интер­

валы, в которых параметр действнтельно заключен; лишь в 5% слу­ чаев он может выйти за границы доверительного интервала.

3 а м е ч а и и е 2. Если требуется оценить математнческое ожида­

ние с наперед заданной точностью 6 н надежностью у, то минималь­ ный объем выборки, который обеспечит эту точность, находят по

формуле

n = 11101/62

(следствие равенства 6 = to/ Yn).

§ 16. Доверительные интерваJlЫ ДJIЯ оценки

математического ожидания нормального

распределения при неизвестном о

Пусть количественный признак Х генеральной

совокупности распределен нормально, причем среднее

квадратическое отклонение (1 неизвестно. Требуется оце­

нить неизвестное математическое ожидание а с помощью

доверительных интервалов. Разумеется, невозможно вос­ пользоваться результатами предыдущего параграфа, в ко­

тором (1 предполагалось известным.

Оказывается, что по данным выборки можно построить случайную величину (ее возможные значения будем обо-

216

значать через t):

Т= К-а

S/yn'

которая имеет распределение Стьюдента с k = n -1 сте­

пенями свободы (см. пояснение в конце параграфа); здесь

Х-выборочная средняя, S-«исправленное» среднее

квадратическое отклонение, n-объем выборки.

ПЛотность распределения Стьюдента

S (t, n)=В" [1 + n~l]-"/1.

где В" =

г (n;2)

 

уп(n -1) Г«n-l)/2)

 

мы видим, что распределение Стьюдента определяется

параметром n-объемом выборки (или. что то же. чис­

лом степеней свободы k.:.- n - 1) и не зависит от неиз­ вестных параметров а и а; эта особенность является его

большим достоииством. Поскольку S (t, n)-четная функ­

ция от

t. вероятность

осуществления неравенства

'

х-а\

< у определяется так (см. гл. § XI. 2, замечание):

s/Yп

 

 

--

 

 

р (Is~-;-~I < t y )

=2 J. S(t, n)dt=y.

Заменив неравенство в круглых скобках равносильным

ему двойным неравенством. получим

р -tyS/Vn < а < Х + tyS/Vn) = у.

Итак, пользуясь распределением Стьюдента, мы нашли

Аоверителh.НЬ1Й интервал (x-t.,s /Vn. х+ tyS/Vn). по­

крывающий неизвестный параметр а с надежностью у.

Здесь случайные величины Х и S заменены неслучайными

величинами х и S. найденными по выборке. По таблице

приложеиия 3 по заданным n и у можно найти ty.

Пример. Колнчествеиный признак Х генеральной совокупности

распределен нормально. По выборке объема n = 16 иайдены выбороч-

ная средняя х 20,2 и снсправлениое» среднее квадратическое откло­

Нение 5=0,8. Оценить неизвестное математическое ожидание при

помощи доверительиого интервала с иадежностью 0,95.

Ре w е н н е. Найдем ty. Польэуясь таблицей прнnожения 3, по

,=0,95 н n=16 находим t.,=2,13.

217

Найде\! доверительные границы:

х- tyS/ Уn =20,2-2,13.0,81 Y16= 19,774.

х+ tys/ Уn =20,2+2,13 0,8/ у16= 2О.62б.

Итак, с надежностью

0,95

неизвестиый параметр а заключен

в доверительном интервале

19,774 < а < 20,626.

3 а м е ч а н и е.

Из предельных соотиошеиий

пт В" =

1

11т (! + '" ) -,,/2 -t"/2,

n-+ OD

У2п' n-+Ф

n - l

следует, что при неограниченном возрастании объема выборки n

распреДР.JJение СтьюдеИТа стремится к нормальному. Поэтому прак­

тичесКИ ПрИ n > зо можно вместо распределения

Стьюдента

ПOJJьзо-

ваться нормальным

распределением.

.

 

 

Одиако важно подчеркнуть,

что Д л я

м а л ы х

в ы б 0-

р о к (n < 30).

в особенности

для малых значений n.

замена распределения нормальным приводит к грубым

ошибкам. а именно к неоправданному сужению довери­

тельного интервала. т. е. к повышению точиости оценки.

Например, если n = 5 и '\' -== 0,99. то. ПOJlьзуясь распре­

делением Стьюдента.

найдем t y =4.6,

а используя функ­

цию Лапласа, найдем

t v = 2.58, т. е.

доверительный ин­

тервал в последнем случае окажется более узким, чем

иайденный по распределению Стьюдента.

То обстоятельство, что распределение Стьюдента при

малой выборке дает не ВПOJ1ие определенные результаты

(широкий доверительный интервал), вовсе не свидетельст­

вует о слабости метода Стьюдента. а объясняется тем. что

малая выборка. разумеется. содержит малую информацию об иитересующем нас признаке.

Пояснение. Раиее было указано (см. гл. ХII. § 14),

что

если

Z-нормальная

величина, причем

М (Z) =0,

(J (Z) = 1.

а V -независимая

от Z величина, распределен­

ная

по закону 'Х.t С k степенями свободы, то

величина

 

 

Т=

z

 

 

 

 

YV/k

 

распределена по закону Стьюдента с k степенями свободы. Пусть количественный признак Х генеральной сово­ купности распределен нормально, причем М (Х) = а, а (Х) = а. Если из этой совокупности извлекать выборки

объема n и по ним находить выборочные средние, то можно доказать, что выборочная средняя распределена

нормально, причем (см. гл.

УН 1. § 9)

М (ХВ) =а,

(J В) =a/Vn.

218

Тогда случайная величина

Z=XB-~

(**)

о/уn

 

также имеет нормальное распределение

как линейная

функция нормального аргумента ХВ (см. гл. ХН, замечание), причем М (Z) = О, о (Z) = 1.

доказано, что случайные величины Z и

V = «n-l) S2)/01l

§ 10,

(***)

независимы (SII- исправленная выборочная дисперсия) и

что величина V распределена по закону ох· с k = n - l

степенями свободы.

Следовательно, подставив (**) и (***) в (*), получим

величину

которая распределена по закону Стьюдента с

степенями свободы.

k = n-l

§ 17. Оценка истинного значения измеряемой

величины

Пусть производится n независимых равноточных измерений некоторой физической величины, истинное зна­

чение а которой неизвестно. Будем рассматривать резуль­

таты отдельных

измерений как случайные

величины

X 1 , ХII, ... , Хn

Эти величины независимы

(измерения

независимы), имеют одно и то же математическое ожида­ ние а (истинное значение измеряемой величины), одина­

ковые дисперсии 02 (измерения равноточны) и распреде­

лены нормально (такое допущение подтверждается опы­

том). Таким образом, все предположения, которые были

сделаны при выводе доверительных интервалов в двух

предыдущих параграфах, выполняются, и, следовательно,

мы вправе использовать полученные в них формулы.

Другими словами, истинное значение измеряемой вели­

чины можно оценивать по среднему арифметическому результатов отдельных измерений при помощи довери­

тельных интервалов. Поскольку обычно о неизвестно, следует пользоваться формулами, приведенными в § 16.

Пример. По данным девяти неэависнмых равноточных нзмерений

физической велнчины найдены среднее арифметической результатов

219

отдельных измерений х=42,319 н «исправленное» среднее квадрати.

чеСкое отклонение s = 5,0. Требуется ОЦенИть истинное значение

измеряемой Величины с надежностью у =0,95.

Реш е и и е. Истинное значение измеряемой величины равно ее

математическому ожиданию. Поэтому задача сводится к оценке мате·

матического ожидания (при неизвестном а) при помощи доверитель­

ного нитервала

х- tyS/Yn < а < x+'j>S/Yn,

покрывающего а с заданной надежностью у=0,95.

Пользуясь таблицей приложеии я 3, по У = 0,95 и n = 9 находим

t y = 2,31 .

Найдем тОчность оценки:

(5/ Уn) = 2,31. (5/ У9) = 3,85.

Найдем доверительные границы:

х- tvS/ Уn =42,319-3,85=38,469;

х+ /ys/ уп = 42,319+3,85=46,169.

Итак, с надежностью 0,95 истинное значение нзмеряемой вели­

чины заключено В доверительном интервале

38,469 < а < 46,169.

§ 18. Доверительные интервалы для оценки

среднего квадратического отклонения а нормального распределення

Пусть количественный признак Х генеральной

совокупности распределен нормально. Требуется оценить

неизвестное генеральное среднее квадратическое откло­

нение а по «исправленному» выборочному среднему квад­ ратическому отклонению 8. Поставим перед собой задачу

u

наити доверительные интервалы, покрывающие параметр

а с заданной надежностью "(.

Потребуем, чтобы выполнялось соотношение

Р(lа-81<б)=,,(, или Р(8-б<а<s+б)=,,(.

Для того чтобы можно было пользоваться готовой

таблице~. преобразуем двойное неравенство

8-б < а < 5+б

вравносильное неравенство

8(I-б/8) < а < 5(1 +б/8).

Положив б/5 = q, получим

8 (l-q) < а < 8 (1 +q).

220