Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

08_Мат_Стат_Выборки

.pdf
Скачиваний:
14
Добавлен:
23.02.2015
Размер:
263.64 Кб
Скачать

ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Лекция 8 ОСНОВНЫЕ ЗАДАЧИ

МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ. ВЫБОРКИ И ИХ ХАРАКТЕРИСТИКИ

В лекции рассматриваются основные понятия математической статистики, описываются ее основные задачи, разбираются способы предварительной обработки данных для представления их в обозримом виде.

8.1.Задачи математической статистики

8.2.Генеральная и выборочная совокупности. Способы отбора

8.3.Статистическое распределение выборки

8.4.Полигон и гистограмма

8.5.Эмпирическая функция распределения

8.6.Числовые характеристики статистического распределения выборки

8.7.Числовые характеристики генеральной совокупности

8.1.Задачи математической статистики

Математическая статистика – раздел математики, тесно связанный с теорией вероятностей. Статистика изучает методы сбора и анализа результатов наблюдений массовых случайных явлений с целью выявления существующих закономерностей. Различие между теорией вероятности и математической статистикой можно пояснить простым примером.

Типичная задача теории вероятности – по известным вероятностям простых случайных событий вычислить вероятность более сложного события. Рассмотрим простую модель – ловля рыбы на удочку. Пусть известна вероятность выловить окуня, скажем, p = 0,2 . Какова вероятность события «среди

20 пойманных рыб оказалось 5 окуней»?

Типичная задача математической статистики – на основании результатов наблюдений оценить вероятность случайного события или характеристики случайной величины. В только что упомянутой модели – ловля рыбы – задача статистики может быть сформулирована так: среди 20 пойманных рыб оказалось 5 окуней. Что можно сказать о вероятности поймать окуня и насколько этой оценке можно доверять?

Основные задачи математической статистики. Выборки и их характеристики

83

При решении любой задачи математической статистики имеется два источника информации. Первый источник – результаты наблюдений (экспериментов), причем процесс наблюдений может корректироваться на основании предварительных результатов (так называемый последовательный анализ). Второй источник – априорная (доопытная) информация о свойствах изучаемого объекта, накопленная к текущему моменту. Эта информация отражается в статистической модели, выбираемой при решении задачи. Следует заметить, что степень обоснованности применения априорной информации зависит от компетентности и добросовестности конкретного исследователя и неверные исходные допущения могут существенно исказить результат статистического анализа.

Перечислим некоторые задачи математической статистики, наиболее часто встречающиеся в ее приложениях.

Предварительная обработка данных – упорядочение результатов наблюдения или эксперимента, представление их в обозримом виде.

Оценка неизвестной величины (вероятности события, функции распределения случайной величины, параметров распределения, степени взаимозависимости двух или нескольких случайных величин и т.п.).

Проверка статистических гипотез (о виде функции распределения, о вероятности события и т.п.), т.е. установление меры надежности оценки, сделанной на основании опытных данных.

Установление формы и степени связи между случайными величинами. Современная математическая статистика может быть определена как

теория принятия решений в условиях неопределенности. Она включает в себя также методы определения числа наблюдений, необходимых для достаточно надежной оценки, до начала исследований (планирование эксперимента) или в процессе исследований (последовательный анализ), что позволяет уже на этапе сбора информации уменьшить объем собираемых данных без снижения надежности оценок.

8.2. Генеральная и выборочная совокупности. Способы отбора

Если нужно изучить, как в совокупности однородных объектов распределен некоторый признак, характеризующий эти объекты, не всегда возможно исследовать каждый объект (объектов может быть слишком много, при проверке объект может быть уничтожен, и т.п.). В этих случаях отбирают часть объектов и по свойствам отобранных объектов судят о свойствах всех объектов.

ОВыборкой или выборочной совокупностью называют совокупность случайно отобранных объектов.

84

Лекция 8

ОГенеральной совокупностью называют исходное множество объектов, из которого производится выборка.

ООбъем совокупности (выборочной или генеральной) – число элементов данного множества.

!Для упрощения вычислений при очень большом объеме генеральной совокупности часто принимают, что ее объем бесконечен. Подобное допущение основано на законе больших чисел, погрешность, им вносимая, практически не сказывается на характеристиках выборки.

При осуществлении отбора возможны два способа.

ОВыборка называется повторной, если случайно отобранный для обследования объект возвращается в генеральную совокупность перед отбором следующего объекта. В противном случае выборка называется бес-

повторной.

!При очень большом объеме генеральной совокупности и небольшом объеме выборки различие между повторной и бесповторной выборками стирается.

Чтобы по данным выборки можно было судить о всей совокупности, необходимо, чтобы члены выборки представляли ее достаточно правильно. Такая выборка называется репрезентативной (представительной).

Для того, чтобы выборка была репрезентативной, необходимы:

1)случайный отбор элементов совокупности,

2)равновероятность попадания в выборку любого элемента генеральной совокупности,

3)достаточно большой объем выборки.

Для обеспечения случайности отбора и равновероятности попадания произвольного элемента в выборку применяются различные методы отбора.

Если элементы извлекаются по одному из генеральной совокупности, говорят о простом случайном отборе (может быть повторным и бесповторным).

Если из генеральной совокупности элементы разбиваются на группы, «серии», серия отбирается случайно и подвергается сплошной проверке, отбор называется серийным. К такому прибегают, например, если продукция производится большим количеством станков одинаковой степени изношенности: случайно отбирается несколько станков и их продукция подвергается сплошной проверке.

Типический отбор осуществляется следующим образом: генеральная совокупность делится на «типические» части, из каждой части производится случайный отбор. Подобный способ отбора применяется, если станки, производящие продукцию, имеют разную степень изношенности: из продукции станков каждой группы производится случайная выборка, что гарантирует присутствие в результирующей выборке продукции каждой группы.

Основные задачи математической статистики. Выборки и их характеристики

85

Механический отбор осуществляется через регулярные интервалы, скажем, проверяется каждая 20-я деталь и т.п. Для обеспечения репрезентативности при механическом отборе необходим контроль периодичности: если на станке периодически заменяется режущий инструмент и период отбора деталей совпадает с периодом замены, то возможно, что отбираться будут детали, обработанные только затупившимся или только свежим инструментом. И в том, и в другом случае процент брака в выборке будет отличаться от среднего по всей совокупности.

Возможны также произвольные комбинации способов отбора.

8.3. Статистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка и производятся

наблюдения за случайной величиной X,

причем значение x1 наблюдалось n1

раз, значение x2 n2 раз,…, значение xk

nk

k

 

раз, ni

= n – объем выборки.

Возможные значения случайной величины x1 ,

i=1

принято называть ва-

x2 ,…, xk

риантами, а последовательность вариант, записанную в порядке возрастания

вариационным рядом. Числа n1 , n2 ,…, nk называются частотами, а wi = nni

относительными частотами k wi =1 .

i=1

Перечень вариант и соответствующих им частот (или относительных частот) называется статистическим распределением выборки или стати-

стическим рядом.

Обычно статистический ряд записывается в виде таблицы:

 

 

X

x1

x2

xi

 

xk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ni

n1

n2

ni

 

nk

 

или

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

 

x1

 

x2

xi

xk

 

 

wi

 

w1

 

w2

wi

wk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пример:

 

 

 

При 100 подбрасываниях игральной кости на верхней грани единица выпала

 

m1 = 22 раза, двойка -

m2 =16 , тройка - m3 =13 , четверка - m4 = 24 , пятерка

 

- m5 =12 и, наконец,

шестерка - m6 =13раз. Считая число выпавших очков

 

случайной величиной, построить для нее статистический ряд.

 

 

 

86

 

 

 

 

 

 

 

Лекция 8

 

 

 

 

 

 

 

 

 

 

X

1

2

3

4

5

6

 

 

ni

22

16

13

24

12

13

 

 

wi

0,22

0,16

0,13

0,24

0,12

0,13

 

В том случае, если число значений случайной величины X велико, или есть основания полагать, что случайная величина является непрерывной и может принять любое значение из некоторого промежутка, строят интервальный статистический ряд. Значения вариант группируют по промежуткам (обычно одинаковой длины), в первой строке указывается промежуток, во второй – число наблюдений, попавших в данный промежуток.

Для определения оптимальной длины частичного промежутка можно использовать формулу Стерджеса. Пусть значения случайной величины X располагаются на отрезке [a,b], объем выборки – n .

Длина частичного интервала

∆ =

 

 

b a

,

1

+log2 n

 

 

 

число интервалов k =1 +log2 n (берется ближайшее к log2 n целое),

первый интервал начинается в точке xmin = a 2 .

Пример:

Пусть измерен рост 50

случайно выбранных

человек с точностью до

1 см (результаты приведены ниже).

 

175, 179, 170, 163, 159,

171, 170, 152, 168, 172,

160, 167, 165, 167, 156,

170, 181, 153, 163, 167,

179, 172, 170, 186, 180,

187, 178, 175, 168, 168,

171, 173, 178, 170, 183,

181, 180, 160, 165, 158,

173, 160, 167, 172, 180,

169, 168, 170, 188, 176.

 

 

Рост является непрерывной случайной величиной, но в силу ограниченной точности измерений любые значения этой величины будут принадлежать некоторому дискретному множеству. Значения роста в выборке изменяются от 152 см до 188 см, т.е., принимают 37 значений, объем выборки – 50 человек. Нахождение статистических характеристик данной выборки в таком виде представляет заметные вычислительные трудности.

Упорядочим данные выборки по возрастанию (ранжируем выборку):

152, 153, 156, 158, 159,

160, 160, 160, 163, 163,

165, 165, 167, 167, 167,

167, 168, 168, 168, 168,

169, 170, 170, 170, 170,

170, 170, 171, 171, 172,

172, 172, 173, 173, 175,

175, 176, 178, 178, 179,

179, 180, 180, 180, 181,

181, 183, 186, 187, 188.

 

 

Построим интервальный статистический ряд.

∆ =

188 152

36

6,36 6 , k 6,644 7 , xmin =152 3 =149 .

1+log2 50

6,644

 

 

 

Основные задачи математической статистики. Выборки и их характеристики

 

87

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

[149,155)

[155,161)

[161,167)

[167,173)

[173,179)

[179,185)

185,191

 

 

 

 

[

]

 

 

 

ni

2

6

4

20

7

8

 

3

 

 

 

wi

0,04

0,12

0,08

0,4

0,14

0,16

 

0,06

 

8.4. Полигон и гистограмма

Для наглядности часто используют графические изображения статистических рядов: для дискретного ряда - полигон, для интервального ряда - гистограмму.

ОПолигон частот (относительных частот), есть ломаная, отрезки которой соединяют точки (x1 ,n1 ), (x2 ,n2 ),…, (xi ,ni ),… или (x1 ,w1 ), (x2 ,w2 ),…,

(xi ,wi ),… .

ОГистограмма частот (относительных частот) есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные

интервалы длиной xi = xi+1 xi

и высотами hi =

ni

 

 

 

wi

 

 

,

hi

=

 

. Пло-

 

 

 

 

xi

 

 

xi

 

щадь всей гистограммы частот равна n (объему выборки), а площадь всей гистограммы относительных частот равна 1.

На рисунках приведены полигон частот и гистограмма частот для рассмотренных выше примеров статистического ряда и интервального статистического ряда.

88 Лекция 8

8.5. Эмпирическая функция распределения

Пусть задано статистическое распределение случайной величины X. Обозначим через nx число вариант, меньших x , n – общее число наблюде-

ний (объем выборки). Относительная частота события {X < x} равна nnx . При

изменении x меняется и относительная частота, т.е., nnx есть функция от x .

Поскольку эта функция строится по данным опыта, ее называют эмпирической (опытной).

ОЭмпирической функцией распределения (функцией распределения выборки) F * (x) называется относительная частота события {X < x},

F * (x)= nnx ,

где nx – число вариант, меньших x , n – объем выборки.

ОТеоретической функцией распределения называется функция распре-

деления F (x) случайной величины X, вычисленная по генеральной со-

вокупности, т.е., вероятность события {X < x}.

! Поскольку эмпирическая и теоретическая функции распределения определяются единообразно (но по различным совокупностям: эмпирическая

– по выборочной, теоретическая – по генеральной совокупности), свойства эмпирической функции распределения полностью аналогичны

свойствам теоретической функции распределения дискретной случайной

величины X ( F * (x) – неубывающая функция,

0 F * (x)1, если x1

наименьшая варианта, а xk – наибольшая, то

F * (x)= 0 при x x1

и

F * (x)=1 при x > xk ).

 

 

При возрастании объема выборки различия между F * (x) и F (x) уменьшаются. Справедлива следующая теорема (Гливенко).

ТПри неограниченном возрастании объема выборки эмпирическая функция распределения F * (x) сходится по вероятности к теоретической функции распределения F (x):

ε > 0 x R limn→∞ P(F * (x)F (x) <ε)=1.

Пример:

Построим эмпирическую функцию распределения для ранее рассмотренного примера (подбрасывание кости). Распределение приведено ниже.

X

1

2

3

4

5

6

ni

22

16

13

24

12

13

wi

0,22

0,16

0,13

0,24

0,12

0,13

Основные задачи математической статистики. Выборки и их характеристики

89

Для x 1 условие {X < x} не может быть выполнено, т.е., F * (x) = 0 при x 1; для 1 < x 2 условие {X < x} выполняется в 22 случаях из 100, т.е., F * (x)= 0,22 при 1 < x 2 . Продолжая, получаем

0,

x 1,

 

 

0,22, 1 < x 2,

 

2 < x 3,

0,38,

F * (x)= 0,51, 3 < x 4,

0,75,

4 < x 5,

 

5 < x 6,

0,87,

 

x > 6.

1,

Для второго примера (интервальный статистический ряд) можно построить гистограмму кумулятивных (накопленных) относительных частот, т.е.,

долю тех элементов выборки, которые попадают в данный интервал или меньше. Как видно из рисунка, ход этой гистограммы повторяет ход эмпирической функции распределения.

1,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,94

1

 

1

 

 

 

 

 

 

 

 

 

 

 

 

0,78

 

 

 

 

 

 

 

 

 

0,8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,64

 

 

 

 

 

 

 

 

 

 

 

 

 

0,6

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,4

 

 

 

 

 

 

 

 

 

 

 

0,16

0,24

 

 

 

 

 

 

 

 

 

 

 

 

 

0,2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,04

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

149—155

155—161

161—167

167—173

173—179

179—185

185—191

 

 

 

 

 

 

 

 

 

 

90

Лекция 8

8.6.Числовые характеристики статистического распределения выборки

Пусть имеется генеральная совокупность объема N, из которой сделана выборка объема n. Статистический ряд, в котором присутствуют значения случайной величины X и относительные частоты их появления, можно рассматривать как закон распределения новой случайной величины XВ (исходную величину переобозначим как ХГ). Очевидно, законы распределения этих величин в какой-то мере близки, но не совпадают.

X

x1

x2

x3

x4

xk

 

 

 

 

 

 

 

ni

n1

n2

n3

n4

nk

 

 

 

 

 

 

 

wi

w1

w2

w3

w4

wk

 

 

 

 

 

 

 

Каждой числовой характеристике случайной величины ХГ соответствует ее выборочный аналог – характеристика случайной величины XВ. При возрастании объема выборки (n N ) числовые характеристики XВ будут сходить-

ся по вероятности к соответствующим характеристикам ХГ.

Наиболее употребительны следующие числовые характеристики выбор-

ки.

О

Выборочное среднее – среднее арифметическое значений выборки:

 

x

+ x

+...+ x

1

k

k

xB =

1

2

n

=

 

ni xi = wi xi .

 

 

 

 

 

 

 

n

n i=1

i=1

Используют также обозначения x , M * (X ), m*x .

ОВыборочная мода Mo* – наиболее вероятное значение в выборке (варианта с наибольшей частотой).

ОВыборочная медиана Me* – значение случайной величины, приходящееся на середину вариационного ряда. Если объем выборки четен,

n = 2m , то Me* =

xm + xm+1

 

, если нечетен, n = 2m +1, то Me* = xm+1 .

2

 

 

 

 

 

 

 

В теории вероятностей для непрерывной случайной величины X ме-

диана

Me

определяется

как

корень

уравнения

P (X < Me)= P (X > Me)=

1 , т.е., события

X < Me и X > Me равнове-

 

 

 

 

2

 

 

 

роятны. Для выборочного статистического ряда (дискретного распределения) такого значения среди xi может не оказаться, чем и вызвано из-

менение способа выбора медианы.

ОВыборочная дисперсия – среднее значение квадрата отклонения

xi xB ,

 

Основные задачи математической статистики. Выборки и их характеристики

 

 

 

91

 

 

 

 

 

 

 

k

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

DB = 1 ni (xi xB )2 = wi (xi xB )2 .

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

Эта формула может быть преобразована к виду

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

DB = 1 ni xi2 (xB )2

= wi xi2 (xB )2 = x2 (x )2 ,

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

где

 

= M * (x2 ), x = M * (x) – выборочные средние соответствующих

 

 

x2

 

 

величин.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

О

Выборочное среднее квадратическое отклонение σ

 

=

D .

 

 

Исправленная выборочная дисперсия

B

 

B

 

 

 

 

 

 

 

 

 

 

О

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

1

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2 =

 

 

DB =

ni (xi xB )2 .

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1 i=1

 

 

 

 

 

 

 

О

Исправленное выборочное среднее квадратическое отклонение

 

 

s = s2 .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Менее употребительны начальные и центральные выборочные моменты

 

 

произвольного порядка.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

О

Начальный выборочный момент порядка k

 

 

 

 

 

 

 

 

 

 

 

 

 

αk* [X ]=

 

 

= 1 n (xi )k .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xk

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

О

Центральный выборочный момент порядка k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

µk* [X ]= (x x )k = 1 (xi x )k .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n i=1

 

 

 

 

 

 

 

О

Все выборочные моменты сходятся по вероятности к соответствующим

 

 

теоретическим моментам, т.е., моментам, вычисленным по генеральной

 

 

 

совокупности,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ε > 0 lim P (

 

αk* [X ]αk [X

]

 

< ε)=1 , ε > 0 lim P (

 

µk* [X ]µk [X ]

 

 

< ε)=1 .

 

 

 

 

 

 

n→∞

 

 

 

 

 

 

 

 

 

 

 

 

n→∞

 

 

 

 

 

 

 

момент

 

 

Очевидно, выборочное

 

 

среднее

есть начальный выборочный

первого порядка, а выборочная дисперсия – центральный выборочный момент второго порядка.

Для интервального статистического ряда все вышеприведенные формулы сохраняются, но в качестве значений x1 , x2 ,…, xk берутся середины соот-

ветствующих промежутков [x1 ,x2 ), [x2 ,x3 ),…, [xk ,xk +1 ], то есть числа x1 +2 x2 ,

x2 + x3 ,…, xk + xk +1 . 2 2