Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Учебное пособие мат. статистика+контрольные работы

.pdf
Скачиваний:
11
Добавлен:
30.11.2016
Размер:
811.62 Кб
Скачать

Приведем их определения.

Все эти распределения выражаются через независимые, нормально распределенные с нулевым математическим ожиданием и единичной дисперсией (стандартные) случайные величины. Будем обозначать их через

ºi, (i = 0; 1; : : : ).

Распределение Â2

Случайная величина Â2(n) представляет сумму квадратов n независимых, гауссовых случайных величин с нулевым математическим ожиданием и единичной дисперсией:

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

 

 

 

 

 

Â2(n) =

 

ºi2:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=1

 

 

 

 

Плотность распределения величины Â2 задается формулой

 

 

 

 

8

 

 

x

 

 

 

 

 

 

 

 

 

 

p(x) =

0;

1· 0

 

x

 

n=2¡1

 

x=2

 

 

 

 

 

<

 

 

³

 

´

 

e¡

 

; x > 0;

 

 

 

 

 

2n=2¡(n=2)

2

 

 

где

¡(x)

– гамма-

функция, определяемая равенством

 

 

:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

¡(t) = Z0

1 x1e¡x dx;

t > 0:

Подсчеты показывают, что математическое ожидание и дисперсия Â2(n) равны:

¹Â2(n) = n; ¾Â22(n) = 2n:

По существу есть не одно распределение Â2, а целое семейство распределений параметризованных числом степеней свободы. Очевидно, что случайная величина, подчиняющаяся Â2 распределению, не может быть отрицательной. Плотность распределения Â2 имеет вид несимметричного колокола, находящегося в первом квадранте. С ростом n этот колокол движется вправо, его вид становится близким к симметричному. При больших n распределение Â2 близко к нормальному. Это свойство следует из центральной предельной теоремы, поскольку Â2 представляет сумму независимых случайных величин.

Поскольку имеется не одно, а много распределений Â2, то в книгах по статистике приводятся неполные таблицы распределения Â2,как и других, описываемых распределений. В них содержатся вероятности попадания в типичные интервалы, используемые в математической статистике.

31

32

Детально этот вопрос будет рассмотрен в следующем разделе, посвященном построению доверительных интервалов и проверке гипотез.

Распределение Стьюдента (t-распределение)

Случайная величина t(n) , подчиняющаяся распределению Стьюдента с n степенями свободы, определяется по набору независимых, гауссовых случайных величин с нулевым математическим ожиданием и единичной дисперсией по формуле:

t(n) =

 

 

º0

 

=

 

 

º0

:

 

 

 

 

 

 

 

1

n

ºi2

1

Â2(n)

 

 

 

 

qn

Pi=1

 

qn

 

Плотность распределения величины t(n) задается формулой

p(x) = ()1=2¡(n=2) µ1 +

n

:

 

¡((n + 1)=2)

x2

¡(n+1)=2

Можно показать, что при n > 2 математическое ожидание и диспер-

сия t(n) равны:

 

n

 

¹t(n) = 0;

¾t2(n) =

:

n ¡ 2

 

 

 

При n = 1 распределение t(1) называется распределением Коши. Интересно, что для этого распределения математическое ожидание и дисперсия не существуют.

Геометрически плотность распределения Стьюдента представляет колоколообразную кривую с “хвостами”, менее прижимающимися к оси x, чем у нормального распределения. Вершина колокола находится при x = 0.

При n ! 1 распределения случайных величин Â2(n) и t(n) стремятся к нормальному распределению с соответствующими математическим ожиданием и дисперсией.

Распределение Фишера (F (m; n))

Случайная величина F (m; n) с (m; n) степенями свободы представляет отношение нормированных сумм квадратов независимых, гауссовых случайных величин с нулевым математическим ожиданием и единичной дисперсией:

 

 

1

 

 

m

º2

 

 

1

 

Â2(m)

 

 

 

m

 

i=1

 

 

m

 

F (m; n) =

 

 

i

=

 

 

 

:

 

1

 

 

n

ºi2

 

1

 

Â2

(n)

 

 

n

Pi=1

 

 

n

 

 

 

 

 

P

 

 

 

 

 

 

 

 

 

Плотность распределения величины F (m; n) задается формулой

p(x) =

8

0; x · 0

 

xm=2¡1

 

¡((m + n)=2)mm=2nn=2

 

 

>

 

 

 

 

 

 

 

 

 

(m+n)=2 ; x > 0:

 

>

 

 

 

 

:

 

¡(m=2)¡(n=2)

(mx + n)

 

<

 

Подсчеты показывают, что математическое ожидание и дисперсия F (m; n) при n > 4 равны:

¹F (m;n) =

n

; ¾2

=

2n2(m + n ¡ 2)

:

 

 

 

n ¡ 2

F (m;n)

 

m(n ¡ 4)(n ¡ 2)2

 

 

 

ФУНКЦИИ СЛУЧАЙНЫХ ВЕЛИЧИН

Иногда возникает необходимость вычислить закон распределения случайной величины Y , определяемой как функция другой случайной величины X: Y = '(X). Такая задача возникает, например, при моделировании случайных величин в ЭВМ. В ЭВМ обычно есть датчик случайных чисел (команда RND), которая позволяет генерировать последовательность случайных (на самом деле, псевдослучайных), равномерно распредел¸нных на отрезке [0; 1] чисел. Из этой последовательности, применяя описанный ниже подход, можно получить последовательность, имеющую другой требуемый закон распределения.

Наиболее просто получается формула для расч¸та закона распределения, если определять функцию распределения Y по плотности распределения f(x) случайной величины X:

F (y) = P fY < yg = P f'(X) < yg =

Z

 

f(x) dx:

(6)

f'(x)<yg

При внешней простоте, применение этой формулы обычно связано со сложными выкладками (приведение интеграла в правой части к одному или нескольким определ¸нным интегралам и вычисление этих определ¸нных интегралов).

Пример 11. Требуется получить последовательность случайных величин, подчиняющихся экспоненциальному распределению. Плотность распределения экспоненциально распредел¸нной случайной величины равна ¸e¡¸y, а функция распределения равна 1 ¡ e¡¸y.

33

Решение: Требуемая функция '(x) должна удовлетворять уравнению, получаемому из (6): Z

1 ¡ e¡¸y = 1 dx: (7)

f'(x)<yg

Предположим, что искомая функция y = '(x) является монотонно возрастающей. Из этого предположения вытекает, что существует также монотонно возрастающая обратная функция x = '¡1(y). Область, по которой вычисляется интеграл в уравнении (7) f'(x) < yg, может быть представлена в виде f0<x<'¡1(y)g, и уравнение(7) принимает вид:

 

'¡1(y)

 

 

 

 

1 ¡ e¡¸y =

Z0

dx:

 

 

 

Дифференцируя его, получаем:

 

 

 

 

 

¸e¡¸y = '¡10(y);

 

 

 

интегрируя которое, получаем: x='¡1(y)=1

e¡¸y и y =

¡

ln(1¡x)

.

 

¡

 

¸

 

Аналогичный подход может применяться и в многомерном случае.

Например, функция распределения F (z) случайной величины Z, представляющей функцию двух случайных величин: Z='(X; Y ) определяется через двойной интеграл от плотности распределения f(x; y) случайных величин X и Y :

Fz(z) = P f'(X; Y ) < zg =

ZZ

f(x; y) dx dy:

f'(x;y)<zg

 

ЗАКОН БОЛЬШИХ ЧИСЕЛ

Под термином “закон больших чисел” фигурируют много теорем, являющихся теоретическим обоснованием возможности использовать теорию вероятностей для предсказания поведения систем, зависящих от случайных факторов. Некоторые из этих теорем рассмотрены здесь.

Неравенство Чебышева

Пусть случайная величина X имеет математическое ожидание MX и дисперсию DX. Неравенство Чебышева записывается в двух вариантах:

P fjX ¡ MXj < "g ¸ 1 ¡ DX"2 ;

P fjX ¡ MXj > "g · DX"2 :

34

Оно позволяет оценить степень отклонения реализации случайной величины от математического ожидания, то есть служит обоснованием допустимости использования математического ожидания для априорного предсказания случайной величины.

Доказательство получается из серии оценок дисперсии снизу:

DX =

Z

(x¡mx)2f(x) dx=

Z

(x¡mx)2f(x) dx+

 

1

 

 

(mx¡")

 

 

¡1

+ Zx

 

¡1

 

Z1 (x¡mx)2 dx ¸

 

 

(x¡mx)2f(x) dx+

 

 

(m

+")

 

 

 

 

 

(mx¡")

 

(mx+")

 

 

mZx¡"

 

Z1

 

 

 

¸ "2

f(x) dx+0+"2

f(x) dx ¸ "2P fjX ¡ mxj > "g:

 

 

¡1

 

mx+"

 

Отсюда, деля на "2, получаем искомое.

Неравенство Чебышева, как видно из способа оценивания интегралов, является грубым и используется, в основном, для теоретических выводов.

Теорема Чебышева

Теорема Если случайные величины Xi попарно независимы и диспер-

сии их равномерно ограничены,DXi < K, то

 

n!1

n

n

 

i ¡ n

n

xi ¯ ) = 1

 

¯

1

 

 

 

 

1

 

¯

 

 

 

X

 

 

 

 

 

X

 

lim P

¯

 

 

X

 

 

 

 

 

m

¯

< "

 

¯

 

i=1

 

 

 

 

 

 

i=1

¯

 

Доказательство Рассмотрим¯

случайную величину¯

 

 

 

 

 

1

 

n

 

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

Sn =

n

 

 

 

Xi:

 

 

 

 

 

 

 

 

 

 

=1

 

 

Используя свойства математического ожидания и дисперсии, получаем:

 

1 n

1

 

n

1

 

K

 

 

X

 

Xi

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

MSn = n i=1 mxi ; DSn = n2

 

=1 DXi · n2 nK = n :

Применяя в Sn неравенство Чебышева, получаем:

 

 

 

 

P fjSn ¡ MSnj > "g <

DSn

 

K

 

 

 

 

 

 

<

 

:

 

 

 

 

"2

n"2

 

 

35

Из этого неравенства следует, что с ростом n вероятность того, что разность Sn и е¸ математического ожидания будет больше любого заданного числа ", стремится к нулю. Теорема доказана.

Теорема Бернулли (закон больших чисел)

Теорема Если в каждом испытании вероятность наступления события A – постоянна и равна p, то вероятность того, что отклонение относительной частоты wn (отношение числа испытаний, в которых событие A произошло к общему числу испытаний n) от вероятности события A по модулю будет отличаться от p больше, чем любое положительное число ", стремится к нулю с ростом числа испытаний n.

Доказательство Рассмотрим случайную величину I, принимающую значение 1, если событие A произошло и 0, если не произошло.

Тогда:

MI = 1 ¢ p + 0 ¢ (1 ¡ p) = p;

DI = (1 ¡ p)2p + (0 ¡ p)2(1 ¡ p) = p(1 ¡ p):

Относительная частота wn равна wn

=

1

 

kn=1 Ik.

 

 

n

 

 

 

 

 

 

 

 

 

 

и дисперсии:

По свойству математического ожидания

 

 

P

 

 

M

 

1 n

I = p; D

1

n

I =

p(1 ¡ p)

:

 

 

X

 

 

Xk

 

 

 

 

k)

 

 

 

 

k)

n

 

(n k=1

(n =1

 

 

Применяя к wn неравенство Чебышева, получаем:

P

fj

w

n ¡

p

> "

g ·

p(1 ¡ p)

;

"2n

 

 

j

 

 

откуда и следует утверждение теоремы.

36

МАТЕМАТИЧЕСКАЯ

СТАТИСТИКА

Математическая статистика – это наука, связанная с обоснованием методов определения вероятностных характеристик случайных событий и процессов по данным наблюдений над реально происходящими явлениями и процессами. Теоретическое обоснование математической статистики основано на законе больших чисел и опирается на идею определения вероятностей статистическим методом.

В настоящем пособии излагаются стандартные методы математической статистики, которые применяются в большинстве практических приложений; это не означает, что не могут быть разработаны и использоваться на практике и другие методы. Некоторые из них будут только упоминаться в дальнейшем изложении, при желании читатель может познакомиться с ними из существующей литературы по математической статистике.

Исходным объектом в стандартных методах математической статистики является выборка: результат проведения серии n опытов, из которых получены n наблюдений случайной величины X: fx1; x2; : : : ; xng. Количество опытов называется объ¸мом выборки. Обычно, хотя не обязательно, опыты организуются таким образом, чтобы результаты опытов были независимыми.

До того, когда эти n опытов производятся, результаты опытов представляют случайные величины, поэтому можно говорить о генеральной совокупности (возможных значениях случайной величины X) и выборочной совокупности – возможных значениях выборки. Естественно, характеристики выборки отличаются от характеристик генеральной совокупности, однако, в силу закона больших чисел, различие между генеральной и выборочными характеристиками должны уменьшаться с ростом объ¸ма выборки.

На практике во многих случаях результатом опыта является не одна случайная величина, а несколько, то есть векторная случайная величина. Принципиально, методы математической статистики в многомерном случае остаются одними и теми же, с некоторыми обобщениями. В настоящем пособии, в основном, будет рассматриваться одномерный случай, а при необходимости, выводы могут быть распространены и на многомерный.

Если случайная величина X – дискретная, а объ¸м выборки большой, отдельные члены выборки могут принимать одно и то же значение, например, если опыт заключается в бросании игральной кости, а число

37

опытов превышает шесть, обязательно в выборке встретятся одинаковые числа. Для сокращения записей, в этом случае может использоваться запись выборки в виде массива различных значений случайной величины и числа раз, которое это значение принимает:

()

x1; : : : ; xi; : : : ; xk ; n1; : : : ; ni : : : ; nk

где ni – частоты ( сколько раз в выборке встречалось значение xi). Очевидно, что сумма частот равна объ¸му выборки:

n1 + n2 + ¢ ¢ ¢ + nk = n:

Раньше, когда обработка статистических данных проводилась вручную, для сокращения записи выборки применялось округление полученных данных, в результате чего в выборке встречались одинаковые числа и выборка записывалась в виде разных значений с частотами.

Соответственно, в учебниках по математической статистике приведены методы и примеры, позволяющие обрабатывать выборки с частотами. В настоящее время широкое применение ЭВМ позволило автоматизировать обработку статистических данных так, что пользователь может не интересоваться способами сокращения записей данных выборки.

Вообще, в большинстве случаев можно пользоваться программными пакетами статистики. Не самый лучший, но в большинстве приложений вполне пригодный аппарат обработки статистических данных содержится в пакете Excel.

ГИСТОГРАММА

Термин гистограмма используется для названия, вообще говоря, разных характеристик; наиболее интересный случай связан с оценкой плотности распределения непрерывной случайной величины.

Пусть в результате проведения n опытов получена выборка fx1; x2; : : : ; xng. Разместим на оси Ox k смежных интервалов ¢i, каждый длиной hi. Серединами этих интервалов являются точки x¹i. Интервалы выбираются таким образом, чтобы в совокупности они покрывали область переменной

x, в которой оказываются результаты опытов со случайной величиной X. Согласно статистическому методу определения вероятности, вероятность того, что случайная величина X попад¸т в интервал ¢i оценивается как

38

называется относительной частотой

отношение количества опытов ni, для которых xi 2 ¢i к общему числу опытов n. Отношение wi = nni

. График, полученный соединением точек x¹i; wi называется полигоном относительных частот. График, состоящий из отрезков горизонтальных прямых y=wi для x2¢i, называется гистограммой относительных частот.

Считая, что плотность вероятности случайной величины X на интервалах ¢i примерно постоянна, в качестве оценки плотности вероятностей можно принять отношение относительной частоты wi к длине hi отрезка ¢i. График оценки плотности распределения называется гистограммой плотности распределения и представляет статистическую оценку плотности распределения.

Пример 12.

Данные измерения роста 20 человек приведены в таблице:

173

177

178

157

166

180

176

187

184

157

178

161

180

164

184

170

173

152

206

186

Требуется построить гистограмму плотности распределения случайной величины X, представляющей рост человека в сантиметрах.

Решение:

Рассмотрение выборки показывает, что минимальное измеренное значение равно 152 см, а максимальное – 206 см.

Возьм¸м интервал, накрывающий все данные: [150; 210], считая, что рост человека находится в этом интервале. Разобь¸м этот интервал на пять подынтервалов:

[150; 162); [162; 174); [174; 186); [186; 198); [198; 210):

(Чтобы избежать коллизии, связанной с принадлежностью измерения двум отрезкам, если оно попадает на границы отрезка, взяты полуинтервалы. Можно действовать и по-другому: если измерение находится на границе интервалов, каждому набору попаданий в соседние интервалы добавляется 0,5 попадания).

Подсчитывая количества попаданий в каждый интервал и деля эти числа на объ¸м выборки – 20, получаем относительные частоты:

0; 15; 0; 3; 0; 4; 0; 1; 0; 05:

Поделив на длину подынтервала – 12, получим значения экспериментальной плотности распределения на подынтервалах:

0; 0125; 0; 0250; 0; 0333; 0; 0083; 0; 0042:

39

График зависимости экспериментальной плотности распределения от аргумента x представляет гистограмму. Она изображена на Рис.1. Одновременно, на этом и других графиках изображена непрерывная кривая – оценка закона распределения другим, описанным ниже способом, через оценки моментных характеристик.

0.035

 

 

 

 

 

 

 

 

0.03

 

 

 

 

 

 

 

 

0.025

 

 

 

 

 

 

 

 

0.02

 

 

 

 

 

 

 

 

0.015

 

 

 

 

 

 

 

 

0.01

 

 

 

 

 

 

 

 

0.005

 

 

 

 

 

 

 

 

0

150

160

170

180

190

200

210

220

140

Рис.1

На рисунке 2 изображена гистограмма, полученная по выборке, объ¸м которой равен 1000.

0.045

 

 

 

 

 

 

 

 

0.04

 

 

 

 

 

 

 

 

0.035

 

 

 

 

 

 

 

 

0.03

 

 

 

 

 

 

 

 

0.025

 

 

 

 

 

 

 

 

0.02

 

 

 

 

 

 

 

 

0.015

 

 

 

 

 

 

 

 

0.01

 

 

 

 

 

 

 

 

0.005

 

 

 

 

 

 

 

 

0

150

160

170

180

190

200

210

220

140

Рис.2

На рисунке 3 изображена гистограмма, полученная из той же выборки в 1000 наблюдений, но при использовании вместо пяти, пятнадцати интервалов.

40