Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Г.Д, Ковалева, А.С. Липин -Теория вероятностей для социологов и менеджеров

.pdf
Скачиваний:
265
Добавлен:
28.03.2016
Размер:
1.22 Mб
Скачать

Глава 6. Предельные характеристики случайных величин

считав среднее арифметическое наблюдений, и чем больше будет наблюдений – тем оценка будет точнее.

ЗБЧ Хинчина

Пусть i n – последовательность iid с.в., E i , E i . Тогда

1 2 n p E 1.

n n

ЗБЧ в форме Хинчина использует условие конечность первого абсолютного момента, что является менее строгим условием, чем в ЗБЧ Чебышева.

6.3. Центральная предельная теорема

Закон больших чисел можно переписать в виде сходимости последовательности с.в. к нулю по вероятности:

 

 

1 2

n

 

p

 

 

 

 

 

 

E

0.

(6.3)

 

 

 

 

 

 

 

 

 

n

1

n

 

 

 

 

 

 

 

 

Использование этого закона при достаточно больших n говорит лишь о пределе после-

довательности. Но с.в.

Sn

только в пределе будет равняться

E , а до предела она будет

 

 

n

 

 

 

1

 

 

 

 

 

принимать как меньшие, так и большие E 1 значения. Хотелось бы более четко понимать

какие значения и с какой вероятностью эта с.в. может принимать. Т.е. речь идет об определении функции распределения этой с.в.

Из курса математического анализа известно, что для любой бесконечно малой (б.м.) последовательности n 0, всегда можно подобрать такую бесконечно большую (б.б.) по-

следовательность n , что их произведение будет сходиться к постоянной величине,

n n const . Бесконечно большая последовательность будет определять скорость сходимо-

сти б.м. последовательности к нулю.

В теории вероятностей можно проделать аналогичные операции. Но сходимость б.м. к нулю – сходимость по вероятности, поэтому произведение ее на соответствующую б.б. будет не постоянная, а с.в.

Слабая сходимость (сходимость по распределению). Последовательность с.в. n сла-

бо сходится к с.в. : n при n ,

если x

 

 

 

 

 

F

x

 

F

 

x

 

.

 

 

n

 

n

 

 

 

 

В отличие от сходимости по вероятности, слабая сходимость означает поточечную схо-

димость функции распределения.

 

 

 

 

 

 

 

 

 

 

Можно отметить, что из сходимости по вероятности следует слабая сходимость:

 

 

p

 

 

 

 

 

 

.

n

, тогда

n

 

n

 

 

 

 

 

 

Обратное верно не всегда.

Центральная предельная теорема в форме Ляпунова. Пусть i n – последователь-

ность независимых и одинаково распределенных с.в., с конечным математическим ожиданием, E i , и ненулевой конечной дисперсией 0 D i , тогда последовательность с.в.

Sn

nE 1

N0,1

(6.4)

 

 

 

 

 

nD 1

 

слабо сходится к стандартному нормальному распределению.

Эквивалентным утверждению (6.4) является то, что

61

Теория вероятностей

 

S

n

nE

 

 

 

b

 

a

b

1

 

 

x2

 

 

 

 

 

 

 

 

P a

 

1

b

 

 

 

 

 

 

e

 

2 dx .

 

 

 

 

0,1

0,1

 

 

 

 

 

nD 1

 

n

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

a

 

 

 

 

Эквивалентным утверждению (6.4) также является и то, что

P

a

Sn nE 1

b

 

 

0, D

b 0, D a .

 

 

 

 

 

 

 

 

n

 

n

1

1

 

 

 

 

 

 

 

 

Кроме того, эквивалентным утверждению (6.4) является то, что стандартизованная с.в.

Sn слабо сходится к нормальному распределению: n

S

n

 

 

S

n

 

 

 

E

 

 

 

 

 

 

 

 

 

n

n

 

N0,1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

n

 

 

 

 

 

 

 

 

 

D

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

Также из (6.4) следует, что скорость сходимости (6.3) к нулю есть n :

 

 

Sn

E

 

N

.

n

 

 

 

 

n

1

 

0, D 1

 

 

 

 

 

 

Наиболее существенные результаты по ЦПТ получены А. А. Марковым и А. М. Ляпуновым. Позже в 1920-30 гг. Линденбергом, Леви и Феллером указаны более общие, чем у Ляпунова, условия. Например, в условиях Линдеберга в формулировке Линдеберга-Феллера нет требование независимости с.в., оно заменено условиями Линдеберга (суммарный квадрат больших отклонений с.в. от среднего значения должен расти медленнее суммы дисперсий).

Следствием ЦПТ, появившейся исторически первой, является следующая теорема.

Теорема Муавра-Лапласа. Пусть i n

 

– последовательность независимых с.в., i Bp .

Тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sn

np

 

 

N0,1 ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

np 1 p

 

 

 

 

 

 

 

 

 

 

 

 

 

 

либо

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

n

np

 

 

 

 

 

 

 

b

 

a .

P a

 

 

 

 

 

 

b

 

0,1

0,1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

npq

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Необходимо отметить,

что для

нормально

распределенных случайных величин

i Na, 2 , использовать ЦПТ нет необходимости:

 

 

 

 

 

 

 

 

 

 

 

 

Sn

na

N0,1.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пример 6.3. По сведениям страховой компании средняя продолжительность жизни составляет 60 лет, а среднеквадратичное отклонение – 15 лет. Какова вероятность того, что средняя продолжительность жизни 100 случайно выбранных человек будет в пределах от 60 до 63 лет?

В соответствии поставленным вопросом, при известных значениях D и E требуется

 

 

S

n

 

 

 

 

 

S

n

 

 

 

определить вероятностьP

60

 

63

 

. Перепишем событие

P

60

 

63

 

в соответст-

n

n

 

 

 

 

 

 

 

 

 

 

вии с ЦПТ:

P 60 Sn 63 P 60 E 1n D 1 n

Sn

E

 

 

 

 

 

 

Sn

E

 

 

 

 

63 E

 

 

 

 

 

n

 

1

 

n

 

1

 

 

 

 

1

P 0

 

 

 

 

2 .

 

 

 

 

 

 

 

 

 

 

 

 

D 1 n

 

D 1 n

D 1 n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

62

Глава 6. Предельные характеристики случайных величин

Поэтому P

 

60

Sn

63

 

 

 

2

 

0

0,977 0,5 0,477 .

 

 

 

0,1

0,1

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

Пример 6.4. Игральная кость подбрасывается 1000 раз. Найти интервал, в котором сумма очков лежит с вероятностью 0,95.

1000

Сумма очков Sn i с вероятностью 1 лежит в интервале от 1000 до 6000:

i 1

P 1000 Sn 6000 1.

Это действительно так, но такой интервал мало информативен, т.к. данная информация очевидна («Лучше быть богатым и здоровым, чем бедным и больным»).

Построим информативный интервал. Учитывая распределение с.в. i и большое количество испытаний, мы находимся в условиях применения ЦПТ:

 

S

n

nE

 

 

 

b

 

a 0,95.

P a

 

1

b

 

0,1

0,1

 

 

 

 

 

 

 

nD 1

 

n

 

 

 

 

 

 

 

 

 

 

 

Границы интервала определяются из таблицы стандартного нормального распределения a 1,96,, b 1,96. Соответственно:

 

Sn

 

103

7

 

 

 

 

 

 

2

P 1,96

 

 

 

 

 

1,96 0,95.

 

 

 

 

 

 

 

 

 

10

3 35

 

 

 

 

 

 

 

 

 

 

 

 

12

 

 

 

 

 

 

 

 

Границы для Sn получаются:

P 3394 Sn 3606 0,95.

По сравнению с интервалом 1000,6000 , интервал 3394,3606 в 23 раза уже, а вероят-

ность в него попасть высока – 0,95.

6.3.1. Точность оценки ЦПТ

Как в аппроксимации биномиального распределения распределением Пуассона нас интересовало – насколько сильно приближенное вычисление отличается от точно посчитанной вероятности, так и в аппроксимации с помощью ЦПТ нас интересует тот же вопрос.

Ответ дает неравенство Берри-Эссеена. В ЦПТ при E

 

 

 

3 для x R:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

S

 

nE

 

 

x

 

E

 

E

 

3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

P

 

n

1

x

0,1

C

 

 

 

1

 

 

1

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nD 1

 

 

 

 

n D 1

 

 

 

 

 

 

 

 

 

 

 

 

 

Постоянная C не больше 0,77, а для вычислений ее можно брать 0,4.

6.3.2. Точность оценки математического ожидания

Их ЗБЧ известно, что Sn p E 1 . Точность оценки математического ожидания для

n n

конечного n не очевидна. Вероятность отклонения от математического ожидания можно оценить снизу, используя неравенство Чебышева-Бьенеме:

P

 

Sn

E

 

 

1

D 1

.

 

 

 

 

 

n

1

 

 

n

2

 

 

 

 

 

 

 

 

 

63

Теория вероятностей

Оценка вероятности снизу задает лишь интервал, куда может попасть вероятность, но не само значение вероятности. Более точный ответ может дать использование ЦПТ. Вероятность искомого события представима в виде:

 

 

 

 

Sn

 

 

 

 

 

 

Sn nE 1

 

 

 

 

n1

 

 

Sn

nE 1

 

P

 

 

E

 

P

 

 

P

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

1

 

 

 

n

 

 

D

 

 

 

nD

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

К последнему событию можно напрямую применять ЦПТ:

 

 

 

n

 

 

 

n

 

 

 

 

 

1

 

 

 

1

.

 

 

 

 

 

 

n

0,1

 

D

 

0,1

 

 

D

 

 

 

 

1

 

 

 

1

 

n

 

 

1

 

.

 

 

 

 

D

 

 

 

1

 

 

(6.5)

Учитывая симметричность стандартного нормального распределения и симметричность полученного интервала вокруг нуля, справедливы следующие соотношения:

0,1 Dn11 0,1 Dn11 2 0,1 Dn11 1 1 2 0,1 Dn11 .

Соотношение (6.5) можно трактовать, как проверку репрезентативности (надежности)

выборки. Как сильно выборочное среднее

Sn

отличается от математического ожидания E ,

 

 

n

1

 

 

при количестве наблюдений n.

Другая задача – найти количество наблюдений n, такое, чтобы вероятность отклонению

 

Sn

E

лежать в заданных границах была не менее

. Т.е. найти n по известным и

 

 

 

n

1

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

Sn

E

 

 

 

Еще одна задача – найти границы отклонения, ,

в которых лежит

при из-

 

 

 

 

 

 

 

 

n

1

 

вестном количестве наблюдений n и вероятности .

 

 

 

 

Итак, если сравнивать две предельные теоремы – ЗБЧ и ЦПТ, то ЗБЧ предъявляет меньше ограничений по сравнению с ЦПТ. Он требует существования только первых моментов. А ЦПТ дополнительно требует конечной положительной дисперсии, но при этом позво-

ляет оценить величину отклонения

Sn

E

и определить объем выборки для надежного

 

 

n

1

 

 

 

 

оценивания.

Для с.в. у которых не существует первый момент, ЗБЧ и ЦПТ в нашей формулировке не действуют, т.к. теряют свой смысл. В этом случае используются более общие предельные теоремы.

64

Глава 6. Предельные характеристики случайных величин

Вопросы

1.«Парадокс больших чисел Бернулли». Игроки часто уверены, что если правильная монета много раз падает гербом, то, согласно закону больших чисел, вероятность выпадения решки с необходимостью возрастает. (В противном случае нарушалось бы то, что при очень большом числе бросаний выпадения герба и решки происходят приблизительно одинаково часто.) С другой стороны, у монет, очевидно, нет памяти, поэтому они не знают, сколько раз они уже выпадали гербом или решкой. По этой причине шансы выпадения герба при каждом бросании равны 1/2, даже если монета уже выпала гербом тысячу раз подряд. Не противоречит ли это закону Бернулли?

2.Пусть n принимает значения 2n, 2n и 0 с вероятностями 2 2n 1 , 2 2n 1 и 1 2 2n 1 соот-

ветственно. Выполнен и ЗБЧ для последовательности n ?

3. Пусть n – последовательность независимых с.в., причем n равномерно распределена на отрезке n, n . Выполнен ли ЗБЧ для последовательности n ?

4.«Парадокс гербов и решек». Предположим что, играя в гербы и решки, мы подбросили правильную монету 100 раз. Тогда к нашему удивлению вероятность события А = {выпало ровно 50 гербов} будет больше вероятности события В = {выпало по крайней мере 60 гербов}.

5.Пусть n принимает значения n и n с вероятностью ½ каждое. Выяснить, при каких

значениях для последовательности n выполнена ЦПТ.

65

Литература

ГЛАВА 7. МНОГОМЕРНЫЕ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ

Зачастую результатом наблюдения является не одна случайная величина, а некоторый их набор. Например, заполненная анкета дает вектор ответов на вопросы; данные государственной статистики содержат векторы сведений о субъектах Российской Федерации, о предприятиях и т. д. Поэтому часто приходится рассматривать не отдельные характеристики объектов, а случайные вектора.

Случайный вектор – это n-мерный вектор, координатами которого являются с.в.:

1, 2, , n .

По сути, случайный вектор – это функция , отображающая множество элементар-

ных событий в n-мерное действительное пространство: : Rn . Примеры случайных векторов:

результаты исследования бюджета времени респондента;

сведения о прибыли компаний;

таблица частот – результат обследования;

система показателей социально-экономического развития региона.

Заполнение анкеты можно считать экспериментом по получению многомерной случайной величины, но отметим, что в анкете содержатся не только количественные сведения (хотя и обычно кодируются цифрами). В данном разделе мы будем касаться преимущественно количественных переменных.

Функция распределения случайного вектора (совместного распределения с.в.):

F X F1, 2 , , n x1, x2, , xn P 1 x1, 2 x2, , n xn .

7.1. Двумерные случайные вектора

Изучение многомерных с.в. ничем не отличается от того, как в курсе математического анализа изучается функция нескольких переменных в сравнении с функцией одного аргумента. Как и в математическом анализе, наиболее простой случай, который можно иллюстрировать графически – случай двумерного случайного вектора.

Из определения многомерной функции распределения легко получить двумерную:

F , x,y P x, y .

 

Свойства

 

1.

0 F , x, y 1.

 

2.

lim F , x, y 0,

lim F , x, y 0.

 

x

y

 

При x событие P x становится невозможным при любых значениях y . ■

3.

limF , x, y F y , limF , x, y F x .

 

x

y

При x событие P x становится достоверным. ■

Это свойство согласованности – одномерные функции распределения соответствуют совместному распределению и могут быть получены предельным переходом из двумерной функции распределения. Аналогичными свойствами обладают многомерные функции распределения при n > 2.

4.F , x, y не убывает по x и y.

5.F , x, y непрерывна слева по x и y.

66

Глава 7. Многомерные случайные величины

6. limF , x, y 1.

x y

7. Вероятность попадания в прямоугольник:

P x1 x2, y1 y2 F , x2, y2 F , x1, y2 F , x2, y1 F , x1, y1 .

F , x, y

x1 x2

y1 x

y2 y

Рис. 6.1. Вероятность попадания в прямоугольник

На рис. 6.1 показана прямоугольная площадь, вероятность попасть в которую рассчитается по свойству 7.

7.1.1. Дискретные двумерные случайные вектора

Дискретный случайный вектор 1, 2 – вектор, координатами которого являются i

дискретные с.в.

Распределение двумерного случайного вектора описывается набором вероятностей возможных комбинаций значений компонент:

pij P 1 xi , 2 yj .

Таблица совместного распределения

 

x1

 

x2

 

 

 

xj

 

 

 

xn

 

 

 

 

 

 

y1

p11

 

p12

 

 

 

p1 j

 

 

 

p1n

 

y2

p21

 

p22

 

 

 

p2 j

 

 

 

p2n

 

 

 

 

 

 

 

 

 

 

 

 

.

yi

pi1

 

pi2

 

 

 

pij

 

 

 

pin

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ym

pm1

 

pm2

 

 

 

pmj

 

 

 

pmn

n m

Естественно, выполняется условие P 1 xi, 2 yj 1, а одномерные распреде-

i 1 j 1

ления выражаются формулами:

m

pi P 1 xi, 2 yj P 1 xi

j 1

.

n

pj P 1 xi , 2 yj P 2 yj

i 1

Напомним, что значения xi, yj и др. зачастую утрачивают роль чисел, а являются лишь числовыми кодами, характеризующими полные группы событий. Но и в этом случае роль матрицы распределений двумерного дискретного вектора pij не утрачивается, поскольку она характеризует связь, в частности, таких неколичественных случайных величин. Она может

67

Литература

описывать, например, связь пола и образования, типа собственности и демографического типа семьи и т.д.

7.1.2. Абсолютно непрерывные двумерные случайные вектора

С.в. , имеют абсолютно непрерывное совместное распределение, если существу-

ет функция f , x, y 0, такая что x, y R2 :

F , x, y P x, y

x

y

f , t1,t2 dt2dt1

x y

f , t1,t2 dt2

 

 

 

 

dt1 ,

 

 

 

 

 

 

 

 

 

 

 

где f , x, y – плотность совместного распределения.

Свойства

1.f , x, y 0.

 

 

f , x, y dxdy 1.

 

2.

 

 

 

 

 

 

 

x, y

 

 

 

x, y

 

2F

 

3.

f ,

 

,

 

.

x y

 

 

 

 

 

 

 

 

 

 

 

 

4.

f x f , x, y dy ,

f y f , x, y dx.

 

 

 

 

 

 

 

Свойства 1 и 2 являются аналогами свойства плотности одномерного распределения. Свойство 4 также называется свойством согласованности плотностей.

7.2. Показатели связи двух случайных величин

С.в. i независимы в совокупности, если

n

F1, 2 , , n x1, x2, , xn Fi xi .

i 1

Эквивалентная формулировка независимости для абсолютно непрерывных с.в.:

n

f 1, 2 , , n x1, x2, , xn f i xi .

i 1

Эквивалентная формулировка независимости для дискретных с.в.:

n

P 1 x1, 2 x2, , n xn P i xi .

i 1

В случае зависимости с.в. для исследования совместного распределения (совместной вариации) пары переменных используются коэффициенты ковариации и корреляции.

7.2.1.Ковариация случайных величин

Сковариацией мы уже сталкивались, когда находили сумму дисперсий с.в.:

D D D 2cov , .

(7.1)

Коэффициент ковариации с.в. – это число, определяемое по формуле:

cov , E E E .

Свойства

1. cov , E E E .

68

Глава 7. Многомерные случайные величины

2. cov c , ccov , .

cov c , E c E c E c E E E ccov , . ■

3.cov , D .

4.Если , – независимые с.в., то cov , 0.

cov , E E E E E E E 0.

нез.

Обратное не верно. Из того, что cov , 0 не следует, что с.в. независимы.

Пример 7.1. Исследуйте на зависимость с.в. и . Найдем их ковариацию

cov , E E E

E 2 2 E 2 E 2 D D .

Если D D , то cov , 0 и с.в. зависимы.

Если D D , то cov , 0, но о зависимости можем сказать, только если

знаем совместное распределение F , x, y .

К примеру, если

a b,

то cov , (a2 1)D . При

a 1

cov , 0 и

с.в. и действительно независимы, т.к. одна из них будет

иметь в этом случае вырожденное распределение.

Для вычисления математического ожидания в непрерывном случае можно использо-

вать формулу E xf x dx, однако, вычисление функции распределения случайной

величины затруднительно. Поэтому удобнее пользоваться другой формулой:

 

 

E

xyf , x,y dx dy

 

 

Для дискретных случайных величин аналог этой формулы очевиден:

E xi yj pij

i, j

Коэффициент ковариации, конечно, характеризует зависимость переменных, но пользоваться им неудобно, поскольку границы его изменения зависят от размерности переменных и . Например, если – рост, а – вес, то, изменив единицы измерения роста с метров в сантиметры, а вес – с килограммов в граммы, мы увеличим значение коэффициента ковариации в 100000 раз.

Сэтой точки зрения удобнее использовать «безразмерный» коэффициент.

7.2.2.Коэффициент корреляции случайных величин

Коэффициент корреляции с.в. (с ненулевыми дисперсиями) – это число

, cov

 

,

 

 

 

 

 

.

 

 

 

 

 

 

 

 

E

E E

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D D

 

 

E E 2 E E 2

 

 

По сути, коэффициент корреляции – это коэффициент ковариации стандартизованных переменных.

Свойства

69

2 2
2

Литература

1.Если , – независимые с.в., то , 0 .

2.c , , .

3.1 , 1.

Рассмотрим коэффициенты корреляции и ковариации на преобразованных с.в.

Центрированные с.в.:

 

 

 

 

 

 

 

 

 

E , E ;

.

 

 

 

 

 

 

 

 

E E 0.

 

Стандартизованные с.в.:

 

 

 

 

 

 

 

 

 

E

,

E

 

 

 

 

 

 

 

 

;

 

 

 

 

 

 

 

D

 

D

 

 

 

 

 

E E 0

.

D D 1

Соответствующие характеристики:

 

cov ,

 

 

,

 

 

 

,

E E E

 

E E E

 

 

 

 

 

 

 

 

 

D D

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

E

 

 

 

,

E

 

 

 

2

 

 

2

 

 

 

 

E

 

E

 

 

 

 

 

 

 

 

 

 

 

 

,

E

 

 

E

 

 

 

Докажем свойство 3, используя соотношение между средним арифметическим и сред-

ним геометрическим ab a b . В нашем случае возьмем стандартизованные перемен- 2

ные:

.

Возьмем математическое ожидание от обоих частей:

 

2

E

2

 

1 1

 

E

 

 

 

E

 

 

 

 

 

 

1

 

 

 

 

 

22

1 E 1.

Последнее неравенство равносильно ограничению на коэффициент корреляции:

1 , 1. ■

Пример 7.2. Вычислим коэффициент корреляции между случайными величинами, имеющими распределение Бернулли. В обследовании сельского населения социологи выясняли отношение к сельской и городской жизни. Ответы «да» и «нет» на вопросы «Нравится ли Вам деревенская жизнь?», , и «Нравится ли Вам городская жизнь?», , обозначались единицей и нулем, соответственно. При этом выяснилось, что совместное распределение выглядит:

P

1

0

pi

 

 

 

 

1

0,2

0,4

0,6

0

0,3

0,1

0,4

pj

0,5

0,5

 

 

 

 

 

70