Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лекции10-12.doc
Скачиваний:
12
Добавлен:
17.11.2018
Размер:
876.54 Кб
Скачать

Математичечская статистика

Лекция № 10

Выборочный метод

Для установления закономерностей, которым подчинены случайные события и случайные величины, теория вероятности, как и любая другая наука, обращается к опыту – наблюдениям, измерениям, экспериментам. Результаты наблюдений за случайными величинами объединяются в наборы статистических данных. Задачей математической статистики, раздела современной теории вероятностей, является разработка методов сбора и обработки статистических данных, а также их анализа с целью установления законов распределения наблюдаемых случайных величин [8,9].

1. Генеральная и выборочная совокупность данных

Генеральной совокупностью является набор всех мыслимых статистических данных при наблюдениях случайной величины:

хГ = {х1, х2, х3, …, хN} = { хi ; i=1,N }.

Наблюдаемая случайная величина Х называется признаком или фактором выборки. Генеральная совокупность есть статистический аналог случайной величины, ее объем N обычно велик, поэтому из ее выбирается часть данных, называемая выборочной совокупностью или просто выборкой

хВ = {х1, х2, х3, …, хn} = { хi ; i=1,n }

хВ хГ , n N.

Использование выборки для построения закономерностей которым подчинена наблюдаемая случайная величина позволяет избежать ее сплошного (массового) наблюдения, что часто бывает ресурсоемким процессом, а то и просто невозможным. Однако выборка должна удовлетворять следующим основным требованиям:

- выборка должна быть представительной, т.е. сохранять в себе пропорции генеральной совокупности,

- объем выборки должен быть небольшим, но достаточным для того, чтобы полученные результаты ее анализа обладали необходимой степенью надежности. Ниже приведены примеры генеральных и выборочных совокупностей.

Таблица 1

Генеральная совокупность

Выборочная совокупность

Данные переписи населения страны по разным признакам.

Данные опроса случайных прохожих по тем же признакам.

Времена работы электроламп, выпущенных заводом.

Лабораторные данные о времени работы испытанных электроламп.

Отметим, что в более строгом смысле, выборку можно представить как многомерную случайную величину ХВ = {Х12, Х3, …,Хn} = {Хi ; i=1,n }, у которой все компоненты Хi распределены одинаково и по закону распределения наблюдаемой случайной величины. В этом смысле выборочные значения хВ есть одна из реализаций величины ХВ.

2. Статистическое распределение выборки. Выборочный ряд, полигон, гистограмма и комулянта выборки.

Возможные значения элементов выборки хВ = { хi ; i=1,n } называются вариантами хj выборки, причем число вариант m меньше чем оббьем выборки n. Варианта может повторяться в выборке несколько раз, число повторения варианты хj в выборке называется частотой варианты nj. Причем n1 + n2 +… nm = n. Величина wj = nj/n называется относительной частотой варианты хj.

Упорядоченный по возрастанию набор вариант совместно с соответствующими им частотами называется вариационно-частотным рядом выборки:

Vxn = { хj, nj; j=1, m} ; Vxw = { хj, wj; j=1, m} .

Ломаная линия, соединяющая точки вариационно-частотного ряда, на плоскости (х, n) или (х, w) называется полигоном частот.

Пример 1. Пусть дана выборка полуденных температур мая своим вариационно-частотным рядом:

Таблица 2

хj

0

2

3

7

8

12

14

16

19

23

25

27

30

nj

1

1

1

1

5

6

2

2

5

2

1

3

1

На рис.10.1 приводится полигон частот рассматриваемой выборки.

Рис.10.1 Полигон частот

Вариационно-частотный ряд имеет существенный недостаток - ненаглядности полигона в случае малой повторяемости вариант, например, при наблюдении непрерывного признака его повторяемость в выборке маловероятна. Более общей формой описания выборки является гистограмма выборки. Для ее построения, разобьем интервал значений выборки R=хmaxxmin на m интервалов hj = (хj, хj+1) длины h = R/m с границами хj = xmin + h*( j-1). Число элементов выборки хВ, попадающих в интервал hj, называется частотой nj интервала, кроме того вводятся следующие величины:

wj = nj / n ~ относительная частота интервала,

fj = wj / h ~ плотность относительной частоты интервала.

Совокупность интервалов наблюдаемой в выборке случайной величины и соответствующих им частот называется гистограммой выборки.

Hxn = { hj, nj }, Hxw = { hj, wj }, Hxf = { hj, fj }, j=1, m.

Для частот гистограммы выполнены следующие условия нормировки:

, ,

Число интервалов гистограммы m должно быть оптимальным, чтобы с одной стороны была достаточной повторяемость интервалов, а с другой стороны не должны сглаживаться особенности выборочной статистики. Рекомендуется значение m  1+3,2*lg(n) . На плоскости (х, n) гистограмма представляется ступенчатой фигурой (рис.10.2).

Пример 2. Наблюдаемые значения полуденной температуры мая разбиты на 5 интервалов, соответствующая гистограмма задана таблицей:

Таблица 3

hj

0-5

5-10

10-15

15-20

20-25

25-30

nj

4

5

6

9

3

4

Рис. 10.2 Гистограмма частот

Выборочной или эмпирической функцией распределения называется функция , определяющая для каждого значения х относительную частоту события {X<x} в выборке, которая вычисляется через сумму соответствующих частот:

.

В нашем примере выборочная функция распределения (иногда называемая комулянтой) приводится на рис.10.3.

Рис. 10.3 Комулянта частот

При увеличении объема выборки относительная частота события приближается к вероятности этого события (теорема Бернулли), поэтому выборочная функция распределения является оценкой теоретической функции распределения для случайной величины Х.

для любого х и > 0 .

Это утверждение строго доказано и носит форму теоремы Гливенко [7].

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]