Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Основы статистического анализа.doc
Скачиваний:
24
Добавлен:
17.12.2018
Размер:
9.89 Mб
Скачать

2 Первичная статистическая обработка результатов наблюдений

Пусть имеется выборка из . Обработку результатов наблюдений начинают с построения общей статистической модели, которая включает в себя:

  1. графическое представление данных (полигон, гистограмма);

  2. нахождение оценок для неизвестных параметров наблюдаемого признака .

Построение общей модели позволяет ответить на 2 вопроса:

а) решить в первом приближении поставленную задачу относительно ГС или изучаемого процесса;

б) нужна ли более точная модель.

Саму обработку данных начинают с исключения ошибочных (неоднородных) данных, для чего используется «правило 3 6», используя это правило, мы исключим из рассмотрения неоднородные данные.

2.1 Графическое представление данных

Пусть - выборка из ГС, причем могут совпадать. Обозначим - число элементов выборки, равных . Тогда .

Расположим выборку в порядке возрастания: - вариационный ряд. Удобно вариационный ряд представлять в виде таблицы:

. . .

где - частота появления признаков, равного .

Пример 1. Выборка: 5, 7, 8, 8, 9, 10, 10, 10, 2, 2, 2, 8, 2, 4. Это могут быть длины предложений, состоящие из 5, 7,…, 4 слов. Имеем вариационный ряд:

2

4

5

7

8

9

10

4

1

1

1

3

1

3

14.

Пусть - дискретный изучаемый признак с неизвестным распределением {}, .

Выше мы сформулировали задачу установления закона распределения признака . Решим задачу в первом приближении. Известно, что - относительная частота появления , причем , n, т.е. при неограниченном числе наблюдений, когда объем выборки стремится к объему ГС. Итак, относительные частоты мы можем использовать для оценки в первом приближении неизвестного закона распределения изучаемого признака , т.е. имеем . Графическое представление есть полигон (многоугольник) относительных частот.

Этот полигон есть оценка неизвестного многоугольника вероятностей:

Еще раз: если бы мы могли просмотреть все ГС, то сразу бы имели истинное распределение признака , но из-за невозможности делать это, мы строим полигон относительных частот, как приближенный вариант теоретического (неизвестного) распределения .

При большом объеме выборки целесообразно производить группировку данных. Для этого область , где , , разбивается на интервалов одинаковой длины и подсчитывается число элементов , попавших в интервал. Наиболее простой способ группирования состоит в следующем:

  1. выбирается число интервалов , где - целая часть числа ;

  2. Определяется длина интервала , причем округляется в сторону увеличения.

Тогда , тем самым учитываются все наблюдения .

Такой выбор , а, следовательно, и наиболее эффективен, т.к. полученные интервалы данной длины будут наиболее информативными.

Далее строится функция:

, при интервалу.

Ее называют гистограммой.

Очевидно,

Поскольку , то гистограмма есть оценка неизвестной плотности , задающей закон распределения непрерывного признака .

Можно построить гистограмму и для вариационного ряда:

. . .

.

Для этого строится функция

, , где . Тогда имеем:

Как правило, нас будет интересовать второй вид гистограммы, задающий оценку неизвестного распределения, т.к. мы в основном будем рассматривать дискретные признаки.

Пример 2 Дана выборка: 2, 3, 3, 1, 4, 3, …, 0, 0, …, 6, 4, …, 1,7; .

Построим вариационный ряд:

0

1

2

3

4

5

6

7

4

13

14

24

17

3

3

2

0.05

0.165

0.172

0.3

0.21

0.035

0.035

0.025

1.

Полигон относительных частот:

Гистограмма:

Вспомним, что теоретическое распределение (которое неизвестно для ) можно так же задать через функцию распределения : ее вид однозначно задает распределение признака . Поэтому задачу оценки теоретического распределения можно решать, строя оценку для . Для этого используется эмпирическая функция распределения (кумулята) .