Лекция 2: Построение вариационных рядов и вычисление
статистических характеристик (3 часа +2 часа ПЗ)
Основные вопросы лекции:
-
Первичная статистическая совокупность, её упорядочение.
-
Статистическая функция распределения.
-
Группированный статистический ряд.
-
Гистограмма.
-
Выравнивание статистических распределений.
Обзор методов математической статистики
В своей практике естествоиспытателю приходится обрабатывать большие массивы данных, полученных в результате эксперимента путем измерений, наблюдений, анализа проб и т.п. Часто этим данным присуща изменчивость, вызванная случайными ошибками. Природа этих ошибок может быть различной: погрешность измерительных приборов, неоднородность образцов проб и др. Как правило, экспериментатор имеет возможность многократно повторить свой опыт и получить большое количество однородных данных. Затем перед исследователем встает задача обработки этих данных, чтобы извлечь как можно более точную информацию об измеряемой величине. Мы приступаем к изложению базовых принципов и методов статистической обработки данных.
Задачи, решаемые математической статистикой, являются, в некотором смысле, обратными задачам теории вероятностей. Вероятностные задачи, как правило, устроены следующим образом: распределения случайных величин считаются изначально известными, основываясь на знании этих распределений требуется найти вероятности различных событий, математические ожидания, дисперсии, моменты распределений и т.п. В статистических задачах само распределение считается неизвестным, и целью исследования является получение более или менее достоверной информации об этом распределении на основе данных, собранных в результате наблюдений (экспериментов).
Первичная статистическая совокупность её упорядочение
Если наблюдаемая случайная величина Х дискретна, то статистическим аналогом ряда распределения является статистический ряд, полностью аналогичный ряду распределения случайной величины Х, с той разницей, что вместо вероятностей в нём стоят частоты соответствующих событий: . На этом вопросе мы больше не будем останавливаться. Гораздо сложнее (и чаще на практике встречается) задача обработки опытов над непрерывной случайной величиной Х. Первым этапом является описание результатов серии из n независимых опытов, в каждом из которых зарегистрировано значение непрерывной случайной величины Х, и простейшей обработкой этих результатов.
Первым документом полевых измерений является протокол, в котором зарегистрировано значение непрерывной случайной величины и номер опыта k.Такой протокол называют первичной статистической совокупностью. Этот материал является совершенно необработанным.
Пример
Измерено n=100 сопротивлений определённого вида. В таблице 2.1 приведены: номер опыта k и соответствующее значение сопротивления (в Омах).
Рассмотрение и осмысление таблицы такого типа (особенно при большом числе опытов n )затруднительно, и по ней практически нельзя представить себе характер случайной величины Х. Первый этап обработки полученных материалов – это упорядочение полученных данных, расположение в порядке возрастания значений случайной величины. Протокол результатов опыта, в котом они перенумерованы и расположены в порядке возрастания, называют упорядоченной статистической совокупностью. В таблице 2.2 приведены те же данные, что в таблице 2.1, но расположенные в порядке возрастания значений случайной величины Х. Здесь номер значения обозначен i (в отличие от номера опыта k). Если в таблице 2.2 одно и то же значение встречается несколько раз, его пишут столько раз, сколько оно встретилось.
Таблица 2.1 Первичная статистическая совокупность
k |
xk |
k |
xk |
k |
xk |
k |
xk |
k |
xk |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
87 85 91 94 102 80 75 102 99 101 100 120 122 101 88 80 97 92 91 94 |
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
82 111 115 99 96 101 115 100 97 91 87 116 121 101 123 97 95 88 104 111 |
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 |
88 90 101 95 93 92 88 94 98 99 102 101 122 99 97 95 105 112 116 118 |
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 |
108 95 99 92 100 118 103 102 89 90 94 106 112 122 100 92 93 82 111 102 |
81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 |
84 105 110 102 104 107 120 108 107 98 96 106 110 115 95 109 111 103 88 108 |
Таблица 2.2 Упорядоченная статистическая совокупность
k |
|
k |
|
k |
|
k |
|
k |
|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
|
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
|
41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 |
|
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 |
|
81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 |
|
По упорядоченной статистической совокупности типа таблицы 2.2 можно построить статистическую функцию распределения:
(2.1)
Функция F*(x) – разрывная ступенчатая функция, непрерывная слева, равная нулю левее наименьшего наблюдённого значения случайной величины Х и единице – правее наибольшего. Теоретически она должна иметь n скачков, где n – число опытов, а величина каждого скачка должна быть равна 1/n – частоте наблюдённого значения случайной величины Х. Практически, если одно и то же значение наблюдалось несколько раз, соответствующие скачки сливаются в один, так что бщее число скачков равно числу различных наблюдённых значений случайной величины. Каждый скачок в точке равен «кратности» значения в статистической совокупности, делённой на число опытов n.
Например, для данных таблицы 2.3 статистическая функция распределения F*(x) ведёт себя следующим образом: до точки х= 75 (и включая её) она равна нулю; в ней она совершает скачок, равный 1/n = 0,01 и сохраняет значение 0,01 до точки х = 80 (включая её); здесь она делает скачок, равный 2/n = 0,02, становится равной 0,03 и сохраняет это значение до точки х = 82 (включая её) и так далее.
Вычисляя таким образом функцию F*(x), получают таблицу её значений на интервалах между скачками (таблица 2.3).
Таблица 2.3 Таблица значений статистической функции распределения
х |
F*(x), |
х |
F*(x), |
x<75 75<x<80 80<x<82 82<x<84 84<x<85 85<x<87 87<x<88 88<x<89 89<x<90 90<x<91 91<x<92 92<x<93 93<x<94 94<x<95 95<x<96 96<x<97 97<x<98 98<x<99 99<x<100 100<x<101 |
0 0,01 0,03 0,05 0,06 0,07 0,09 0,14 0,15 0,17 0,20 0,24 0,26 0,29 0,35 0,37 0,41 0,43 0,48 0,52 |
101<x<102 102<x<103 103<x<104 104<x<105 105<x<106 106<x<107 107<x<108 108<x<109 109<x<110 110<x<111 111<x<112 112<x<115 115<x<116 116<x<118 118<x<120 120<x<121 121<x<122 122<x<123 123 |
0,58 0,64 0,66 0,68 0,70 0,72 0,74 0,77 0,78 0,80 0,84 0,86 0,89 0,91 0,93 0,95 0,96 0,99 1,00 |
По материалам этой таблицы построен график функции F*(x). Жирными точками, как всегда, помечены значения функции в точках разрыва.
По графику, сделанному по данным таблицы 2.3, можно сделать представление о характере распределения случайной величины Х; разумеется, самое общее представление, так как ясно, что некоторые особенности кривой F*(x) случайны и связаны с выбором именно тех, а не других сопротивлений для измерения. Другие 100 опытов дали бы несколько иной график функции F*(x), но общая тенденция сохранилась бы. При неограниченном увеличении n скачки кривой F*(x) станут более мелкими, кривая станет плавнее и будет приближаться (сходиться по вероятности) к функции распределения случайной величины Х. Этот способ является довольно трудоёмким и на практике применяются другие, более простые способы построения законов распределения случайных величин по опытным данным.