7.5 Статистическое распределение выборки
Пусть из генеральной совокупности извлечена выборка, причем x1 наблюдалось n1 раз, x2 – n2 раз и т.д., а – объем выборки Наблюдаемые значения хi, называют вариантами, а последовательность вариант, записанных в возрастающем порядке, – вариационным рядом. Числа наблюдений называют частотами, а их отношения к объему выборки –относительными частотами.
Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот. Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).
Заметим, что в теории вероятностей под распределением понимают соответствие между возможными значениями случайной величины и их вероятностями, а в математической статистике – соответствие между наблюдаемыми вариантами и их частотами или относительными частотами.
Пример. Пусть объем выборки п = 20 и
хi |
2 |
6 |
12 |
ni |
3 |
10 |
7 |
Найдем относительные частоты:
Тогда распределение относительных частот:
хi |
2 |
6 |
12 |
Wi |
0,15 |
0,50 |
0,35 |
Контроль: 0,15 + 0,50 + 0,35 = 1.
После построения вариационного ряда и его графического изображения можно получить первоначальное представление о закономерностях наблюдаемого явления. Чаще всего о вариационном ряде удобно говорить в терминах, которые в теории вероятности назывались числовыми характеристиками случайных величин. Рассмотрим эти характеристики.
Если генеральная совокупность X относительно небольшого объема, то можно анализировать всю совокупность.
Генеральной средней называют среднее арифметическое значений признака генеральной совокупности. Если все значения X1, X2,…, XN различны (N – объем совокупности), то
.
Если же, что встречается чаще, значения признака имеют, соответственно, частоты N1, N 2,…, Nk, причем N1 +N2+... + Nk= N, то
/
Для оценки рассеивания количественного признака X генеральной совокупности вокруг своего среднего значения используется генеральная дисперсия DГ – среднее арифметическое квадратов отклонений признака от их среднего значения . Для различных X1, X2,…, XN:
Здесь – среднее квадратов значений признака:
Если же значения признака имеют частоты N1, N 2,…, Nk, то
,
но ; .
Генеральным средним квадратическим отклонением (генеральным стандартом) называется .
Если же генеральная совокупность – большого объема, то работа с ней становится очень громоздкой или невозможной. Тогда для изучения генеральной совокупности используют выборку конечного объема п.
Выборочной средней называется среднее арифметическое признака выборочной совокупностью.
Для различных значений X1, X2,…, XN:
.
Если значения признака X1, X2,…, Xk имеют, соответственно, частоты N1, N 2,…, Nk, причем N1 + N 2 +…+ Nk =N, то
Выборочной дисперсией DВ называется среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .Для различных значений
.
Для значений X1, X2,…, Xk с частотами:
.
Выборочным средним квадратическим отклонением (выборочным стандартом) называется величина .
В качестве примера рассмотрим распределение:
хi |
1 |
2 |
3 |
4 |
Ni |
20 |
15 |
10 |
5 |
Здесь общая средняя:
Средняя квадратов:
Дисперсия: .
Стандарт: .
В примере намеренно не указан индекс характеристик, потому что расчеты как для генеральной, так и для выборочной совокупностей абсолютно аналогичны.
Кроме выборочных (или генеральных) средней и дисперсии используются и другие характеристики. Перечислим основные из них, например, для ряда
хi |
1 |
4 |
7 |
9 |
11 |
ni |
5 |
1 |
20 |
6 |
8 |
Модой MO называют варианту, которая имеет наибольшую частоту. Для примера MO = 7.
Медианой те называют варианту, которая делит вариационный ряд на две равные по числу вариант части. Для примера те =7.
Размахом вариации R называют разность между наибольшей и наименьшей вариантами:
R = Xmax – Xmin.
Для примера R = 11 – 1 = 10. Размах – простейшая характеристика рассеяния вариационного ряда.
Коэффициентом вариации V называется отношение выборочного стандарта к выборочной средней (обычно выражается в процентах):
Этот коэффициент служит для сравнения величин рассеивания по отношению к выборочной средней двух вариационных рядов: тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше.
По аналогии с теоретическими моментами в теории вероятностей вводятся эмпирические моменты для оценки вариационных рядов.
Обычным эмпирическим моментом порядка k называют среднее значение k-ых степеней разностей хi – С:
.
Здесь x1, x2,…, xt – наблюдаемые варианты, n1, n 2,…, nt - частоты вариант, n1 + n 2 +…+ nt = n – объем выборки, С – произвольное число (ложный нуль).
Начальным эмпирическим моментом порядка k называют обычный момент порядка k при С = 0:
В частности, , т.е. эмпирический момент первого порядка равен выборочной средней.
Центральным эмпирическим моментом порядка k называют обычный момент порядка k при С = :
/
В частности,
,
т.е. центральный эмпирический момент второго порядка равен выборочной дисперсии.
Центральные эмпирические моменты можно выразить через обычные. В практике статистических расчетов встречаются:
$
$
/