Статистическое распределение выборки

Для большей прозрачности вводимых ниже общих понятий начнем с примера. В большом городе проводится исследование детей определенного возраста по проблемам стоматологии. Изучается с.в. Х – количество больных зубов у наугад выбранного ребенка требуемого возраста. Если мы сумеем найти такие числовые характеристики этой с.в. как математическое ожидание и среднее квадратическое отклонение, то узнаем среднее число больных зубов у детей данного возраста, а также поймем, имеют ли подавляющая часть детей число больных зубов, близкое к среднему, или разброс в количестве больных зубов достаточно велик. Понятно, что такие данные помогут осознать наличие проблемы и ее остроту.

Итак, для изучаемой с.в. Х (количество больных зубов у наугад выбранного ребенка требуемого возраста) генеральной совокупностью являются все дети города данного возраста (это в данном случае и есть та «однородная совокупность объектов»). Понятно, что провести сплошное исследование (исследовать всех детей города) слишком сложно (да и не нужно), то сделана выборка объема n=100, т.е. отобрано 100 детей для обследования. У каждого из них пересчитали больные зубы, после чего с.в. Х на каждом из детей приняла некоторое значение (число больных зубов у ребенка). Допустим, что 7 детей не имеют больных зубов. Это значит, что с.в. Х значение х₁=0 приняла n₁=7 раз. Далее, пусть с.в. Х значение х₂=1 приняла n₂=5 раз, … , значение х₃₃=32 приняла n₃₃=0 раз (не оказалось детей, у которых больны все зубы). Таким образом, в результате проведения таких экспериментов мы получили два набора чисел: {x₁, x₂, … , x₃₃}={0, 1, … , 32} – значения, которые принимала с.в. Х на выборке, {n₁, n₂, … , n₃₃}={7, 5, … , 0} – количество объектов из выборки, на которых с.в. приняла то или иное значение (причем, очевидно, что должно выполняться: 7+ 5+ … + 0 =100, т.е. n₁+ n₂+ …+ n₃₃= n (объему выборки). Все эти наборы чисел имеют в математической статистике свое название. Перейдем к общему случаю.

Пусть некоторый признак генеральной совокупности описывается с.в. Х. Из генеральной совокупности сделана выборка объема n, на которой с.в. Х приняла следующие значения: х₁ (n₁ раз), х₂ (n₂ раз), …. , х_k (n_k раз), так что

n₁+ n₂+ …+ n₃₃=n .

Числа x₁, x₂, … , x_k называются вариантами. Обычно варианты выписываются в возрастающем порядке. Запись вариант в возрастающем порядке называется ранжированием. Последовательность вариант, записанная в возрастающем порядке, называется вариационным рядом. Числа n₁ , n₂ , …. , n_kназываются частотами, а их отношения к объему выборки n называются относительными частотами : . Из условияn₁+ n₂+ …+ n₃₃=n легко получить, что относительные частоты удовлетворяют соотношению:

w₁ + w₂ + … + w_k = 1 .

x_i	x₁	x₂	…	x_k
w_i	w₁	w₂	…	w_k

Варианты и соответствующие частоты (или относительные частоты) обычно записываются в таблицу (аналогичную табличной записи закона распределения дискретных случайных величин), которая называется статистическим распределением выборки (или дискретным статистическим рядом). Общий вид статистического ряда:

x_i	x₁	x₂	…	x_k
n_i	n₁	n₂	…	n_k

или

Пример. При тестировании группа студентов получила следующие оценки: 2, 5, 3, 2, 4, 2, 5, 2, 3, 2. Найти статистическое распределение выборки.

Решение. Посчитав число вариант, получим, что объем выборки n=10. Пересчитав количество каждых оценок, получим статистическое распределения частот и относительных частот:

x_i	2	3	4	5
n_i	5	2	1	2

x_i	2	3	4	5
w_i	0.5	0.2	0.1	0.2

Если исследуемая с.в. Х является непрерывной, возможные значения которой заполняют числовой отрезок [a,b] (либо число вариант слишком велико), то строится не дискретный, а так называемый интервальный статистический ряд . Для этого отрезок [a,b] разбивается точками а₀(=а), а₁, а₂, … , а_k(=b) на некоторое число k равных интервалов длины h=(b−a)/k: [a₀ , a₁), [a₁, a₂), … , [a_k_-2, a_k₋₁), [a_k₋₁, а_k] . Затем считают частоты − число вариант, попавших в каждый из интервалов: n₁ , n₂ , …. , n_k, либо относительные частоты . Интервальный статистический ряд частот или относительных частот записывают в виде таблицы:

x_i	[a₀,a₁)	[a₁,a₂)	…	[a_k₋₁,a_k]
w_i	w₁	w₂	…	w_k

x_i	[a₀,a₁)	[a₁,a₂)	…	[a_k₋₁,a_k]
n_i	n₁	n₂	…	n_k

или

Если исследуется дискретная с.в., то для построения интервального ряда в качестве числа а берут минимальную варианту, а в качестве числа b – максимальную: а=х₁, b=x_k (если исходные варианты были ранжированы). Рекомендуемое число k разбиений интервала можно вычислить, например, по формуле Стерджерса:

<<< < Предыдущая 1 23 / 143 4 5 6 7 8 9 10 11 12 13 14 > Следующая >>>

Соседние файлы в папке методичка

#
11.04.2015672.26 Кб136Теория вероятностей. ч.1 Случайные события, уч. пособие.doc
#
11.04.20151.3 Mб379Теория вероятностей. ч.2 Случайные величины, уч. пособие.doc
#
11.04.20151.07 Mб238Элементы математической статистики, уч. пособие..doc