- •Оглавление
- •Предисловие
- •Задачи математической статистики
- •Генеральная и выборочная совокупности
- •Статистическое распределение выборки
- •Графическое изображение статистического распределения выборки
- •Эмпирическая функция распределения
- •Числовые характеристики статистического распределения выборки
- •Точечные оценки параметров распределения
- •Свойства статистических оценок
- •Доверительные интервалы
- •Доверительный интервал для математического ожидания нормально распределенной генеральной совокупности при известном среднем квадратическом отклонении
- •Доверительный интервал для математического ожидания нормально распределенной генеральной совокупности при неизвестном среднем квадратическом отклонении
- •Понятие о проверке статистических гипотез о законе распределения генеральной совокупности
- •Корреляционная зависимость. Выборочный коэффициент корреляции. Линейная корреляция. Выборочное линейное уравнение регрессии
- •Сборник задач по курсу «Теория вероятностей и математическая статистика»
- •Примерный список вопросов для подготовки к зачету
- •Список литературы (обязательной и дополнительной) Основная литература
- •Дополнительная литература
- •Справочные издания
- •Интернет-ресурсы
- •Электронные издания
- •Словарь терминов
Статистическое распределение выборки
Для большей прозрачности вводимых ниже общих понятий начнем с примера. В большом городе проводится исследование детей определенного возраста по проблемам стоматологии. Изучается с.в. Х – количество больных зубов у наугад выбранного ребенка требуемого возраста. Если мы сумеем найти такие числовые характеристики этой с.в. как математическое ожидание и среднее квадратическое отклонение, то узнаем среднее число больных зубов у детей данного возраста, а также поймем, имеют ли подавляющая часть детей число больных зубов, близкое к среднему, или разброс в количестве больных зубов достаточно велик. Понятно, что такие данные помогут осознать наличие проблемы и ее остроту.
Итак, для изучаемой с.в. Х (количество больных зубов у наугад выбранного ребенка требуемого возраста) генеральной совокупностью являются все дети города данного возраста (это в данном случае и есть та «однородная совокупность объектов»). Понятно, что провести сплошное исследование (исследовать всех детей города) слишком сложно (да и не нужно), то сделана выборка объема n=100, т.е. отобрано 100 детей для обследования. У каждого из них пересчитали больные зубы, после чего с.в. Х на каждом из детей приняла некоторое значение (число больных зубов у ребенка). Допустим, что 7 детей не имеют больных зубов. Это значит, что с.в. Х значение х1=0 приняла n1=7 раз. Далее, пусть с.в. Х значение х2=1 приняла n2=5 раз, … , значение х33=32 приняла n33=0 раз (не оказалось детей, у которых больны все зубы). Таким образом, в результате проведения таких экспериментов мы получили два набора чисел: {x1, x2, … , x33}={0, 1, … , 32} – значения, которые принимала с.в. Х на выборке, {n1, n2, … , n33}={7, 5, … , 0} – количество объектов из выборки, на которых с.в. приняла то или иное значение (причем, очевидно, что должно выполняться: 7+ 5+ … + 0 =100, т.е. n1 + n2 + …+ n33 = n (объему выборки). Все эти наборы чисел имеют в математической статистике свое название. Перейдем к общему случаю.
Пусть некоторый признак генеральной совокупности описывается с.в. Х. Из генеральной совокупности сделана выборка объема n, на которой с.в. Х приняла следующие значения: х1 (n1 раз), х2 (n2 раз), …. , хk (nk раз), так что
n1 + n2 + …+ n33=n .
Числа x1, x2, … , xk называются вариантами. Обычно варианты выписываются в возрастающем порядке. Запись вариант в возрастающем порядке называется ранжированием. Последовательность вариант, записанная в возрастающем порядке, называется вариационным рядом. Числа n1 , n2 , …. , nk называются частотами, а их отношения к объему выборки n называются относительными частотами : . Из условияn1 + n2 + …+ n33=n легко получить, что относительные частоты удовлетворяют соотношению:
w1 + w2 + … + wk = 1 .
xi |
x1 |
x2 |
… |
xk |
wi |
w1 |
w2 |
… |
wk |
xi |
x1 |
x2 |
… |
xk |
ni |
n1 |
n2 |
… |
nk |
или
Пример. При тестировании группа студентов получила следующие оценки: 2, 5, 3, 2, 4, 2, 5, 2, 3, 2. Найти статистическое распределение выборки.
Решение. Посчитав число вариант, получим, что объем выборки n=10. Пересчитав количество каждых оценок, получим статистическое распределения частот и относительных частот:
xi |
2 |
3 |
4 |
5 |
ni |
5 |
2 |
1 |
2 |
xi |
2 |
3 |
4 |
5 |
wi |
0.5 |
0.2 |
0.1 |
0.2 |
Если исследуемая с.в. Х является непрерывной, возможные значения которой заполняют числовой отрезок [a,b] (либо число вариант слишком велико), то строится не дискретный, а так называемый интервальный статистический ряд . Для этого отрезок [a,b] разбивается точками а0(=а), а1, а2, … , аk(=b) на некоторое число k равных интервалов длины h=(b−a)/k: [a0 , a1), [a1 , a2), … , [ak-2 , ak−1), [ak−1 , аk] . Затем считают частоты − число вариант, попавших в каждый из интервалов: n1 , n2 , …. , nk , либо относительные частоты . Интервальный статистический ряд частот или относительных частот записывают в виде таблицы:
xi |
[a0,a1) |
[a1,a2) |
… |
[ak−1,ak] |
wi |
w1 |
w2 |
… |
wk |
xi |
[a0,a1) |
[a1,a2) |
… |
[ak−1,ak] |
ni |
n1 |
n2 |
… |
nk |
или
Если исследуется дискретная с.в., то для построения интервального ряда в качестве числа а берут минимальную варианту, а в качестве числа b – максимальную: а=х1, b=xk (если исходные варианты были ранжированы). Рекомендуемое число k разбиений интервала можно вычислить, например, по формуле Стерджерса:
.