- •Тема 6: Элементы математической статистики
- •6.1 Случайные величины
- •6.2 Основные понятия математической статистики
- •6.3 Характеристики и параметры статистической совокупности
- •6.4 Статистика – дизайн информации
- •Группировка информации в виде таблиц
- •6.5 Графическое представление информации
- •Гистограммы распределения большого объема информации
- •6.6 Числовые характеристики или «паспорт» выборки
- •1) Сложить все результаты, входящие в эту выборку;
- •2) Полученную сумму разделить на количество всех результатов.
- •1) Каждую варианту умножить на ее кратность;
- •2) Сложить все полученные произведения;
- •3) Поделить найденную сумму на сумму всех кратностей.
- •1) Каждую варианту умножить на ее частоту;
- •2) Сложить все полученные произведения.
- •6.7 Экспериментальные данные и вероятности событий
6.4 Статистика – дизайн информации
Предыдущую тему мы закончили обсуждением результатов большого числа бросаний монеты. Число бросаний было велико: оно составляло несколько тысяч и даже десятков тысяч раз. Выяснили, что с увеличением числа бросаний монеты частота выпадения «решки» становится практически неотличимой от некоторой постоянной величины – в данном случае, от 0,5.
Здесь мы впервые встретились с одним из важнейших явлений окружающей нас действительности – явлением статистической устойчивости.
Группировка информации в виде таблиц
Знакомство с элементами статистики начнем с конкретного примера.
В девятых классах «А» и «Б» измерили рост 50 учеников. Получились следующие результаты:
162, 168, 157, 176, 185, 160, 162, 158, 181, 179,
164, 176, 177, 180, 181, 179, 175, 180, 176, 165,
168, 164, 179, 163, 160, 176, 162, 178, 164, 190,
181, 178, 168, 165, 176, 178, 185, 179, 180, 168,
160, 176, 175, 177, 176, 165, 164, 177, 175, 181.
Данные, собранные в этом списке, являются наиболее полной информацией о проведенном измерении. К сожалению, эта информация трудно «читается». Она не наглядна и занимает много места. А представьте результаты, состоящие не из 50 данных, а из 500, 5000 или из миллионов различных чисел! Например, число и размеры вкладов в Сбербанке России за текущий год или данные о производительности труда на предприятиях какой-нибудь отрасли по всей стране, результаты голосования по всем избирательным пунктам и т. п.
Единственный разумный выход – каким-то образом преобразовать первоначальные данные, получить сравнительно небольшое количество характеристик начальной информации и в дальнейшем оперировать именно с этими, как правило, численными характеристиками. Одна из основных задач статистики как раз и состоит в надлежащей обработке информации. Конечно, у статистики есть много других задач: получение и хранение информации, выработка различных прогнозов, оценка их достоверности и т. д. Ни одна из этих целей не достижима без обработки данных. Поэтому, первое, чем стоит заняться – это статистическими методами обработки информации. Для этого нам будут нужны новые термины, принятые в статистике.
В таблице приведены основные термины статистики. Мы будем использовать термины из первого столбца. Термины из третьего столбца могут встретиться вам в других учебных пособиях или справочниках по статистике.
Новый термин |
Простое описание |
Более научный термин |
Определение |
Общий ряд данных |
То, откуда выбирают |
Генеральная совокупность |
Множество всех в принципе возможных результатов измерения. |
Выборка |
То, что выбрали |
Статистическая выборка, статистический ряд |
Множество результатов, реально полученных в данном измерении |
Варианта |
Значение одного из результатов измерения |
Варианта |
Одно из значений элементов выборки |
Ряд данных |
Значения всех результатов измерения, перечисленные по порядку |
Вариационный ряд |
Упорядоченное множество всех вариант |
Вернемся к примеру с измерением роста. С некоторым запасом мы можем считать, что рост девятиклассника находится в пределах от 140 до 210 см. Значит, числа 140; 141; 142; ...; 208; 209; 210 и образуют общий ряд данных этого измерения. Подчеркнем, что определения в статистике не носят такого же точного характера, как, скажем, определения в геометрии или алгебре. Например, от добавления числа 139 к указанному множеству оно не перестанет быть общим рядом данных. Или же, рост можно было, в принципе, измерять с точностью до миллиметров и тогда общий ряд данных этого измерения давали бы числа 140,0; 140,1; 140,2; ...; 209,8; 209,9; 210,0.
Выборка в нашем случае – это данные реального измерения роста, выписанные выше, варианта – это любое из чисел выборки, а ряд данных – все реальные результаты измерения, выписанные в определенном порядке без повторений, например, по возрастанию:
157; 158; 160; 162; 163; 164; 165; 168; 175; 176; 177; 178; 179; 180; 181; 185; 190.
Рассмотрим другие примеры. Допустим, вы записываете номера месяцев рождения своих однокурсников. В таком случае общий ряд данных – это числа от 1 до 12, варианты – это номера месяцев рождения конкретных студентов именно вашей группы, а ряд данных – это все варианты, перечисленные по порядку. В одной группе ряд данных – это 3, 4, 5, 7, 8, 10, 11. В другой группе может получиться другой ряд данных. Например, 1, 2, 5, 6, 8, 9, 11, 12 и т. д.
Пример 2. 30 абитуриентов на четырех вступительных экзаменах набрали в сумме такие количества баллов (оценки на экзаменах выставлялись по пятибалльной системе): 20; 19; 12; 13; 16; 17; 15; 14; 16; 20; 15; 19; 20; 20; 15; 13; 19; 14; 18; 17; 12; 14; 12; 17; 18; 17; 20; 17; 16; 17. Составьте общий ряд данных, выборку из результатов, стоящих на четных местах и соответствующий ряд данных.
Решение. После получения двойки дальнейшие экзамены не сдаются, поэтому сумма баллов не может быть меньше 12 (12 – это 4 «тройки»). Значит, общий ряд данных состоит из чисел 12; 13; 14; 15; 16; 17; 18; 19; 20. Выборка состоит из 15 результатов 19; 13; 17; 14; 20; 19; 20; ..., расположенных на четных местах. Ряд данных – это конечная возрастающая последовательность 13; 14; 17; 19; 20.
Перейдем к дальнейшей обработке информации. Составим таблицу из двух строк, в первой из которых будет ряд данных. Каждая варианта из этого ряда какое-то количество раз реально наблюдалась в выборке. Это количество называют кратностью варианты. Вот и поставим во вторую строку кратности соответствующих вариант. Получим таблицу распределения выборки. Вот как она выглядит в примере 1.
-
Варианта
13
14
17
19
20
Всего: 5 вариант
Кратность варианты
2
3
6
2
2
Сумма = 15 (объем выборки)
Если сложить все кратности, то получится количество всех произведенных при выборке измерений – объем выборки. В данном случае объем выборки равен 15.
Далее, при общей оценке данных выборки не очень важно, что, например, варианта 14 имеет кратность 3 из общего объема в 15 данных. Удобнее сказать, что эта варианта составляет или 20% числа всех измерений. Так и поступают, т. е. делят кратности вариант на объем выборки и получают частоты вариант.
.
Частоты всех вариант удобно приписать третьей строкой к уже составленной таблице. Новую трехстрочную таблицу называют таблицей распределения частот выборки. Вот как это выглядит в примере 1. Обратите внимание, что сумма частот равна 1, и так бывает всегда.
-
Варианта
13
14
17
19
20
Всего: 5 вариант
Кратность варианты
2
3
6
2
2
Сумма = 15 (объем выборки)
Частота варианты
Сумма = 1
Иногда частоты удобно измерять в процентах от общего объема выборки. Тогда таблицу распределения дополняют еще строкой частот в процентах. Она получается из предыдущей строки умножением на 100%.