- •Тема 1. Статистика как наука о массовых явлениях и процессах
- •Тема 2. Данные социологического исследования, понятие признака.
- •Номинальная шкала.
- •Шкала отношений
- •Тема 3. Одномерное частотное распределение
- •Тема 4. Группировки количественных признаков в интервалы
- •Графическое представление данных.
- •Тема 5. Характеристики положения центра распределения. Показатели вариации признака.
- •Эти характеристики используются при ответе на вопрос «Каково типичное значение признака для данного распределения?».
- •Показатели вариации признака.
- •Понятие вариации рассматривается только для количественных признаков.
- •Дисперсия вычисляется по формуле:
- •Коэффициент вариации используется для сравнительной оценки вариации объектов выборки, а также как характеристика однородности совокупности.
- •Тема 6. Основные понятия теории статистического вывода
- •Следствие из Центральной предельной теоремы
- •Статистическое оценивание точечное
- •Статистическое оценивание интервальное
- •Тема 7. Расчет объема выборочной совокупности.
- •Процедуры построения выборочной совокупности.
- •Тема 8. Проверка статистических гипотез
Тема 4. Группировки количественных признаков в интервалы
Графическое представление данных
Количественные признаки, имеющие достаточно большие разбросы значений принято группировать в интервалы. При этом понятие частоты для сгруппированных данных относится к интервалам. Абсолютная частота — это количество объектов из выборки значения, которых попали в данный интервал.
Проводя группировку, необходимо решить ряд задач, чтобы группировка наиболее точно характеризовала распределение изучаемого признака.
Необходимо определить:
сколько интервалов будет содержать данная группировка
какова будет длина интервалов
интервалы будут одинаковой или разной длины
каким образом будут определены границы интервалов
все ли интервалы будут закрытыми или нет?
Выполнение этих действий необходимо для того, чтобы все возможные значения признака имели свое место в группировке, а также, чтобы каждое значение признака могло войти только в один интервал.
Наиболее важным из перечисленных условий является определение границ интервалов. Интервалы должны быть представлены в таком виде, чтобы, во-первых, их границы не пересекались, во-вторых, чтобы для каждого из объектов мог быть определен только один интервал.
Данная проблема имеет два решения:
указываются интервалы, с пересекающимися границами но при этом однозначно оговаривается какая из границ входит в интервал.
Например, если есть два интервала 0-6
6-10
для того, чтобы определить в какой из двух интервалов входит 6, поступают следующим образом:
а) указывают, что интервалы закрыты сверху или справа, в этом случае все значения признака от 0 до 6 включительно относятся к интервалу 0-6, все значения превышающие 6 и до 10 относятся ко второму интервалу
б) указывают, что интервалы закрыты снизу или слева, в этом случае значение признака равное 6, попадает во второй интервал.
Так признак «Доход» может быть представлен в виде интервалов:
0 – 150 тыс. Если мы закрываем интервалы сверху, то доход
150 – 300 равный 150 тыс. попадает в первый интервал
300 – 600
600 – 1000 Если мы закрываем интервалы снизу, то доход
1000 и более равный 150 тыс. попадает во второй интервал
Но для респондентов не всегда понятно где закрыт интервал, поэтому в исследованиях чаще используется другой вид представления :
А) интервалы закрыты снизу б)интервалы закрыты сверху
0 – 149 0 – 150
150 – 299 151 – 300
300 – 599 301 – 600
600 – 999 601 – 1000
1000 – и более 1001 – и более
Существует три типа группировок:
Типологическая
Аналитическая
Процентильная
При построении типологической группировки не применяются какие-либо конкретные методики, а производится деление на интервалы в соответствии с задачами исследования и теоретического представления о том, как изменяется отношение к предмету исследования в зависимости от значения признаки.
Аналитическая группировка представляет собой специальную методику деления массива данных на большое количество мелких равных между собой интервалов. При построении аналитической группировки необходимо определиться, на какое количество интервалов будут разбиты исходные данные. Если объем выборки не превышает 50 объектов, то число интервалов равно 6-7. Если в выборке более 50 объектов, число интервалов будет 12-15. Равенство интервалов в аналитической группировке достигается за счет введения понятия длина интервала. Длина интервала обозначается буквой L и должна быть целым числом. Длина интервала определяется по формуле:
d d
–– < L < –––– ,где d = Хmax – Хmin
15 12
Процентильная группировка — это деление на интервалы с заданным процентом объектов из выборки.
При построении процентильной группировки вводится понятие квантиля.
Квантиль обозначается Хр , где р показывает, какая доля выборки имеет значение, не превосходящее Хр .
Слева от Хр располагается такое количество объектов, относительная частота которых равна р.
Справа от Хр располагается такое количество объектов, относительная частота которых равна 1 – р.
В зависимости от количества интервалов существует несколько видов процентильных группировок: квартильная (четыре интервала по 25%), терцильная (три интервала по 33,3%), квинтильная (пять интервалов по 20%), децильная (десять интервалов по 10%).