Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СИТ.doc
Скачиваний:
9
Добавлен:
20.12.2018
Размер:
518.14 Кб
Скачать

Тема 3. Группировка данных и ее роль в анализе информации

Статистическое наблюдение в основном совпадает с первой ступенью человеческого познания действительности — эмпирическим познанием. Такой переход осуществляется посредством процесса теоретического обобщения статистических данных, сведения фактов воедино, который в статистике носит название сводки статистических данных. Сводка и группировка являются вторым этапом статистического исследования.

Сводка — это комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом.

В результате сводки осуществляется переход от данных, характеризующих отдельные явления (люди, учреждения, события социальной жизни), к данным, характеризующим совокупность явлений в целом (население страны, деятельность предприятий, учреждений культуры, науки т.д.)

Простая сводка — это операция по подсчету общих итогов по совокупности единиц наблюдения.

Группировка — расчленение единиц изучаемой совокупности на группы, однородные в каком-либо существенном отношении и характеристика таких групп с целью:

  • выделения типов социально-экономических явлений;

  • изучения структуры явления и структурных сдвигов, происходящих в нем;

  • выявления связи и зависимости между явлениями.

Метод группировок является основой применения других методов статистического анализа основных сторон и характерных особенностей изучаемых явлений. По своей роли в процессе исследования метод группировок выполняет некоторые функции, аналогичные функциям эксперимента в естественных науках — посредством группировки по отдельным признакам и комбинации самих признаков имеется возможность выявить закономерности изучаемых явлений, проследить взаимоотношение различных факторов и определить силу их влияния на результативные показатели.

Группировки могут быть представлены в виде рядов распределения. Правила построения рядов и группировок аналогичны.

Ряд распределения — это упорядоченное распределение единиц совокупности на группы по какому-либо признаку.

В зависимости от признака, положенного в основу ряда распределения различают атрибутивные (строятся по качественным признакам) и вариационные (строятся по количественным признакам) ряды распределения. Атрибутивный ряд характеризует состав совокупности по тем или иным существенным признакам; анализ таких рядов за несколько временных периодов позволяют исследовать изменение структуры во времени.

Пример 1. Построение атрибутивного ряда.

Таблица 3. Распределение студентов группы по полу.

Группы студентов по полу,

x i

Численность, чел.

fi

Удельный вес, % к итогу

wi

Всего студентов, в т.ч.

25

100

мужчин

5

20

женщин

20

80

Вариационный ряд строится по количественным признакам и имеет следующие элементы:

вариант x i — конкретное значение варьирующего признака;

частота fi — численность отдельных вариантов;

частность, относительная численность wi — частота, выраженная в долях единиц или процентах к итогу, т.е.:

wi = fi / å fi

например, wi = fi / å fi =5/25=0,2

В зависимости от характера вариации признака различают дискретные ряды, строящиеся по такому признаку, который может принимать только определенные, выражаемые, как правило, целым числом, значения или интервальные ряды распределения, характеризующие распределение единиц по непрерывному признаку, т.е. такому признаку, который может принимать любые промежуточные значения.

Пример 2. Построение дискретного ряда

Имеются следующие данные об успеваемости 20 студентов группы по статистике: 5,4,4,4,З,2,5,3,4,4,4,3,2,5,2,5,5,2,3,З.

Вариантами ряда являются баллы оценок, а частотами — количество студентов, их получившим. Численность студентов по группам может быть представлена в долях единиц. Кроме обычных частот могут быть рассчитаны накопленные (кумулятивные) частоты, по которым строится суждение о том, какое число единиц совокупности обладать значением, не большим или не меньшим определенного значения.

Таблица 4. Распределение студентов группы по успеваемости.

Группы студентов по полученным оценкам

x i

Количество студентов, чел.

fi

Удельный вес, доли

wi

Накопленные (кумулятивные)

частоты

5

5

0, 25

0, 25

4

6

0,30

0,55

3

5

0,25

0,80

2

4

0,20

1,00

всего

20

1,00

wi = fi / å fi =5/20=0,25

wi = fi / å fi =6/20=0,3

В данном случае возможно построение атрибутивного ряда по группам успевающих и неуспевающих студентов.

Пример 3. Построение атрибутивного ряда

Группы студентов по уровню успеваемости

x i

Количество студентов, чел.

fi

Удельный вес, доля

wi

успевающие

16

0,64

неуспевающие

4

0,36

всего

20



wi = fi / å fi =16/20=0,64

wi = fi / å fi =4/20=0,36

Категориальное распределение частот – состоит из категорий, являющихся значениями исследуемого признака и соответствующих этим категориям частот.

Категориальное распределение строится по данным, измеряемых номинальной или порядковой шкалой.

Пример 4. Политические предпочтения, чел.

Категории

fi

Демократы

45

Коммунисты

43

Либералы

15

Всего

103

Пример 5. Данные просмотра фильма, чел.

Категории

fi

Очень понравился

45

Понравился

43

Фильм средний

15

Не понравился

2

Всего

105

Для построения интервального ряда дадим определение интервала группировки как значения варьирующего признака, лежащего в определенных границах, причем нижней границей xmin интервала назовем наименьшее, а верхней границей xmax – наибольшее значение признака.

Группировка с равными интервалами используется в том случае, если вариация признака проявляется в узких границах, а распределение единиц носит равномерный характер; ее используют обычно внутри типичных групп для количественной оценки единиц, составляющих группу. Величина равного интервала может быть рассчитана по формуле

h = (xmaxxmin) /n (1)

где h – величина интервала, n — число групп.

Группировка с неравными интервалами используется в том случае, если размах вариации признака велик и значения признака варьируются неравномерно. Неравные интервалы могут быть прогрессивно возрастающими или прогрессивно убывающими в арифметической или геометрической прогрессии. Соответственно определяется величина интервала:

Арифметически возрастающий интервал

a>0

hi+1 = hi + a

а=3,

hi=5, hi+1=5+3=8

hi+2=8+3=11

Арифметически убывающий интервал

a<0

hi+1 = hi – a

Геометрически возрастающий интервал

g>0

hi+1 = hi g

g=3,

hi=5, hi+1=5*3=15

hi+2=15*3=45

Геометрически убывающий интервал

g<0

hi+1 = hi / g

Интервалы группировок могут быть закрытыми (т.е. иметь верхнюю и нижнюю границы) и открытыми (указана или верхняя или нижняя граница). Открытые интервалы используются в том случае, если признак изменяется неравномерно или в широких пределах, а так же когда отсутствуют качественные различия единиц, включаемых в группу. Рассмотрим построение интервального ряда с равными интервалами на примере: известны данные о результатах сдачи абитуриентами вступительных экзаменов (в баллах

Пример 6. Построение интервального ряда с равными интервалами.

Известны данные о результатах сдачи абитуриентами вступительных экзаменов:

18

16

20

17

19

20

17

17

12

15

20

18

19

18

18

16

18

14

14

17

19

16

14

19

12

15

16

20

Произвольно определим число групп (n=4) и по формуле (1) рассчитаем величину интервала h = 2 (балла), выделим группы с интервалом в 2 балла и подсчитаем частоту по каждой группе.

Таблица 5. Распределение абитуриентов по количеству набранных баллов.

Группы абитуриентов

по числу баллов

Количество,

чел

Накопленные

частоты

12-14

5

14-16

6

16-18

9

18-20

8

Всего

28

Следует отметить, что если верхняя граница одного интервала совпадает с нижней границей последующего интервала, то единица, обладающая этим значением, относится к той группе, где эта величина выступает в роли верхней границы. Так, в нашем примере, к первой группе относятся абитуриенты, набравшие 12, 13 и 14 баллов, ко второй группе — набравшие 15 и 16 баллов и т.д.

Пример 7. построения интервального ряда с неравными интервалами.

Таблица 6. Распределение работников по уровню дохода

Группы работников

, руб.

Число работников,

чел.

Удельный вес,

% к итогу

до 5000

60

52,2

5000-7500

45

39,1

7500 и более

10

8,7

Всего

115

Вариационные ряды могут быть построены по самым разным объектам, в т.ч. по временным (месяцам, кварталам, годам, т.д.) и территориальным единицам (городам, округам, т.д.). Примеры построения таких рядов приведены в приложении.

Анализ рядов распределения наглядно можно проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, огиву и кумуляту распределения. Так, полигон используется для изображения дискретных вариационных рядов; в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладываются ранжированные значения варьирующего признака, а по оси абсцисс строится шкала для выражения частот. Полученные на пересечении абсцисс и ординат точки соединяют прямыми линиями и получают ломаную линию.

Группировки, построенные за один и тот же период времени, но для разных регионов или, наоборот, для одного региона, но за два разных периода времени могут быть несравнимы из-за различного числа выделенных групп или неодинаковости границ интервалов. Вторичная группировка, или перегруппировка сгруппированных данных применяется для лучшей характеристики изучаемого явления либо для приведения к сопоставимому виду группировок с целью проведения сравнительного анализа.

11

20

6

55

14

21

18

17

22

38

31

22

27

19

22

23

26

30

34

27

Пример 8: Имеются данные о продолжительности телефонных разговоров. Построить распределение частот по 7 интервалам.

  1. определить величину интервала

  2. определить нижние границы

  3. 6+5=11, 11+5=16 и т.д.

  4. определить верхние границы 11-1=10 и т.д.

  5. определить точные границы (+ или – 0,5)

интервал

Точные границы

частота

6-10

5,5-10,5

1

11-15

10,5-15,5

2

16-20

15,5-20,5

3

21-25

5

26-30

4

31-35

3

36-40

35,5-40,5

2

Самостоятельная работа