Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ВариацияОкончательно НаПроверку.doc
Скачиваний:
21
Добавлен:
17.12.2018
Размер:
4.05 Mб
Скачать

1.3. Группировка данных и Расчет дисперсий

Как подчёркивалось , в статистических исследованиях должно обеспечиваться единство анализа количественной и качественной сторон изучаемых явлений [5].

Основное важнейшее требование статистики к обоснованному анализу – соблюдение принципа однородности и как необходимое условие – однотипность явлений.

При построении вариационных рядов чаще идёт речь о количественной характеристике вариации, а не о выделении типов. А в процессе анализа возникают проблемы выделения групп, значительно различающихся между собой. Далее в процессе группировки и построении рядов распределения важным становится вопрос о величине интервалов, что в конечном итоге влияет на характеристику формы распределения и точность получаемых оценок.

Как правило, при расчёте эмпирических характеристик сгруппированных данных используются приближённые формулы, в которых вместо фактических значений подставляются центральные (средние) значения интервалов.

Возникает важный вопрос: в какой степени отличаются показатели вариации по сгруппированным и несгруппированным данным, а также возможные рекомендации по формированию группировки с целью получения более достоверных данных анализа.

Вычисления считаются точными, если средняя арифметическая всех значений, попавших в соответствующий интервал, совпадает с его центральным значением, а отклонения средних арифметических интервалов от центральных значений не имеют систематического характера.

Таким образом, величина (ширина) интервала должна быть такой, чтобы по центральному значению интервала можно было судить о средней характеристике всех значений признака, входящих в этот интервал. Далее также важно, чтобы число наблюдений в интервале было достаточным и число групп не было велико.

И общий вывод при расчёте величины интервала – вопрос выбора размера интервала – должен быть основан на учёте степени вариации признака и численности единиц исследуемой совокупности.

В настоящее время играет определённую роль и вопрос использования стандартных процедур машинной обработки информации.

При построении рядов распределения можно воспользоваться свойствами кривой нормального распределения.

Рекомендации следующие.

Учитывая, что в пределах должно находиться 99,7% всех вариантов значений признака следует применять следующие интервалы группировки для совокупностей достаточно большого объёма:

1) ; 2) ;

3) ; 4) ;

5) ; 6) ;

7) ; 8) .

При ассиметричных распределениях рекомендуется вариант группировки с использованием средних величин. Алгоритм разбиения на группы состоит в следующем:

  1. выделить две группы с уровнями признака выше и ниже средней величины , рассчитанной по всей совокупности единиц;

  2. по этим группам рассчитать и , на основе которых аналогичным образом сформировать очередные подгруппы;

  3. процесс продолжать, формируя соответственно интервалы группировки: менее ; ; ; и далее.

Покажем рассмотренный вариант группировки на примере, приведенном ниже.

▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

│►12 . Изначально была предоставлена информация о размере прибыли (млн руб.) предприятий за отчётный период времени: 2,7; 3,3; 3,6; 3,9; 4,1; 4,2; 4,6; 4,7; 4,8; 4,9; 5,2; 5,3; 5,4; 5,7; 5,9; 6,0; 6,2; 6,6; 6,9; 7,1. Сумма значений признаков составила 101,1. Средняя арифметическая исходного ряда признаков (по несгруппированным данным) равна =101,1 / 20 = 5,055 (млн руб.).

Так как варианты значений признаков не повторяются, был построен интервальный ряд распределения.

Было определено число групп интервального вариационного ряда: n = 1+ 3, 322 lg 20 = 1 + 3,322 = 5,32. Округлённое число групп равно 5. Величина интервала h = 7,1 - 2,7 = 0,9. Полученный интервальный ряд распределения приведен в табл.3.

Таблица 3

Распределение предприятий по уровню полученной прибыли

n/n

Группы предприятий по размеру прибыли, (млн руб.)

Число

предприятий в группе(f)

Среднее

значение

интервала(x`)

(x` f)

1

2

3

4

5

1

2,7-3,6

2

3,15

6,3

2

3,6-4,5

4

4,05

16,2

3

4,5-5,4

6

4,95

29,7

4

5,4-6,3

5

5,85

29,25

5

6,3-7,2

3

6,75

20,25

Итого

20

101,7

Значения признаков у отдельных границ совпали с границами интервалов (например, 2,7 ; 3,6 и т.д). Данные значения включены в тот интервал, нижняя граница которого совпала с указанными значениями, и в таблице выделены жирным шрифтом.

Среднее значение сгруппированного ряда было получено по формуле средней арифметической взвешенной и составило

= 101,7/ 20 = 5,085 (млн руб.)

Далее была проведена новая группировка с учётом рекомендаций настоящего раздела.

Так как значение средней по несгруппированным данным составило 5,055 (млн руб.), в первую группу предприятий попадут объекты, имеющие прибыль меньше 5,055 (млн руб.), а остальные образуют вторую группу с размером прибыли выше средней арифметической. Числовое распределение признаков по этим двум группам нашло отражение в табл.4.

Таблица 4

Перегруппировка предприятий по уровню полученной прибыли

Первая группа

Вторая группа

1

2,7

Суммирование

11

5,2

Суммирование

2

3,3

6

12

5,3

10,5

3

3,6

9,6

13

5,4

15,9

4

3,9

13,5

14

5,7

21,6

5

4,1

17,6

15

5,9

27,5

6

4,2

21,8

16

6

33,5

7

4,6

26,4

17

6,2

39,7

8

4,7

31,1

18

6,6

46,3

9

4,8

35,9

19

6,9

53,2

10

4,9

40,8

20

7,1

60,3

Всего по группе: 40.8(млн руб.)

Средняя по группе: 4,08

Всего по группе: 60,3(млн руб.)

Средняя по группе: 6,03

Средние арифметические по этим группам

= 40,8 / 10 = 4,08 млн руб.;

= 60,3 / 10 = 6,03 млн руб.

Учитывая все значения признаков, была сформирована группировка, показанная в табл.5. Так как представленный в табл. 5 интервальный ряд распределения имеет неравные интервалы, в качестве веса для получения среднего значения ряда были подсчитаны показатели плотности распределения (см. графу 4).

Таблица 5

Распределение предприятий по уровню полученной прибыли

n/n

Группы предприятий

по размеру прибыли,

(млн руб.)

Число

предприятий в группе(f)

Плотность

распределения f/h

Среднее

значение

интервала(x`)`

(x` f)

1

2

3

4

5

6

1

2,7-4,1

5

3,57

3,4

12,14

2

4,2-4,9

5

7,14

4,55

32,50

3

5,0-5,9

5

5,56

5,45

30,28

4

6,0-7,1

5

4,55

6,55

29,77

ИТОГО

20

20,82

104,69

Цифры, выделенные жирным шрифтом на границах интервалов, означают, что значения признака, совпадающие с верхней границей соответствующего интервала, включаются в этот интервал.

Расчёт средней арифметической по приведенной в этой таблице группировке выглядит так:

млн руб.

При базе для сравнения величины средней арифметической по несгруппированным данным = 5,055 млн руб., величина абсолютной ошибки в расчёте средней арифметической ( ) по различным группировкам составила:

= 5,085 - 5,055 = 0,03 или в относительном выражении: (0,03/5,055)100% = 0,6%;

= 5,03 - 5,055 = - 0,025 или в относительном выражении (0,025/5,055)100% = 0,5%.

Приведенные расчёты позволяют сделать вывод о достаточной точности результатов вычислений средних арифметических значений по обоим вариантам группировки.

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

Расчёты, приведенные в примере 12, показали равномерное распределение общего числа предприятий по группам: в каждую группу попали по пять предприятий. Надо отметить, что при использовании приведенного алгоритма группировки, такое распределение единиц совсем не обязательно.

Принцип равной наполненности групп по числу наблюдений может быть обеспечен путём использования для определения границ интервалов квартилей (в каждую группу включаются 25% общего числа единиц совокупности). Использование квартилей для 20 предприятий по прибыльности приводит к такому же результату, который был получен в группировке по табл. 5. При большем числе наблюдений (когда в каждую группу включаются 10% от общего числа наблюдений) используются децили.

Итак, при расчёте дисперсии по сгруппированным данным можно дать общие рекомендации [13].

Если данные о различных значениях признака в совокупности объектов или наблюдений представлены в форме вариационного ряда (ряда распределения), то для расчета общей дисперсии используют значения признака в середине каждого интервала. Формула расчета должна выглядеть так

σ 2= , (16)

где n – число интервалов;

– значение признака в середине i -го интервала.

Ранее для ускорения ручных расчётов часто использовались свойства дисперсии. Так, если первичные данные представлены в сгруппированном виде с равными интервалами, то вместо прежних значений середин интервалов признака вводились новые, полученные по формуле:

где А – некоторое условное число (середина какого-либо из интервалов ряда); h – ширина интервала.

Таким образом, h' = – А.

Согласно свойствам, описанным в виде

σ 2 ( – А) = σ 2 (),

и методу моментов можно получить зависимость:

σ 2 (h ') = h2 σ 2 (') = h2 ().

Следовательно, σ 2 () = h2().

▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

│►13 . Имеются данные о себестоимости продукции заводов области. Предварительно была проведена группировка и её результаты представлены в табл. 6.

Таблица 6

Группы

заводов (i)

Себестои-

мость одного

изделия (Xi)

Объем

продукции

(fi), %

Середина

интервала,

i,

ifi

(i)2fi

1

110 – 115

9

112,5

-2

-18

36

2

115 -120

18

117,5

-1

-18

18

3

120 - 125

24

122,5

0

0

0

4

125 - 130

49

127.5

1

49

49

Итого

100

13

103

Определим дисперсию себестоимости. Для этого назначим А = 122,5 и h = 5. Результаты вычислений покажем в этой же таблице.

Таким образом,= 1,03.

Поскольку = 0,132 = 0,0169, то σ 2 = 52(1,03 – 0,0169) = 25,3275 (руб.)2 . Непосредственный ручной расчет по исходным данным дает тот же результат, но является более трудоемким. ◄

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

При статистических исследованиях часто возникает задача определения дисперсии средних величин. Проблема связана с процессом проведения нескольких повторных выборочных обследований, в каждом из которых определяется средняя величина признака. Расчетом соответствующих дисперсий предполагается оценить вариацию средних значений в разных экспериментах. В общем случае следовало бы использовать традиционную формулу

, (17)

где n – число выборок, а остальные параметры – среднее значение признака, полученное в выборке i, и общее среднее значение признака.

На практике это выражение нельзя применить. Это связано с тем, что, во-первых, неизвестно общее среднее значение, для оценки которого проводится выборка, а во-вторых, число выборочных обследований ограничено; чаше всего это лишь одно обследование.

Тем не менее, есть способ оценить дисперсию среднего значения признака, для которого достаточно только одного выборочного исследования. Используется формула

, (18)

где m – объем выборки; σ 2выб – дисперсия признака, рассчитанная по результатам выборки.

Характеристика дисперсии среднего значения и непосредственно средняя величина признака, полученная по результатам выборочного обследования, используются для оценки вероятного интервала нахождения неизвестного среднего значения для всей генеральной совокупности.

Для обозначения среднего квадратического отклонения среднего значения признака введено понятие средней ошибки выборки μ:

. (19)

▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

│►14 . Так, если по данным выборочного наблюдения средняя урожайность одного га оценивалась в 20 ц, показатель дисперсии урожайности с одного га оказался на уровне 22,5 ц2. Оценка средней урожайности и дисперсии проводилась на 10 га. Показатель средней урожайности будет считаться определенным со средней ошибкой, равной

Если выборки повторять, то окажется, что средняя урожайность будет оцениваться интервальным рядом, и в зависимости от интервала предполагаемое значение урожайности будет зависеть от вероятности и определяться следующим образом:

(20 ± 1,5) ц/га – с вероятностью 0,683;

(20 ± 2 · 1,5) ц/га – с вероятностью 0,954;

(20 ± 3 · 1,5) ц/га – с вероятностью 0,997.

По итогам будущего фактического ( с вероятностью P = 0,9995) валового сбора средняя урожайность окажется в интервале от 39258 / 2000 = 19,6 до 40742 / 2000 = 20,4 ц/га. ◄

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

Как показывает практика, среди обобщающих показателей вариации особое место занимает дисперсия. Несмотря на прямую связь со среднеквадратическим отклонением, дисперсия имеет самостоятельное значение.

Помимо перечисленных свойств дисперсии и особенностей её расчёта при взвешивании дисперсии, нахождении дисперсии альтернативного признака в статистике широко применяется важное свойство, которое известно как правило сложения дисперсий.