Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Статистика практикум.docx
Скачиваний:
147
Добавлен:
26.03.2016
Размер:
1.88 Mб
Скачать

Тема 6. Структурные характеристики рядов распределения и показатели вариации

6.1. Структурные характеристики рядов распределения

Ряд распределения - это упорядоченное распределение единиц совокупности по определенному варьирующему признаку. Показатели, позволяющие делать выводы о структуре распределения данных, называют структурными характеристиками рядов распределения. К ним относят медиану, моду и квартили.

Медиана - это вариант признака, находящийся в середине ранжированной (упорядоченной по возрастанию или убыванию) совокупности. Медиана делит изучаемую совокупность на две равные части - у половины единиц совокупности значение признака меньше медианы, а у другой половины единиц совокупности значение признака больше медианы.

Медиана является центром распределения. Основное свойство медианы заключается в том, что сумма абсолютных отклонений фактических значений от медианы меньше, чем от любой другой величины. Математически данное свойство можно представить в следующем виде:

, (32)

где xi- i-тый вариант признака;

Me- значение медианы.

Медиана может быть определена для количественных и порядковых признаков. Расчет медианы для альтернативных и атрибутивных признаков невозможен, так как эти признаки нельзя ранжировать. Порядок расчета медианы:

Расположить данные в порядке возрастания (или убывания) значений признака.

Определить номер медианной единицы

(33)

где NMe- номер медианной единицы;

n - число единиц совокупности.

Определить медиану, т.е. значение признака соответствующее номеру медианной единицы.

Расчет медианы зависит от характера исходных данных, а именно, от четного или нечетного числа единиц совокупности, от вида признака (количественный или порядковый) и формы представления исходных данных (не сгруппированные данные, дискретный ряд распределения, интервальный ряд распределения).

Число единиц совокупности имеет значение при определении номера медианной единицы (NMe). При нечетном числе единиц совокупности в центре будет располагаться одно значение. Например, если совокупность состоит из 7 единиц, то в центре находится четвертая единица (). Значение признака у этой единицы и будет медианой. При четном числе единиц совокупности в центре будут располагаться два значения. Например, если совокупность состоит из 6 единиц, то в центре находятся третья и четвертая единицы. В этом случае, номер медианной единицы будет 3,5 (). Если признак количественный, то медиана будет рассчитываться как средняя арифметическая из значений признака у третьей и четвертой единиц. Если признак порядковый, то медиана будет определяться значениями признака у третьей и четвертой единиц.

Рассмотрим расчет медианы количественного признака для несгруппированных данных. Например, мы располагаем данными о годовых затратах компаний отрасли на рекламу:

Таблица 17

Затраты компаний отрасли на рекламу (млн. рублей в год)

Затраты на рекламу xi (млн.руб.)

9

19

22

20

27

37

38

23

12

11

23

20

17

23

35

12

23

16

35

18

Расположим данные в порядке возрастания:

Номер компании

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Затраты на рекламу xi (млн.руб.)

9

11

12

12

16

17

18

19

20

20

22

23

23

23

23

27

35

35

37

38

Определим номер медианной единицы, т.е. номер компании, которая находится в центре. В нашем примере четное число единиц совокупности, поэтому в центре ранжированой совокупности находятся две единицы, а именно 10-тая и 11-тая единицы. В этом случае номер медианной единицы равен 10,5:

Рассчитаем медиану, как среднюю арифметическую из 10-го и 11-го значений признака:

Интерпретация полученного результата: центральное значение расходов компаний на рекламу составляет 21 млн. руб. в год, таким образом, половина компаний отрасли тратит на рекламу меньше 21 млн. руб. в год, а другая половина - больше.

Рассмотрим расчет медианы количественного признака для дискретного ряда распределения. Например, мы располагаем данными о распределении студентов первого и второго курса университета по возрасту:

Таблица 18

Распределение студентов по возрасту

Возраст студентов (лет)

Количество студентов fi

Накопленная частота fiн

17

19

19

18

47

66

19

73

139

20

58

197

21

28

225

22

21

246

23

17

263

24

11

274

25

4

278

26

1

279

27

2

281

Итого

281

X

Поскольку в рядах распределения данные ранжированы, расчет медианы начинают с определения номера медианной единицы:

Чтобы определить значение признака медианной единицы рассчитывают накопленные частоты (f). Для первого варианта признака накопленная частота совпадает с частотой:

f=f1

Последующие значения накопленных частот рассчитывают по формуле:

f=fi-1н+fi (34)

В нашем примере:

f=19;

f=19+47=66;

f=66+73=139 и так далее.

Медиана будет соответствовать варианту признака, накопленная частота которого первой превышает или равна номеру медианной единицы. В нашем примере накопленная частота первой превышающая номер медианной единицы равна 197. Поэтому медиана будет равна 20:

Рассмотрим расчет медианы количественного признака для интервального ряда распределения. Медиану интервального ряда распределения находят по формуле:

(35)

где x0- нижняя граница медианного интервала;

i -величина интервала;

- накопленная частота интервала, предшествующего медианному;

- частота медианного интервала;

- число единиц совокупности.

Рассчитаем медиану для интервального ряда распределения. Например, мы располагаем данными о распределении сотрудников компании по уровню заработной платы:

Таблица 19

Распределение сотрудников компании по уровню заработной платы

Группы сотрудников компании по уровню заработной платы (тыс. руб. в месяц)

Количество сотрудников fi

Накопленная частота fiн

до 10

18

18

10 - 20

21

39

20 - 30

38

77

30 - 40

44

121

40 - 50

19

140

50 и выше

5

145

Итого

145

X

Рассчитаем номер медианной единицы:

Рассчитаем накопленные частоты:

f=18;

f=18+21=39;

f=39+38=77 и так далее.

Находим медианный интервал (интервал в котором находится медиана). Медианным будет интервал, накопленная частота которого первой превышает или равна номеру медианной единицы. В нашем примере накопленная частота первой превышающая номер медианной единицы равна 77. Поэтому интервал от 20 до 30 тыс. рублей будет медианный.

Рассчитываем медиану, используя формулу:

Рассмотрим расчет медианы порядковых признаков. Порядковыми называются качественные признаки, которые можно ранжировать. Рассчитаем медианный уровень образования сотрудников компании.

Таблица 20

Распределение сотрудников компании по уровню образования

Группы сотрудников по уровню образования xi

Количество сотрудников fi

Накопленная частота fiн

Основное общее

1

1

Среднее (полное) общее

11

12

Среднее профессиональное

31

43

Неполное высшее профессиональное

24

67

Высшее профессиональное

28

95

Итого

95

X

Определим номер медианной единицы:

Сравнив номер медианной единицы и накопленные частоты, определим значение признака сорок восьмой единицы, которое соответствует неполному высшему образованию.

Как отмечалось выше, при четном числе единиц совокупности в центре находятся два значения. Если находящиеся в центре ранжированного ряда единицы имеют различное значение порядкового признака, то оба эти значения будут медианами. Например, рассмотрим список рейтингов надежности облигаций:

Таблица 21

Рейтинг надежности облигаций

Рейтинг

BB

A

B

AAA

B

AAA

AA

BBB

A

BBB

Для определения медианы ранжируем облигации по рейтингу:

Номер

1

2

3

4

5

6

7

8

9

10

Рейтинг

B

B

BB

BBB

BBB

A

A

AA

AAA

AAA

Определим номер медианной единицы:

Мы видим, что в центре ранжированной совокупности находятся пятая и шестая единицы, имеющие различные значения признака и оба эти значения будут медианами:

Me=BBB, A (36)

Интерпретация полученного результата: половина облигаций имеет рейтинг надежности BBB и ниже, а у другой половины облигаций рейтинг надежности A и выше.

Мода - вариант признака, имеющий наибольшую частоту. Моду используют в тех случаях, когда хотят охарактеризовать наиболее часто встречающееся значение признака.

Расчет моды для несгруппированных данных состоит в определении наиболее часто встречающегося значения. Например, модальные затраты компаний на рекламу по данным табл. 17 составляют 23 млн. рублей в год, так именно это значение встречается чаще остальных. Если два варианта признака встречаются чаще остальных, то будет соответственно две моды.

Расчет моды для дискретного ряда распределения состоит в определении признака имеющего наибольшую частоту. Например, модальный возраст студентов по данным табл. 18 составляют 19 лет, так именно это значение признака имеет наибольшую частоту (fi=73).

Моду для интервального ряда распределения определяют по формуле:

(37)

где x0- нижняя граница модального интервала;

i -величина модального интервала;

fMe- частота модального интервала;

fMe-1- частота интервала, предшествующего модальному;

fMe+1- частота интервала, следующего за модальным.

Модальным называется интервал с наибольшей частотой. Внутри этого интервала находят значение признака, которому соответствует максимальная плотность распределения. Напомним, что плотность распределения характеризует число единиц совокупности, приходящееся на единицу измерения варьирующего признака. Данная категория была рассмотрена в 3 главе.

Рассчитаем моду для интервального ряда распределения по данным таблицы 22.

Таблица 22

Распределение компаний отрасли по объему продаж

Группы компаний по объему продаж (млн. руб.)

Количество компаний fi

до 5

7

5 - 10

11

10 - 15

23

15 - 20

20

20 - 25

10

25 и выше

5

Итого

76

Определим модальный интервал. В нашем примере наибольшая частота у интервала от 10 до 15 млн. рублей.

Рассчитаем моду, используя формулу:

Интерпретация полученного результата: максимальное значение плотности распределения соответствует значению признака в 14 млн. рублей.

Расчет моды для порядковых и атрибутивных признаков не представляет сложности с математической точки зрения и состоит в определении значения признака, которое встречается чаще остальных. Так по данным таблицы 20. модальным уровнем образования сотрудников компании будет среднее профессиональное образование, так как именно оно встречается у наибольшего числа единиц совокупности, а именно, у 31-го сотрудника.

Наибольший практический интерес представляет определение моды для атрибутивных, то есть качественных, признаков. Это связано с тем, что атрибутивные признаки нельзя складывать и невозможно ранжировать. Поэтому для атрибутивных признаков нельзя рассчитать среднюю и медиану. Таким образом, мода является единственным показателем, характеризующим типичный уровень атрибутивных признаков.

Средняя, медиана и мода характеризуют типичное значение признака в изучаемой совокупности. Вместе с тем каждый из перечисленных показателей имеет свою экономическую интерпретацию и особенности применения. Использование перечисленных показателей зависит от вида признака и характера распределения. В таблице 23 показана возможность применения средних характеристик для различных видов признаков.

Таблица 23

Использование средних показателей

Признак/Средняя характеристика

Средняя

Медиана

Мода

Атрибутивный

-

-

+

Порядковый

-

+

+

Количественный

+

+

+

Типичный уровень атрибутивного признака можно охарактеризовать только с помощью моды, так как для атрибутивных данных невозможно рассчитать медиану и среднюю.

В анализе распределений порядковых признаков используют медиану и моду. Порядковые данные не имеют среднего значения. Как отмечалось выше, порядковые признаки могут быть выражены понятием (например уровень образования или рейтинги облигаций) или числом (например тарифный разряд). Невозможность рассчитать среднюю для выраженных понятием порядковых признаков очевидна. Однако, даже когда порядковый признак выражен числом, за этими числами по сути стоят понятия. Например, нельзя утверждать, что разница между первым и вторым тарифным разрядами такая же, как между пятым и четвертым. Можно утверждать, что шестой разряд выше второго, однако, нельзя утверждать, что шестой разряд в два раза больше второго. Поэтому расчет среднего значения выраженных числом порядковых признаков формально возможен, но по сути не имеет экономического смысла. Таким образом, типичное значение порядкового признака может быть выражено с помощью медианы и моды. При этом медиана отражает значение признака наиболее близкого ко всем единицам совокупности, а мода, характеризует наиболее распространение значение признака.

В анализе распределений количественных признаков для однородной совокупности обычно рассчитывают все три показателя. При этом соотношение значений средней, медианы и моды позволяют судить о характере распределения. Если данные распределены симметрично, то значения средней медианы и моды совпадают (Рис. 20) Если распределение характеризуется ассиметрией, то значения средней и медианы отличаются. В распределениях с левосторонней ассиметрией значение средней меньше значений медианы и моды. В распределениях с правосторонней ассиметрией значение средней больше значений медианы и моды (Рис. 21).

Рис. 20. Симметричное распределение

Рис. 21. Правосторонняя асимметрия

Среднее значение признака является наиболее предпочтительной характеристикой типичного уровня количественного признака, когда распределение близко к нормальному. В случае ассиметричного распределения медиана лучше средней величины отражает типичный для большинства единиц совокупности уровень признака.

Аномальные значения (значения существенно отличающиеся от других) не влияют на расчет медианы, но могут оказать существенное влияние на среднее значение признака. Поэтому, медиана является наиболее предпочтительной, по сравнению со средней величиной, характеристикой типичного уровня признака неоднородных совокупностей.

Дополнительно к медиане для характеристики структуры совокупности используют другие виды квантилей. Квантили характеризуют варианты значений признака, занимающие определенное место в ранжированной совокупности. К квантилям относят такие характеристики как медиана, квартили, квинтили, децили и перцентили. Квартили - это значения признака в упорядоченной по возрастанию совокупности, которые делят совокупность на четыре равные части. Первая или нижняя квартиль (Q1) характеризует значение признака, меньше которого расположено 25% единиц совокупности, а больше - 75%. Вторая квартиль соответствует медиане (Q2=Me), т.е. у 50% единиц совокупности значение признака меньше второй квартили, а у 50% - больше. Третья или верхняя квартиль (Q3) характеризует значение признака, меньше которого расположено 75% единиц совокупности, а больше - 25%.

Квинтили - это значения признака в упорядоченной по возрастанию совокупности, которые делят совокупность на пять равных частей. Первая или нижняя квинтиль (K1) характеризует значение признака, меньше которого расположено 20% единиц совокупности, а больше - 80%. Четвертая или верхняя квинтиль (K4) характеризует значение признака, меньше которого расположено 80% единиц совокупности, а больше - 20%.

Децили - это значения признака в упорядоченной по возрастанию совокупности, которые делят совокупность на десять равных частей. Первая или нижняя дециль (D1) характеризует значение признака, меньше которого расположено 10% единиц совокупности, а больше - 90%. Девятая или верхняя дециль (D9 ) характеризует значение признака, меньше которого расположено 90% единиц совокупности, а больше - 10%.

Перцентили - это значения признака в упорядоченной по возрастанию совокупности, которые делят совокупность на сто равных ча