Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Рабочая книга социолога.doc
Скачиваний:
6
Добавлен:
03.11.2018
Размер:
5.22 Mб
Скачать

4. Средние величины и характеристики рассеяния значений признака

Группировка и построение частотного распределения — лишь первый этап статистического, анализа полученных данных. Следую­щим шагом обработки является получение некоторых обобщающих характеристик, позволяющих, глубже понять особенности объекта наблюдения. Сюда относится прежде всего среднее значение при­знака, вокруг которого варьируют остальные его значения, и степень колеблемости рассматриваемого признака. В математи­ческой статистике различают несколько видов средних величин среднее арифметическое, медиана, мода и т. д.; существует также несколько показателей колеблемости (мер рассеяния): вариационный размах, среднее квадратическое отклонение, среднее абсолютное отклонение, дисперсия и т.п.85

Среднее значение признака. Среднее есть абстрактная типиче­ская характеристика всей совокупности. Оно уничтожает, погашает, сглаживает случайные и неслучайные колебания, влияние индиви­дуальных особенностей и позволяет представить в одной величина некоторую -общую характеристику реальной совокупности единиц. Основное условие научного использования средних заключается в том, чтобы каждое среднее характеризовало такую совокупность единиц, которая в существенном отношении, и в первую очередь в отношении осредняемых значений признака, была бы качественно однородной. Среди всего многообразия средних практически наибо­лее часто используемой считается среднее арифметическое.

Среднее арифметическое. Среднее арифметическое есть часть от деления суммы всех значений признака .на их число. Обозначается оно . Формула для вычисления имеет вид

, (1)

где x1, …, xn – значения признака, n – число наблюдений.

По следующим данным вычислим среднее число газет, читаемых ежедневно индивидами в выборке из 10 человек:

Номер опрошенного i

1 2 3 4 5 6 7 8 9 10

Число читаемых газет xi

3 4 4 5 4 2 4 5 5 3

По формуле для находим

(газеты).

Формула (1) для сгруппированных данных преобразуется в сле­дующую:

,

где ni частота для i-го значения признака.

Если находят среднюю для интервального ряда распределения, то в качестве значения признака для каждого интервала условно принимают его середину.

Процедуру вычисления среднего по сгруппированным данным удобно выполнять по следующей схеме (табл. 3).

Таблица 3. Схема вычисления среднего арифметического

Интервал

Середина интервала (xi)

Частота (относительная) ni

Произведение xini

Последовательно выписываются все интервалы

x1

x2

.

.

xл

n1

n2

.

.

x1n1

x2n2

.

.

Существует ряд упрощенных приемов вычисления средних. На с. 163 как промежуточный этап рассмотрено вычисление среднего методом отсчета от условного нуля.

Пример. Вышеприведенные данные о количестве прочитанных газет сгруппируем следующим образом:

Номер опрошенного i

6

1 10

2 3 5 7

4 8 9

Число читаемых газет xi

2

3 3

4 4 4 4

5 5 5

Частота ni

1

2

4

3

Отсюда вычислим :

(газеты)

Медиана. Медианой называется значение признака у той еди­ницы совокупности, которая расположена в середине ряда частот­ного распределения.

Если в ряду четное число членов (2k), то медиана равна средне­му арифметическому из двух серединных значений признака. При нечетном числе членов (2k+1) медианным будет значение призна­ка у (k + 1) объекта.

Предположим, что в выборке из 10 человек респонденты проранжированы по стажу работы на данном предприятии:

Ранг опрошенного

1

2

3

4

5

6

7

8

9

10

Стаж

15

13

10

9

7

6

5

4

3

1

Серединные ранги 5 и 6, поэтому медиана равна

лет

В интервальном ряду с различными значениями частот вычисле­ние медианы распадается на два этапа: сначала находят медиан­ный интервал, которому соответствует первая из накопленных ча­стот, превышающая половину всего объема совокупности, а затем находят значение медианы по формуле

, (2)

где x0 — начало (нижняя граница) медианного интервала;  — ве­личина медианного интервала; — сумма частот (относитель­ных частот) интервалов; nH — частота (относительная), накоплен­ная до медианного интервала; nMe — частота (относительная) медианного интервала.

Проведем вычисление по данным табл. 2, где в нижней строке приведены накопленные относительные частоты. Первая из них превышающая половину совокупности (100/2 = 50%), равна 57,9% Следовательно, медиана принадлежит интервалу 3—4 года. Поэтому

Таким образом, для данной выборки медиана, равная 3,7 года, показывает, что 50% семей имеют соотношение возрастов, меньше этой величины, а другие 50% — большее. Медиана, может быть легко определена графически по кумуляте распределения (см. рис. 3).

Медиана может быть применена для дискретных переменных, хотя дробные значения, часто не имеют непосредственной содержа­тельной интерпретации.

По данным распределения рабочих по тарифным разрядам (см. с. 156) вычислим медиану этого распределения, используя приведенную выше формулу86. Получим

Узнали, что 50% рабочих имеют разряд, меньший 3,1, и 50% — больший.

Медиана, как уже отмечалось, делит упорядоченный вариацион­ный ряд на две равные но численности группы.

Наряду с медианой можно рассматривать величины, называемые квантилями, которые делят ряд распределения на 4 равные части, на 10 и т. д.

Квантили, которые делят ряд на 4 равные по объему совокупно­сти, называются квартилями. Различают нижний Q1/4 и верхний Q3/4 квартили (рис. 6). Величина Q1/2 является медианой. Вычисле­ние квартилей совершенно аналогично вычислению медианы:

; (3)

, (4)

где x0 — минимальная граница интервала, содержащего нижний (верхний) квартиль; nH частота (относительная частота), накоп­ленная до квартального интервала; nQ частота (относительная частота) квартильного интервала;  — величина квартального ин­тервала.

Процентили делят множество наблюдений на 100 частей с рав­ным числом наблюдений в каждой. Децили делят множество наблю­дений на десять равных частей. Квантили легко вычисляются по распределению накопленных частот (по кумуляте).

Мода. Модой в статистике называется наиболее часто встречаю­щееся значение признака, т. е. значение, с которым наиболее веро­ятно можно встретиться в серии зарегистрированных наблюдений.

В дискретном ряду мода (Мо)—это значение с наибольшей частотой.

В интервальном ряду (с равными интервалами) модальным яв­ляется класс с наибольшим числом наблюдений. Значение моды находится в его пределах и вычисляется по формуле

где x0 нижняя граница модального интервала;  — величина ин­тервала; частота интервала, предшествующего модальному; nMo — частота модального класса; частота интервала, следую­щего за модальным.

В совокупностях, в которых может быть произведена лишь опе­рация классификации объектов по какому-нибудь качественному признаку, вычисление моды является единственным способом ука­зать некий центр тяжести совокупности.

К недостаткам моды следует отнести следующие: невозможность совершать над ней алгебраические действия; зависимость ее величи­ны от интервала группировки, возможность существования в ряду распределения нескольких модальных значений признака (см., на­пример, рис. 4, в).

Сравнение средних. Целесообразность использования того или иного типа средней величины зависит по крайней мере от следую­щих условий: цели усреднения, вида распределения, уровня измере­ния признака, вычислительных соображений. Цель усреднения свя­зана с содержательной трактовкой рассматриваемой задачи. Однако форма распределения может существенно усложнить исследование средних. Если для симметричного распределения (см. рис. 4, а) мода, медиана и среднее арифметическое тождественны, то для асимметричного распределения это не так. На выбор средней мо­жет повлиять и вид распределения. Например, для ряда с откры­тыми конечными интервалами нельзя вычислять среднее арифмети­ческое, но если распределение близко к симметричному, можно под­считать тождественную ему в этом случае, медиану.

Показатели колеблемости (вариации) значений признаков. Для характеристики рядов распределения оказывается недостаточным указание только средней величины данного признака, поскольку два ряда могут иметь, к примеру, одинаковые средние арифметиче­ские, но степень концентрации (или, наоборот, разброса) значений признаков вокруг средней будет совершенно различной. Характери­стикой такого разброса служат показатели колеблемости — разность между- максимальным и минимальным значениями признака в не­которой совокупности (вариационный размах), а также другие по­казатели: среднее абсолютное (линейное) отклонение, среднее квадратическое отклонение и т. п.

Дисперсия. Дисперсией называется величина, равная среднему значению квадрата отклонений отдельных значений признаков от средней арифметической. Обозначается дисперсия s2 и вычисляется по формуле

(6)

Корень квадратный из дисперсии называется средним квадратическим отклонением и обозначается.

Геометрически среднее квадратическое отклонение является по­казателем того, несколько в среднем кривая распределения размы­та относительно ее среднего арифметического. Измеряется в тех же единицах, что и изучаемый признак.

При ручном счете для упрощения вычислений дисперсию (s) рассчитывают по формуле методом отсчета от условного нуля. Для интервального ряда с равными интервалами процедура следующая. Сначала вычисляются центры интервалов. Относительно какого-либо отобранного серединного интервала ряда, например А, вверх и вниз выписывается натуральный ряд чисел i) соответственно со знаком «плюс» и «минус»: 0, +1, +2 и т. д.; -1,

-2 и т. д. (табл. 4).

Далее вычисляются величины . В качестве проме­жуточного результата по формуле (7) получаем среднее арифметическое. Величина дисперсии получается подстановкой промежу­точных величин из табл. 4 в формулу (8).

Среднее арифметическое находится по формуле87

(лет) (7)

Тогда дисперсия равна

(8)

(лет)

Приведенные вычисления показывают, что при среднем возрасте 40 лет все остальные члены совокупности имеют возраст, который в среднем отклоняется от 40 лет на 7,8 лет, т. е. примерно на 20%.

Таблица 4 . Пример вычисления дисперсии*

Центр возрастной группы xi

Частота или относительная частота ni или mi

27,5

32,5

37,5

А = 42,5

15

37

52

44

-15

-10

-5

0

-3

-2

-1

0

9

4

1

0

-45

-74

-52

0

135

148

52

0

47,5

52,5

57,5

20

10

13

5

10

15

1

2

3

1

4

9

20

20

39

20

41

117

 = 5

* Численные данные о распределении кандидатов наук по возрастным группам в отделении экономики, истории, философии и права АН УССР (Организация науки/ Под ред. Г. М. Доброва, М., 1970, с. 148—149).

Среднее абсолютное отклонение. Эта мера вариации представля­ет собой среднее арифметическое из абсолютных величин откло­нений отдельных значений признака от их среднего арифметического

(9)

где означает, что суммируются значения отклонений без учета знака этих отклонений; — объем совокупности.

.Вместо среднего арифметического в формуле 9 часто берут моду или медиану. Для симметричных распределений мода, медиана и среднее арифметическое совпадают и выбор средней не представля­ет труда. Для асимметричного распределения иногда отдают предпочтение медиане.

Величина среднего квадратического отклонения всегда больше d и для достаточно большой выборочной совокупности с распределением признака, близкого к нормальному, связана с соотношением

Например, для данных табл. 4 вреднее линейное отклонение, под­считанное по формуле 9, равно d = 6,3 года. Тогда

s = 1,25*6,3 = 7,87

что с учетом погрешности вычислений совпадаете найденным ра­нее средним квадратическим отклонением. Таким образом, для пред­варительного анализа можно заменить вычисление менее трудо­емким вычислением.

Коэффициент вариации. Среднее линейное и среднее квадратическое отклонение являются мерой абсолютной колеблемости при­знака и всегда выражаются в тех же единицах измерения, в кото­рых выражен изучаемый признак. Это не позволяет сопоставлять между собой средние отклонения различных признаков (в случае разных единиц измерения) в одной и той же совокупности, а так­же одного и того же признака в разных совокупностях с различ­ными средними. Чтобы иметь такую возможность, средние отклонения часто выражаются через соотнесение в процентах к среднему арифметическому, т.е. в виде относительных величий.

Отношение среднего линейного или среднего квадратического отклонения к среднему арифметическому называется коэффициен­том вариации (V):

(11)

(12)

Очевидно, что тот из рядов имеет большее рассеяние, у которого коэффициент вариации больше.

Рассмотренные выше показатели вариации применимы лишь к количественным признакам, а точнее к признакам, измеренным не ниже чем по интервальной шкале. Применение этих мер для низ­ших уровней, строго говоря, некорректно и требует тщательной ин­терпретации полученных результатов.

Вариации качественных признаков. Если признак имеет k взаимоисключающих градаций, то для вычисления индекса качествен­ной вариации применяется - процедура, поясняемая .следующим примером.

Пусть получено следующее распределение ответов (взаимоис­ключающих) на вопросы А, В и С (колонка 1):

1

2

A

30

40

B

20

40

C

70

40

120

120

Во вторую колонку запишем такие частоты, которые получи­лись бы при равномерном заполнении всех трех вопросов, т. е. 120/3 = 40. Теперь вычислим величину

(13)

Этот показатель называется индексом качественной вариации и указывает на степень неоднородности полученных ответов. Если бы все ответы попали лишь в одну градацию, то J=0, что означа­ло бы полное единство в ответах, хотя, конечно, индекс совершенно не учитывает того, в какую именно градацию попали все эти ответы.

Совершенно аналогично индекс вычисляется при любом числе градаций. Но для альтернативных признаков вариация обычно под­считывается по формуле (14). Она отличается от J на константу, называется дисперсией, выражается в абсолютных числах и обо­значается s2:

(14)

Другой мерой вариации признака (независимо от уровня изме­рения) может служить так называемая энтропия — мера неопреде­ленности, вычисляемая по формуле

. (15)

Логарифм в этой формуле может быть взят по любому основанию. Энтропия обладает следующими свойствами:

а) энтропия равна нулю лишь в том случае, если вероятность полу­чения одного из значения xi, признака x равна единице (вероятность остальных значений при этом равна нулю). Такой признак не обла­дает неопределенностью, так как достоверно известно одно един­ственно возможное его значение. Во всех остальных случаях, когда имеется та или иная неопределенность в значениях xi, энтропия является положительной величиной;

б) наибольшей энтропией обладает признак, когда все, значения xi равновероятны. Для признака с k градациями

Отсюда видно, что максимальная энтропия увеличивается с ростом числа градаций в признаке,