- •Введение
- •Тема 1. Общие аспекты применения математических методов в социологическом анализе
- •1.1.Статистические закономерности в анализе социологической информации: принципы моделирования реальности
- •Специфика математико-статистических методов применительно к социологической информации
- •Задачи математики применительно к социологической информации
- •1. 4. Сложности использования математических методов в социологии
- •Проблемы соотношения выборки и генеральной совокупности.
- •Отсутствие строгих обоснований возможности применения конкретных методов математической статистики.
- •Использование шкал низких типов.
- •Необходимость соотнесения модели метода с содержанием социологической задачи.
- •Тема 2. Общая характеристика процедуры анализа данных
- •2.1. Социологические данные
- •2. 2. Общие принципы анализа данных
- •Тема 3. Анализ одномерных распределений
- •Необходимость анализа одномерных распределений в социологии
- •3. 2. Меры средней тенденции
- •3.3. Дисперсия
- •Мера качественной вариации
- •3. 5. Энтропийный коэффициент разброса
- •Тема 4. Типы шкал и методы анализа информации
- •1. Номинальная шкала
- •4. 2. Ранговая шкала
- •4. 3. Интервальная шкала
- •Тема 5. Анализ двухмерных распределений
- •Общая характеристика двухмерных распределений
- •5.2. Показатели связи в двухмерных распределениях
- •Тема 6. Анализ связей между номинальными признаками
- •6.1. Общая характеристика подходов к анализу номинальных данных
- •6. 2. Анализ связей типа «признак-признак»
- •6.2.2. Коэффициенты связи, основанные на моделях прогноза
- •6.2.3. Коэффициенты связи, основанные на понятии энтропии.
- •6.2.4. Коэффициенты связи для четырехклеточных таблиц сопряженности.
- •6.2.5. Многомерные отношения преобладаний.
- •1. Если 1 дихотомический признак.
- •2. Если 2 дихотомических признака.
- •3. Если 3 дихотомических признака.
- •6.3. Анализ связей типа «альтернатива-альтернатива»
- •Анализ связей типа «группа альтернатив - группа альтернатив»
- •6.4.1. Анализ фрагментов таблиц сопряженности
- •6.4.2. Методы поиска сочетаний значений независимых признаков (предикторов).
- •Анализ связей типа «признак - группа признаков»
- •6.5.1. Номинальный регрессионный анализ (нра)
- •6.5.2. Логит- и пробит- модели
3. 5. Энтропийный коэффициент разброса
Степень неопределенности распределения случайной величины Y определяется с помощью энтропии этого распределения. Пусть случайная величина Y принимает значения 1,2, ..., k с вероятностями, равными Р1, Р2, ..., Рk (вероятность отождествляется с относительной частотой встречаемости этого значения). Введем обозначение:
Рj = P (Y = j)
Энтропией случайной величины Y (распределения) называется функция (формула Больцмана) вида:
,
где основание логарифма произвольно.
Пусть некие независимые признаки U и V принимают k и l равновероятностных значений.32 Рассмотрим, каким свойствам должна удовлетворять функция f, характеризующая неопределенность распределений признаков.
F = f (k),
т.е. рассматриваемая функция зависит от числа градаций того признака, неопределенность распределения которого она измеряет и f(1) = 0. Для k > l должно быть справедливо неравенство
f (k) > f (l).
Число сочетаний значений признаков равно произведению kl. Степень неопределенности двумерного распределения f(kl) должна быть равна сумме неопределенностей соответствующих одномерных распределений, т.е. f(kl) = f(k) + f(l). Логарифмическая функция единственная функция аргумента k, удовлетворяющая условиям: f (k l) = f (k) + f(l), f (1) =0, f(k) >f (l) при k > l .
Энтропия может быть нулевой и ненулевой.
1) H (Y) = 0. Равенство достигается тогда, когда Y принимает только одно значение. Это ситуация максимальной определенности: случайным образом выбрав объект, мы точно знаем, что для него рассматриваемый признак принимает упомянутое значение (рис.9)
Рис. 9. Распределение с нулевой энтропией
Единственная отличная от нуля вероятность здесь равна 1. Для такого распределения энтропия действительно равна нулю.
2) При фиксированном k значение энтропии максимально, когда все возможные значения Y равновероятны. Это ситуация максимальной неопределенности. Предположим, например, что k = 5 (рис. 10)
Рис. 10. Распределение с максимальной энтропией при заданном числе градаций признака
Здесь Pj = 0,2 и значение энтропии при этом равно log 5, а в общем случае в ситуации полной неопределенности энтропия равна log k. Чем больше градаций имеет признак, тем большей энтропии может достичь отвечающее ему распределение.
На рис. 9 и 10 мы видим 2 варианта:
минимальная (нулевая) энтропия, наилучший прогноз, полная определенность;
максимальная энтропия (равная log k и поэтому зависящая от числа градаций рассматриваемого признака), наихудший прогноз, полная неопределенность.
На рис.9 разброс рассматриваемого признака равен нулю, а на рис.10 — максимально большой. Энтропия будет тем больше, чем реальное распределение ближе к ситуации, отраженной на рис 10, и тем меньше, чем оно ближе к ситуации, отраженной на рис.9. Поэтому энтропия может использоваться при оценке степени разброса значений номинального признака. Однако максимальное значение энтропии для распределения какого-либо признака зависит от числа его градаций. Энтропия не может выступать в качестве меры разброса — значение энтропии необходимо нормировать, поделить на величину максимальной энтропии и получить энтропийный коэффициент
.