- •Тема 1. Общие идеи. Постановка проблемы и выдвижение гипотез
- •1. Идея метода
- •2. Постановка проблемы и выдвижение гипотез
- •3. Требования к теории
- •Тема 2. Понятия ковариации и каузации. Каузальная модель теории
- •1. Ковариация и каузация
- •2. Понятие функциональной связи
- •3. Построение каузальной модели
- •Тема 3. Понятие операционализации, альтернативные и рабочие гипотезы
- •1. Альтернативные гипотезы
- •2. Процедура операционализации
- •3. Рабочие гипотезы, их отличие от альтернативных гипотез
- •Тема 4. Измерение. Ошибки измерения
- •1. Понятие измерения
- •2. Ошибки измерения
- •Тема 5. Валидность и надежность измерения
- •1. Понятие валидности
- •2. Способы валидизации
- •3. Надежность измерения
- •Тема 6. Построение анкеты
- •1. Структура анкеты
- •Уважаемые сограждане!
- •Сводная таблица данных1
- •2. Виды вопросов и их формулировка
- •3. Расположение вопросов и ответов
- •4. Предварительное опробование анкеты
- •Тема 7. Формирование выборки
- •1. Генеральная совокупность и выборка
- •2. Способы построения выборки
- •3. Определение объема выборки
- •Тема 8. Проведение опроса
- •1. Опрос и его виды и способы организации
- •2. Проведение опроса
- •3. Контроль над проведением опроса
- •4. Вторичный анализ данных опроса
- •Тема 9. Интервью
- •1. Определение интервью. Выборочное интервью
- •2. Направленное интервью
- •3. Специализированное интервью
- •Тема 10. Социологический эксперимент
- •1. Понятие переменной
- •2. Классический эксперимент в социологии
- •3. Способы подбора групп, участвующих в эксперименте. Полевой эксперимент и квазиэксперимент
- •Тема 11. Контент-анализ
- •1. Определение контент-анализа
- •2. Содержательный контент-анализ
- •3. Структурный контент-анализ
- •4. Что нужно учитывать при проведении контент-анализа
- •Тема 12. Описание и анализ данных: таблицы, диаграммы, гистограммы
- •1. Перечневая таблица
- •2. Графическое изображение
- •3. Другие способы представления данных
- •4. Правила оформления данных
- •Тема 13. Анализ номинальных и порядковых переменных
- •1. Анализ номинальных переменных
- •2. Анализ порядковых переменных
- •Тема 14. Анализ интервальных переменных
- •1. Понятия средней арифметической и стандартного отклонения
- •2. Анализ нормального распределения
- •Тема 15. Анализ связей между номинальными переменными
- •1. Связь двух номинальных переменных с двумя значениями. Понятие Хи-квадрата
- •2. Связь двух номинальных переменных, имеющих больше двух значений
- •3. Связь между несколькими номинальными переменными
- •Тема 16. Анализ связи между порядковыми переменными
- •1. Определение связи между двумя порядковыми переменными
- •2. Определение связи между таблицами с порядковыми переменными
- •Тема 17. Анализ связей между интервальными переменными
- •1. Понятие линии регрессии. Определение коэффициента связи между интервальными переменными
- •2. Проверка коэффициента связи на статистическую значимость
- •3. Смысл коэффициента корреляции Пирсона
- •Тема 18. Пример социологического исследования
2. Анализ порядковых переменных
При порядковом уровне измерения мы имеем больше информации, так как позиции упорядочены, т. е. проранжированы. Поэтому, с одной стороны, можно при желании, конечно, использовать понятие моды. Рассмотрим данные табл. 13.3. Очевидно, что модой здесь будет строка «Скорее положительно, чем отрицательно», так как ей соответствует наибольшее количество случаев – 430. Но, с другой стороны, упорядоченность позиций позволяет использовать более сложные понятия, такие, как медиана и дисперсия, обозначим их Ме и δ.
Медиана − значение (строка), выражающее среднюю тенденцию для порядковых переменных. Чтобы пояснить, как определяется медиана, обратимся к табл. 13.3.
Таблица 13.3
Как Вы сегодня оцениваете состояние медицинского обслуживания? |
Абс. числа |
Кумуляты |
1. Положительно |
129 |
129 |
2. Скорее положительно, чем отрицательно |
430 |
559 |
3. Скорее отрицательно, чем положительно |
390 |
949 |
4. Отрицательно |
193 |
1142 |
Здесь мы имеем упорядоченное распределение значений переменной: от «Положительно» через промежуточные значения до «Отрицательно».
Чтобы узнать медиану, нужно в каждую строку, двигаясь сверху (или, наоборот, снизу) вписывать сумму числовых значений предыдущих строк плюс числовое значение данной строки. Такая сумма с нарастанием называется кумулятой (накоплением). На табл. 13.3 кумуляты (они показаны в третьем столбце) определяются через движение от верхней строки вниз. Нам нужно определить строку, кумулята которой включает 50%. Это строка и будет медианой.
В нашем примере 50% выборки равны 571, так как вся выборка равна 1142. Число 571 входит в кумуляту третьей строки (949), которая, следовательно, является медианой. Итак, медианой в данном случае является значение «Скорее отрицательно, чем положительно»1.
Теперь по аналогии с номинальным распределением мы должны выяснить, насколько медиана репрезентативна, в данном случае – насколько близко вокруг медианы группируются остальные значения переменной. Для этого нужно определить дисперсию распределения.
Мы делим всю выборку на шаги, их называют квантили (от слова «квант» – порция). Величина квантиля, вообще говоря, зависит от нашего выбора. Эти шаги-квантили могут быть равны 20% выборки (квинтельный шаг), или 25% (квартильный шаг), или 10% (децильный шаг), или 1% (персентильный шаг).
Общее правило таково: дисперсия равна разности между номером строки предпоследнего шага и номером строки первого шага. Запишем правило в виде формулы:
δ = qn-1 – q1.
Здесь q – номер строки.
Возьмем в качестве шага 20% выборки. Вся выборка в таком случае исчерпывается в пять шагов. Первый шаг равен 228,4 (20% от 1142). Это число входит во вторую строку. Предпоследний, четвертый шаг равен 913,6 (80% от 1142), ему соответствует третья строка. Определяем дисперсию: 3 – 2 = 1.
Малая величина дисперсии говорит о том, что значения переменной достаточно близко группируются вокруг медианы и, следовательно, медиана репрезентативна.
Предположим теперь несколько иное распределение значений порядковой переменной (табл. 13.4).
Таблица 13.4
Как Вы сегодня оцениваете состояние медицинского обслуживания? |
Абс. числа
|
Кумуляты |
1. Положительно |
430 |
430 |
2. 2. Скорее положительно, чем отрицательно |
129 |
559 |
3. 3. Скорее отрицательно, чем положительно |
193 |
752 |
4. Отрицательно |
390 |
1142 |
Здесь медиане будет соответствовать снова третья строка, то есть значение переменной «Скорее отрицательно, чем положительно».
Но первому шагу (228,4) будет соответствовать уже первая строка, а предпоследнему шагу (913,6) будет соответствовать четвертая строка. Дисперсия теперь равна 3 (4 – 1).
Большая дисперсия означает, что медиана не очень репрезентативна.
И действительно, мы видим, что основные числовые показатели (430 и 390) теперь не группируются вокруг медианы, они рассредоточены в крайних значениях переменной: первой и последней строках.
Попробуем выяснить, как должно выглядеть распределение переменной при нулевой дисперсии. В этом случае и первый и предпоследний шаги должны содержаться в одной строке.
Пусть это будет вторая строка. Это означает, что числовое значение первой строки должно быть меньше 228,4, а кумулята второй строки должна быть больше или равна 913,6. Строим соответствующую табл. 13.5.
Таблица 13.5
Как Вы сегодня оцениваете состояние медицинского обслуживания? |
Абс. числа |
Кумуляты |
1. Положительно |
210 |
210 |
2. Скорее положительно, чем отрицательно |
900 |
1110 |
3. Скорее отрицательно, чем положительно |
20 |
1130 |
4. Отрицательно |
12 |
1142 |
Мы видим, что при нулевой дисперсии вторая строка, которая одновременно соответствует медиане, сосредоточивает в себе подавляющее большинство значений переменной – около 80%.
Посмотрим теперь, как изменятся дисперсии, если мы выберем шаг в 25% выборки. Теперь должно быть всего четыре шага. Вернемся к табл. 13.3. Здесь первый шаг равен 285,5 (25% от 1142). Он снова оказывается во второй строке. Предпоследний, третий шаг равен 856,5 (75% от 1142). Он тоже оказывается в третьей строке. Дисперсия тоже равна 1.
В табл. 13.4 первый шаг в 25% оказывается в первой строке, а предпоследний шаг – в четвертой строке. Дисперсия равна 3 (4 – 1). Получается, что в табл. 13.4 медиана тоже менее репрезентативна, чем в табл. 13.3.
Выясним, чему будут равны дисперсии при децильном шаге, то есть 10% от выборки. Здесь вся выборка исчерпывается в 10 шагов.
В табл. 13.3 первый шаг будет равен 114,2 (10% от 1142), ему соответствует первая строка, предпоследний шаг будет равен 1027,8 (90% от 1142), ему соответствует четвертая строка. Дисперсия будет равна 3 (4 – 1).
В табл. 13.4 первому шагу будет соответствовать первая строка, предпоследнему шагу будет соответствовать четвертая строка. Дисперсия будет снова равна 3 (4 – 1).
Итак, можно считать, что в общем и целом медиана табл. 13.3 репрезентативней медианы табл. 13.4, хотя обе медианы находятся в одной и той же строке.
Рассмотрим случай, когда значений переменной больше 4. Допустим, мы заинтересовались распределением работников различного уровня квалификации в случайной выборке из 100 любителей подледного лова. Здесь мы имеем пять значений порядковой переменной (см. табл. 13.6).
Начинаем с определения медианы. Исследуя столбец с кумулятами, обнаруживаем, что 50% выборки, так сказать, экватор, находится между второй и третьей строками. Действительно, двигаясь сверху, мы набираем 50% выборки во второй строке, а двигаясь снизу (четвертый столбец), получаем 50% выборки в третьей строке. Это означает, что медианой будут одновременно значения переменной «Рабочий средней квалификации» и «Рабочий высокой квалификации».
Таблица 13.6
Любители подледного лова |
Абс. числа |
Кумуляты сверху |
Кумуляты снизу |
1. Рабочие низкой квалификации |
30 |
30 |
100 |
2. Рабочие средней квалификации |
20 |
50 |
70 |
3. Рабочие высокой квалификации |
15 |
65 |
50 |
4. Инженеры среднего звена |
15 |
80 |
35 |
5. Инженеры высшего звена |
20 |
100 |
20 |
Определяем дисперсию при шаге 20%. Первый шаг соответствует числу 20, которое входит в числовое значение первой строки. Предпоследний шаг соответствует числу 80, которое входит в кумуляту четвертой строки. Дисперсия равна 3 (4 – 1).
Получается, что наиболее типичной фигурой среди любителей подледного лова является рабочий средней или высокой квалификации, причем типичность этой фигуры не так уж велика ввиду большой дисперсии.
Определим дисперсию при шаге 10%. Первый шаг соответствует числу 10, которое входит в числовой значение первой строки. Предпоследний шаг соответствует числу 90, которое входит в кумуляту пятой строки. Дисперсия равна 4 (5 – 1).
Следует заметить, что при больших дисперсиях, так как медиана является мало репрезентативной, распределение лучше рассматривать по аналогии с номинальным уровнем.
Например, в последнем случае можно принять в качестве моды значение переменной «Рабочий низкой квалификации» с коэффициентом вариации 0,7 (1 – 30/100).
Или в случае табл. 13.4, где тоже большая дисперсия, можно определить в качестве моды значение переменной «Положительно» с коэффициентом вариации 0,62 (1 – 430/1142) или рассматривать распределение как бимодальное (моды – первая и последняя строки).