- •Тема 1. Общие идеи. Постановка проблемы и выдвижение гипотез
- •1. Идея метода
- •2. Постановка проблемы и выдвижение гипотез
- •3. Требования к теории
- •Тема 2. Понятия ковариации и каузации. Каузальная модель теории
- •1. Ковариация и каузация
- •2. Понятие функциональной связи
- •3. Построение каузальной модели
- •Тема 3. Понятие операционализации, альтернативные и рабочие гипотезы
- •1. Альтернативные гипотезы
- •2. Процедура операционализации
- •3. Рабочие гипотезы, их отличие от альтернативных гипотез
- •Тема 4. Измерение. Ошибки измерения
- •1. Понятие измерения
- •2. Ошибки измерения
- •Тема 5. Валидность и надежность измерения
- •1. Понятие валидности
- •2. Способы валидизации
- •3. Надежность измерения
- •Тема 6. Построение анкеты
- •1. Структура анкеты
- •Уважаемые сограждане!
- •Сводная таблица данных1
- •2. Виды вопросов и их формулировка
- •3. Расположение вопросов и ответов
- •4. Предварительное опробование анкеты
- •Тема 7. Формирование выборки
- •1. Генеральная совокупность и выборка
- •2. Способы построения выборки
- •3. Определение объема выборки
- •Тема 8. Проведение опроса
- •1. Опрос и его виды и способы организации
- •2. Проведение опроса
- •3. Контроль над проведением опроса
- •4. Вторичный анализ данных опроса
- •Тема 9. Интервью
- •1. Определение интервью. Выборочное интервью
- •2. Направленное интервью
- •3. Специализированное интервью
- •Тема 10. Социологический эксперимент
- •1. Понятие переменной
- •2. Классический эксперимент в социологии
- •3. Способы подбора групп, участвующих в эксперименте. Полевой эксперимент и квазиэксперимент
- •Тема 11. Контент-анализ
- •1. Определение контент-анализа
- •2. Содержательный контент-анализ
- •3. Структурный контент-анализ
- •4. Что нужно учитывать при проведении контент-анализа
- •Тема 12. Описание и анализ данных: таблицы, диаграммы, гистограммы
- •1. Перечневая таблица
- •2. Графическое изображение
- •3. Другие способы представления данных
- •4. Правила оформления данных
- •Тема 13. Анализ номинальных и порядковых переменных
- •1. Анализ номинальных переменных
- •2. Анализ порядковых переменных
- •Тема 14. Анализ интервальных переменных
- •1. Понятия средней арифметической и стандартного отклонения
- •2. Анализ нормального распределения
- •Тема 15. Анализ связей между номинальными переменными
- •1. Связь двух номинальных переменных с двумя значениями. Понятие Хи-квадрата
- •2. Связь двух номинальных переменных, имеющих больше двух значений
- •3. Связь между несколькими номинальными переменными
- •Тема 16. Анализ связи между порядковыми переменными
- •1. Определение связи между двумя порядковыми переменными
- •2. Определение связи между таблицами с порядковыми переменными
- •Тема 17. Анализ связей между интервальными переменными
- •1. Понятие линии регрессии. Определение коэффициента связи между интервальными переменными
- •2. Проверка коэффициента связи на статистическую значимость
- •3. Смысл коэффициента корреляции Пирсона
- •Тема 18. Пример социологического исследования
3. Определение объема выборки
Допустим, мы определились с составом выборки исследуемых объектов. Теперь нужно определить ее величину, или объем. Этот объем выборки зависит от следующих факторов.
Первый – степень однородности генеральной совокупности. Речь идет о том, насколько члены генеральной совокупности совпадают между собой по изучаемым свойствам. Например, если все члены генеральной совокупности одной национальности, одного возраста, образования, семейного положения, все как один собиратели этикеток со спичечных коробков с одинаковыми марками автомобилей и уровнем достатка и т. д., то в идеале репрезентативная выборка может состоять из одного человека. Но если, наоборот, каждый индивидуум не похож на другого по всем интересующим нас параметрам, то репрезентативная выборка совпадет с генеральной совокупностью. В первом случае генеральная совокупность будет полностью гомогенной, во втором – полностью гетерогенной. Обычно реальные генеральные совокупности располагаются между этими двумя крайними позициями. Но ясно, что действует правило: чем более гомогенной является генеральная совокупность, тем меньшей по объему может быть репрезентативная выборка; и чем более гетерогенной является генеральная совокупность, тем больше по объему должна быть репрезентативная выборка.
Но можно сформулировать степень гетерогенности выборки иначе: чем больше вопросов в анкете и чем более разнообразные варианты ответов, тем больше по объему должна быть репрезентативная выборка.
Допустим, в нашей анкете 20 вопросов, каждому вопросу соответствует в среднем 5 вариантов ответа: «Да», «Скорее да, чем нет», «Скорее нет, чем да», «Нет», «Затрудняюсь ответить».
Всего получается 100 вариантов ответов (5 х 20). Каждый вариант ответа, чтобы он был значимым для установления связей, должны указать (в идеале) как минимум 25 респондентов. Таким образом, получается, что общее число заполненных анкет должно быть 2 500 штук.
Но представим, что в анкете всего 10 вопросов. Тогда уменьшается требуемое число заполненных анкет, теперь их должно быть 1250 (5 х 10 х 25).
Второе. Свойства любой выборки, даже близкой по размерам с генеральной совокупности, не будут совершенно теми же, что и свойства самой генеральной совокупности. Это несоответствие между свойствами выборки и свойствами генеральной совокупности называется ошибкой выборки. Какой должна быть допустимая ошибка, чтобы выборка все же считалась репрезентабельной?
Это зависит от характера исследования. Допустим, мы проводим опрос избирателей, чтобы уточнить шансы на победу двух кандидатов на выборах мэра города. Из результатов ранее проведенных опросов известно, что распределение предпочтений избирателей находится в пропорции примерно 49 и 51%. Это значит, что мы в своем исследовании точно не должны допустить, чтобы ошибка выборки была больше 1%. Действительно, при такой ошибке может получиться ситуация 50 на 50 (49% + 1% и 51% – 1%) или ситуация 48 на 52% (49% – 1 % и 51% + 1%), и это усложнит получение каких-либо определенных выводов. А если ошибка выборки будет еще больше, то мы точно не сможем сказать что-либо определенное по поводу шансов кандидатов на победу.
Но пусть предварительные прикидки говорят, что у кандидатов разрыв в шансах 20 и 80%. Тогда мы можем разрешить себе ошибку выборки даже в 10%. Действительно, в крайнем случае мы получим в результате исследования соотношение 30 и 70% (20% + 10% и 80% – 10%). То есть даже с такой ошибкой выборки мы вполне сможем уловить масштаб различия между кандидатами.
Но, разумеется, в любом случае, будь это ошибка в 10% или 1%, соответствующая этой ошибке часть выборки должна быть достаточно ощутимой по величине. Допустим, что наша выборка состоит из 1000 объектов. Тогда ошибке выборки в 1% будет соответствовать всего 10 объектов, которые могут оказаться в пределах случайной погрешности измерения. Если же объем выборки будет равен 5000 объектов, то даже 1% будет соответствовать 50 объектам, которые уже с меньшей вероятностью могут оказаться результатом погрешности измерения.
Вывод: чем меньшую ошибку выборки мы можем себе позволить, тем больше по объему должна быть выборка.
Третье. Каждая выборка дает информацию о свойствах генеральной совокупности с той или иной ошибкой выборки. Однако очевидно, чем больше по объему будет выборка, тем с большей вероятностью мы обеспечим желаемую ошибку выборки. Вероятность, с которой мы можем получить заданную ошибку выборки, называют доверительной вероятностью.
Итак, объем выборки в конечном счете зависит от величины ошибки, которую мы можем себе позволить, и от выбранной доверительной вероятности, с которой свойства нашей выборки должны совпадать со свойствами генеральной совокупности в пределах заданной величины ошибки.
Объединяя второе и третье требования, можно сказать так: чем меньше должна быть ошибка выборки и больше доверительная вероятность, тем больше должна быть по объему выборка.
Чаще всего принимают доверительную вероятность равной 0,95 или 0,997.1 Число 0,95 означает, что только в 5 случаях из 100 ошибка выборки может выйти за желаемый размер. Число 0,997 означает, что только в 3 случаях из 1000 ошибка выборки может выйти за желаемый размер.
Объединим оба фактора в таблицах 7.3, 7.4 и 7.5.2 В них указаны минимальные объемы простых случайных выборок с разными уровнями ошибки выборки и доверительными вероятностями при генеральных совокупностях в 5000 объектов, 10 000 объектов и больше 100 000 объектов.
Таблица 7.3
Объемы выборок при генеральной совокупности 5 000 объектов
Ошибка выборки |
Доверительная вероятность |
|
0,95 |
0,997 |
|
±1% |
+ |
+ |
±2% |
1 667 |
+ |
±3% |
909 |
1667 |
±4% |
556 |
1098 |
±5% |
370 |
763 |
±10% |
98 |
– |
Знак + в третьем столбце означает, что выборка должна быть по объему по крайней мере больше, чем 50% генеральной совокупности. Например, при ошибке выборки ± 1% и при доверительной вероятности 0,95 выборка должна быть больше 2500 объектов.
Таблица 7.4
Объемы выборок при генеральной совокупности 10 000 объектов
Ошибка выборки |
Доверительная вероятность |
|
0,95 |
0,997 |
|
±1% |
5 000 |
+ |
±2% |
2 000 |
3600 |
±3% |
1 000 |
2000 |
±4% |
588 |
1233 |
±5% |
385 |
826 |
±10% |
99 |
– |
Таблица 7.5
Объемы выборок при генеральной совокупности 100 000 объектов и больше
Ошибка выборки |
Доверительная вероятность |
|
0,95 |
0,997 |
|
±1% |
10 000 |
22 500 |
±2% |
2 500 |
5 625 |
±3% |
1 111 |
2 500 |
±4% |
625 |
1 406 |
±5% |
400 |
900 |
±10% |
100 |
– |
Таблицы показывают, что объемы минимальной репрезентативной выборки растут не прямо пропорционально размерам генеральной совокупности. Например, при величине генеральной совокупности 5000, 10 000 и 100 000 и больше при одной и той же ошибке выборки 3% и доверительной вероятности 0,95 мы обнаруживаем лишь незначительное увеличение объема выборок: соответственно 909, 1000 и 1111 объектов.
Покажем, как пользоваться таблицами. Допустим, что нас устраивает ошибка выборки в ±4% при доверительной вероятности 0,997. Мы видим, что данным параметрам соответствует при генеральных совокупностях 5 000, 10 000 и больше 100 000 объектов минимальные выборки объемом соответственно 1098, 1233 и 1406 объектов.
При той же допустимой ошибке, но доверительной вероятности 0,95 минимальные выборки равны 556, 588 и 625 объектам.
Таблицу можно использовать иначе. Например, мы решили исследовать выборку, состоящую из 2 000 объектов при генеральной совокупности в 10 000 объектов. Тогда мы обнаруживаем, что эта выборка дает ошибку ±2% с доверительной вероятностью 0,95 или ошибку выборки ±3% с доверительной вероятностью 0,997. Каждый из этих вариантов одинаково приемлем1.
Очень часто в реальных исследованиях довольствуются доверительной вероятностью 0,95 и ошибкой в 2%. Это означает, что наиболее используемой является выборка объемом 2 500 объектов при генеральной совокупности объемом 100 000 и больше объектов.
137