Скачиваний:
91
Добавлен:
08.01.2014
Размер:
1.24 Mб
Скачать

1.1.4. Проблема пропущенных значений

Социолог постоянно сталкивается с ситуацией, когда значительная часть респондентов не дает ответа на какие-то вопросы анкеты. Если для “исправления” этого положения идти по наиболее простому пути - выбросить анкеты, содержащие хотя бы один пропуск, то мы почти наверняка останемся без репрезентативной выборки, поскольку в ее составе останется слишком мало объектов. Об этом свидетельствует практика социологических исследований.

Неразумно просто исключать из рассмотрения упомянутые анкеты и еще по одной причине. Скажем, зачем нам выбрасывать анкету с неотмеченным возрастом, если мы изучаем связь между доходом респондента и тем, за кого он голосовал на прошлых выборах? Вероятно, имеет смысл, рассчитывая любую статистику, выбрасывать именно те анкеты, в которых отсутствуют сведения, необходимые для такого расчета. Но и здесь мы рискуем отбросить слишком много анкет. Кроме того, у всякого исследователя может возникнуть сожаление о том, что, отбрасывая анкету из-за отсутствия в ней ответа на один из вопросов, он тем самым лишается возможности использовать всю, может быть весьма объемную и полезную информацию, содержащуюся в этой анкете. На помощь в таком случае может придти иной вариант решения проблемы - искусственное заполнение пропусков.

Известно много способов, позволяющих это сделать Алгоритмы..., 1984; Вапник, 1979; Загоруйко, 1979, с.105-118; Лакутин, 1982; Лбов, 1981, с.38-41,52-55; Литтл,Рубин,1991. Мы не будем их подробно рассматривать. Отметим лишь следующее немаловажное для социолога обстоятельство.

За каждым методом заполнения пропусков стоит своя модель массива пропущенных данных, свое представление о том, какие именно респонденты допускают пропуски. Применяя тот или иной алгоритм заполнения пропусков, исследователь фактически пользуется заложенной в этом алгоритме моделью, даже если он себе и не дает отчета в этом. Приведем примеры.

Один из самых распространенных способов - заполнение пропуска средним значением рассматриваемого признака (как мы увидим в п.1.2, выбор среднего должен быть согласован с типом используемых шкал). И исследователь должен понимать, что, поступая так, он рискует придать данным более ровный, “серый” характер, чем это имеет место в действительности. Можно поступать по-другому: проанализировать распределение признака для тех респондентов, которые ответили на соответствующий вопрос, и заполнять пропуски таким образом, чтобы получающееся в результате распределение имело тот же характер (этот способ отвечает рассматриваемому в п.2.3.2.3 пропорциональному прогнозу). Этот подход можно улучшать, осуществляя такую операцию не для всех пропущенных данных сразу. К примеру, предположим, что нам надо заполнить пропуски возраста. Распределение по возрасту мужчин может отличаться от аналогичного распределения женщин (имеем в виду людей, ответивших на соответствующий вопрос). Тогда имеет смысл, отобрав мужчин и определив для них вид распределения, далее именно этот вид моделировать при заполнении пропусков, сделанных мужчинами. Затем то же следует проделать для женщин.

В заключение лишь отметим, что существуют интересные работы, посвященные содержательному изучению того, кто именно не отвечает на определенные вопросы, и высказываются гипотезы о том, почему это делается Клюшина, 1990; Федоров, 1982.