Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ядов (учебник).doc
Скачиваний:
5
Добавлен:
20.11.2019
Размер:
3 Mб
Скачать

Способы проверки процедуры первичного измерения на надежность

Следует иметь в виду, что операции повышения надежности первичного измерения, которые мы будем здесь рассматривать, ис­пользуются лишь на стадии отработки инструмента измерения в процессе пилотажа. После окончательной проверки надежности построенных шкал и сбора данных на объектах исследования ак­цент контроля их достоверности переносится с первичного измере­ния на вторичные, т. е. комбинаторные процедуры, и так последо­вательно вплоть до обоснования достоверности и интерпретации итоговых выводов.

В целом же достоверность результатов исследования зависит от многих составляющих, начиная с того, насколько обоснована его общая концепция и все компоненты теоретико-методологиче­ского раздела программы, а далее — от качества исходных данных, системы их отбора, т. е. соответствия типа выборки (и ее организации) целям исследования, качества анализа данных и, наконец, от глубины интерпретации подученных зависимостей и связей4.

К сожалению, нет единообразия в толковании термина «надежность» применительно к социологической информации. Главная причина состоит в том, что одни авторы трактуют надежность слишком расширительно как качество всего исследования и, следовательно, его итогов, а другие, напротив, отождествляют надежность с тем или иным особым ее проявлением (например, с устойчивостью данных, их адекватностью целям исследования и т.д.).

Не останавливаясь здесь на дискуссии терминологического характера [88], заметим, что в строгом смысле слова понятие надеж­ности измерения правомерно) относить именно к инструменту, с помощью которого производится измерение, но не к самим данным, подлежащим измерению. В отношении данных, как и заключитель­ных выводов из исследования, правильнее говорить, что они досто­верны (или относительно достоверны) и потому, что фиксированы надежным инструментом.

Возможны различные типологии приемов оценки надежности первичной информации, например, с точки зрения внешнего или внутреннего контроля данных, получаемых определенным спосо­бом. Мы будем пользоваться обобщающим понятием надежности инструмента измерения (и соответственно надежности данных, фиксируемых этим инструментом), имея в виду три составляющие:

(1) обоснованность, (2) устойчивость и (3) правильность изме­рения. Естественно, что и методы контроля на надежность рас­смотрены в этих трех аспектах5.

Обоснованность шкалы заключается в том, что с ее помощью целенаправленно измеряют вполне определенное свойство или при­знак, не смешивая его с другими.

Предположим, при опросе телезрителей им предлагают указать, каким из перечисленных в прилагаемом списке передачам телеви­дение уделяет «слишком много», «достаточно» и «слишком мало» времени. Если с помощью этой трехчленной шкалы исследователь намерен фиксировать среднее время, отводимое телепередачам, его измерение будет необоснованным. В действительности он измеряет отношение людей к данным передачам, а не объем времени, отво­димого для их трансляции. Обоснованное измерение объема вре­мени на передачи разного типа — документальный анализ «сетки» программ телевидения.

Чтобы повысить обоснованность измерения, используют ряд технических приемов.

(1). Наиболее простой способ — логические рассуждения на основе опыта и здравого смысла.

Обратимся к примеру из обследования, проведенного Б. М. Фирсовым. Задача: определить среднюю интенсивность просмотра телепередач путем мас­сового опроса телезрителей.

Первый вариант построения шкалы был таков. Вопрос: «Сколько приблизи­тельно часов в день Вы проводите у телевизора?». Шкала для ответа содержала пять интервалов: (не больше 1 часа) — (от 1 до 2 часов) — (от 2 до 3 ча­сов) — (от 3 до 4 часов) — (свыше 4 часов).

Путем логических рассуждений были высказаны следующие сомнения в обо­снованности такого метода. Следует указать день просмотра телепередач: буд­ний, субботний или воскресный. Иначе неясно, какой из дней зритель выберет за эталон оценки. Не спасет положения и вопрос, сколько в среднем часов в неделю зритель проводит у телевизора, так как люди не привыкли думать в «средних» величинах.

Значит, надо поставить вопрос так, чтобы: а) выделить дни недели и б) ука­зать понятный для зрителя эталон оценки. Поэтому более удачный вариант по­строения школы для решения той же задачи следующий [268. С. 142].

Первый вопрос: «Сколько дней в неделю Вы, как правило, смотрите теле­визионные передачи?»

1) почти все дни недели;

2) 3 или 4 дня в неделю;

3) 1 или 2 дня в неделю;

4) меньше, чем один раз в неделю, Т. е. не Каждую неделю;

5) в сущности, совсем не смотрю.

Второй вопрос: «Не могли бы Вы приблизительно оценить, сколько в сред­нем часов Вы проводите у телевизора в тот день, когда смотрите передачи?». Сделайте отметку в каждой строке.

вр

ёмя просмот

ра

Дни недели

не больше

1 часа

от 1 до

З часов

от 2 до

3 часов

от3 до

4 часов

свыше

4 часов

В будние дни

-

-

-

В субботу

' -

-

В воскресенье

-

V-

Теперь, пользуясь простыми арифметическими действиями, можно рассчитать «среднепросмотровое» время за неделю и составить шкалу.

Обозначим а число дней в неделю, уделяемых просмотру телепередач. Чис­ловые индикаторы ответов на первый вопрос взяты как средние эмпирически полученных интервалов (в числе дней просмотра), а именно: 6; 3,5; 1,5; 0,7; 0.

Обозначим и как количество часов, затраченных на просмотр телепрограмм в определенные дни (ответы на второй вопрос) также по средним: 4,5; 3,5; 2,5;1,5; 1.

Обозначив будние дни как d, субботние s, воскресные w, рассчитаем средне-просмотровое время за неделю Т:

Для телезрителя, который в ответе на первый вопрос пометил «З или 4 дня в неделю», в ответе на второй указал «до 1 часа» в будни и «от 2 до 3 часов» в субботу и воскресенье, среднепросмотровое время исчисляется по формуле:

Заметим, однако, что логические рассуждения наподобие При­веденных выше повышают обоснованность, но не являются прямым доказательством того, что мы меряем искомое свойство.

(2), Тест по «эталонной группе» — более сильный прием про­верки инструмента на обоснованность. Смысл проверки — в сопо­ставлении данных, полученных путем измерения по шкале, с до­стоверными сведениями об объекте измерения.

Так, шкала на отношение к соблюдению норм права обосновывается опросом осужденных правонарушителей в сравнении с «эта­лонной» группой законопослушных граждан. Дихотомизация полярных групп по шкале должна совпадать с фактической поляризацией эталонных групп в пределах допустимой ошибки, величина' которой зависит от задач исследования. '

(3). Поиск независимого критерия как разновидность внешнего, контроля надежности для измерения того же самого объекта или свойства.

Если подключить к телевизионному приемнику прибор, регист­рирующий время его работы, и сопоставить показания прибора с результатами опроса о частоте и длительности просмотра телепро­грамм, можно точно установить обоснованность данных опроса.

Не имея такой возможности, Б. М. Фирсов сопоставлял сведения, получен­ные по шкале среднепросмотрового времени, с данными по другой шкале, назван­ной «изменение привычек» (табл. 1) [268. С. 107]. Последняя конструировалась по ответам на вопрос; «Придется ли Вам в случае длительного отсутствия теле­визора менять свои привычки, способ проведения досуга, жизненный уклад?». Берем два крайних варианта ответов по второй шкале, отбрасывая промежуточ­ные (в процентах к численности представителей каждого типа, т. е. по строке).

Очевидно, что шкала «увлеченности», полученная как вторичная группиров­ка данных среднепросмотрового времени Т, высоко согласуется со шкплой «при­вычек» и, следовательно, может считаться вполне обоснованной7.

(4). Использование метода судей для отбора пунктов шкалы. Сомнения в обоснованности возникают уже на стадии первоначаль­ного отбора пунктов шкалы. В каких единицах считать время про­смотра телепередач? В днях, часах, в частоте просмотров? Какие понятия выбрать для построения шкалы?

Таблица1 Обоснование шкалы увлеченности телевидением по независимому критерию

Шкала "изменения прнпычек"

Шкала ,,увлеченности" по средне-просмотровому времени в неделю

,,Думаю, что придется изменить привычки"

,,В моей жизни ничего не изменяется"+,,Вряд ли что изменится в моей жизни"

т1—"Весьма умеренные"(до 3 час.)

15,8

11,7+34,4=46,1 ,

Т2—"Умеренные" (от 3 до 10 час.)

36,1

6,0+31,3—37,З

Тз—"Увлеченные" (от 10 до 15 час.)

48,7

5,5+22,9=28,4

Т'4—"Весьма увлеченные" (от 15 до 17 час.)

60,0

1,6+17.0=18,6

Эти вопросы лучше всего доверить решению компетентных су­дей. В нашем случае ими являются типичные телезрители, которые будут представлять как бы микромодель осиовион массы опраши­ваемых. В этом смысле «судейство» как способ контроля обосно­ванности шкалы надо отличать от опроса экспертов— профессио­нальных специалистов в данной области.

Численность судей зависит от меры однородности или разнород­ности выборочной совокупности основного обследования. Так, при построении шкал на отношение к досуговым занятиям мнбпия муж­чин и женщин об одних и тех же занятиях будут существенно раз­ными. Рекомендуется отобрать для судейства половину судей из женщин, половину — из мужчин. Не меньшее значение в данном случае будут иметь уровень образования и род занятий. Для ком­поновки судейской группы используют метод квоты, т. е. устанав­ливают пропорции судей, выражающих позиции разных група респондентов в предполагаемой выборке.

(5). Один из широко используемых приемов внутреннего конт­роля обоснованности — совмещение нескольких показателей для регистрации определенного одного свойства или построение индек­са. Типы индексов крайне разнообразны. Они широко использу­ются в психологических тестах, в социально-экономических иссле­дованиях и демографии. Суть индексной обоснованности в том, что, согласно гипотезе, данному свойству находится множество его про­явлений, для каждого из которых формируют отдельную шкалу. Затем измерения по частным шкалам либо суммируются, либо из них образуют логические конструкции, как это было сделано в показателе «логический квадрат» для построения производной шка­лы удовлетворенности работой (см. с, 164).

Вполне справедливо выделяют два существенно разных^ аспек­та обоснованности: теоретический и эмпирический. Первый непо­средственно связан с содержательными посылками исследования и предполагает установление значимых связей с широким клас­сом ситуаций, предсказываемых теорией, второй требует доказа­тельства надежной регистрации данных в сравнительно узком секторе, в частном проявлении изучаемых объектов. «Если валидность (синоним обоснованности — В. Я.) эмпирическую через из­мерение обеспечивают, — заключает В. И. Паниотто, — то валидность теоретическую только проверяют, т. е. уточняют область валидности методики, границы интерпретации получаемых мате­риалов» [191. С. 109].

Устойчивость измерения выражается в однозначности информа­ции, которую мы извлекаем с помощью данной процедуры. Неред­ко устойчивость ошибочно отождествляют с надежностью проце­дуры в целом. И хотя последняя зависит не только от устойчиво­сти, но также от обоснованности и правильности операций, подоб­ное смешение не случайно: проверка инструмента на устойчи­вость — важнейшее условие его надежности.

1) Наиболее распространенный прием контроля на устойчи­вость — повторное измерение. Один и тот же объект измеряется дважды с двух-трехнедельным временным интервалом и с помо­щью одинаковой процедуры. Шкала считается устойчивой, если совпадения между первой и второй сериями измерений будут достаточно высокими. В отличие от проверки на устойчивость измерения физических объектов социолог или психолог сталкивается здесь с особой проб­лемой — влиянием психологической установки человека, возника­ющей после первого замера. Люди могут намеренно или непроизвольно подгонять данные второго замера к предыдущим. Или же, напротив, интуитивно сопротивляясь повторному эксперименту, они покажут новые результаты.

Чтобы устранить такой дефект, используют контрольную группу (см. гл. 5, С. 223—229). Простейший же способ снять влияние установки первого замера — производить повторный замер спустя достаточное время после первого (напри­мер, две недели) и на достаточно большой выборке испытуемых (около 50 че­ловек). Составив таблицу замеров для всех обследуемых, мы далее анализиру­ем, какова общая устойчивость данных и от чего зависят отклонения между двумя замерами (табл. 2, пример Г. И. Саганенко).

Таблица 2

Сравнение данных двух последовательных замеров: оценка совпадения (+) и несовпадения (—) результатов в дихотомической шкале

Обследуемые всего, N=50 чел.

Итог по строке

Пункты шкалы

А

Б

В

Г

...п

(+)

(-)

% совпадений

1

+

+

-

+

+

45

5

90

2

+

-

+

+

+

44

6

88

3

+

-

-

25

25

50

4

+

+

+

+

42

8

84

5

+

+

+

т-

+

46

4

92

6

+

+

-

+.

+

41

9

82

15

+

+

+

+

45

5

90

Итог по (+)

14

14

9

10

13

635

90

колонке (—)

I

1

6

5

2

115

При повторных измерениях используют различные оценки устойчивости (Дан­ных, одна из которых — это процент полных совпадений ответов на серию воп­росов в двух последовательных пробах методики. Соответствующая формула:

где в числителе п — количество полностью совпавших пар ответов, а в знаменателе N — общая численность испытуемых, р — процент устойчивости.

По этой формуле, для примера, в табл. 2 получим: полной устойчи-

вости исходных данных.

Однако ее можно повысить, заменив некоторые пункты, в частности № 3, по котором обнаружен наибольший разброс (всего лишь 50% совпадений). Ос­новной критерий устойчивости информации — анализ данных по строке. Если анализировать эти итоги по колонкам, найдем, что некоторые субъекты (В и Г особенно) дали большой разброс, а некоторые (А и Б) — почти не дали раз­броса. Те пункты шкалы, в которых обнаружено несовпадение даже у весьма «устойчивых» субъектов, должны быть переформулированы.

Другим весьма полезным показателем полной устойчивости является мера сдвига, оцененная как среднеарифметическая ошибка различения градаций шка­лы. Этот показатель обозначает, какую долю градации данной шкалы (в сред­нем) все испытуемые как бы не улавливают, т. е. каковы истинные границы раз­личения градаций.

Та 6 л и ц а §

Сравнение данных двух последовательных замеров в трёхчленной шкал* (N=28 чел.)

Ответы в I пробе о замятиях на досуге

0тветы во II пробе

Всего

,Привл."

(1)

,, Не очень"' (2)

,,Непривл." (3)

,, Данное занятие привлека­тельно" (1)

7

3

10

,,Не очень привлекатель­но" (2)

4

в

1

11

,,Занятие непривлекатель­но" (3)

. —

3

4

7

Всего

11

12

5

28

Например, уточним среднеарифметическую ошибку в различении трехчлен­ной школы согласия — несогласия с каким-то суждением (пусть это будет суж­дение о привлекательности некоторого занятия на досуге). Приведем схему (табл. 3) и расчеты, используя данные таблицы Г. И. Саганенко.

В испытании участвует 28 человек, из которых 17 полностью повторяют свои оценки данного занятия в обеих пробах (сумма по диагонали схемы:

7+6+4=17), а остальные 11 испытуемых дают разные ответы в двух пробах. Для оценки искомой ошибки вычисляем отличия ответов респондентов как сдви­ги между II и I пробами, например, во II пробе из тех, кто в I пробе ответил «занятие привлекательно», 3 человека сообщили, что оно «не очень привлека­тельно», т. е. это разность (2—1) 3. Теперь суммируем все разности в ответах и получим меру среднеарифметической ошибки различения пунктов градации данной шкалы

Значит, среднеарифметический «сдвиг» в оценке по' трехчленной шкале со­ставляет около 40% одного ее деления, т. е. менее половины деления, что в об­щем, можно признать удовлетворительным, хотя и не идеальным. (Ниже, говоря о правильности измерения, мы покажем, как можно было бы уменьшить эту ошибку).

Рассматривая устойчивость как воспроизводимость результатов измерений, можно использовать и иные показатели ее меры [193, С. 33—34], например, обычные расчеты корреляции итогов двух последовательных измерений* Показа­тели, рекомендуемые Г. И. Саганенко, представляются нам наиболее адекват­ными и наглядными.

Какая же мера устойчивости удовлетворительна? Это за"висит от существа измеряемого свойства, его значимости для целей и задач исследования. В принципе для немногочленной шкалы сред­неарифметическая ошибка различения градаций в 40% ее деле­ния невысока, а соответствующая мера устойчивости (100%— 40% ==60%) вполне достаточна, ибо не перекрываются границы между двумя соседними интервалами шкалы. Если неустойчивость составила не 40%, а 60%, т. е. более половины деления шкалы, то ошибка была бы явно недопустима, ибо в среднем испытуемые не различают две соседние градации из трех.

Для многочленных шкал, например из 10 градаций, ошибка в 60% одного деления не слишком велика, так как перекрываются от деления из 10, т. е. не 2/3, а 0,2 общей «длины» шкалы. если при обработке данных градации укрупнить, объединяя две соседние, то ошибка минимизируется до вполне уверенного уровня устойчивости.

Помимо показателей полной устойчивости шкалы, возможны также показатели ее относительной устойчивости. Они полезны при сравнении разных шкал, например, для выбора из нескольких вариантов наиболее правильной и точной шкалы (о чем говорится также в этом же разделе) или для того, чтобы сопоставить уровни устойчивости измерения разных свойств, каждое из которых фиксируется шкалами разного типа и разной степени дробности.

Но прежде всего показатели следует соотносить с уровнем реальной стабильности — изменчивости изучаемого объекта из-)яемых свойств.

2) Использование нескольких лиц для измерения данного свойства. Случается, что шкала неустойчива потому, что ее пункты произвольно интерпретируются самими исследователями. В особенности это характерно для шкал качественной классификации объектов. В таких (номинальных) шкалах группы объектов классифицируют с помощью описания всех качественных признаков, по которым каждый объект относится к определенному пункту шкалы —

Предположим, что выделено несколько признаков (с соответствующими индикаторами) для отнесения общественной деятельности в высшую категорию по уровню активности. Чтобы выполнить эту операцию однозначно, нужно убедиться, что признаки о различимы и при соотнесении видов деятельности с пунктами не возникает путаницы.

В этом случае объект измеряют одновременно несколько (минимум трое) лаборантов, использующих единую процедуру. Если данные, полученные разными лаборантами, высоко согласуются, шкала устойчивая, если нет — неустойчивая, и мы начинаем искать другую, более приемлемую размерную величину. Причина неустойчивости шкалы — в плохом отборе индикаторов.

3) Наконец, третий прием контроля эталона измерения на устойчивость — «расщепление шкалы». Шкала раздваивается на две половины. Если окажется, что измерения по каждой из них совпадают, их можно рассматривать как равноценные шкалы, суммировать данные и впредь пользоваться одновременно обеими половинами, образующими теперь единую и более надежную шкалу, чем каждая из ее составляющих.

Покажем технику «расщепления» на примере. Возьмем объектом измерения уровень удовлетворенности рабочего своей специальностью. Данные получаем путем анкетного опроса.

Проектируем две шкалы, пункты которых будут отвечать одному из пяти уровней удовлетворенности специальностью (схема 5). Каждому уровню соответствуют два суждения. Нечетные пункты образуют одну, а четные '- другую половину испытываемой шкалы.

С х е м а 8

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]