Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Diagnost_prozed_Devyatko

.pdf
Скачиваний:
5
Добавлен:
30.05.2015
Размер:
2.05 Mб
Скачать

лярные в начале века представления о едином конституциональном факторе, определяющем многообразие поведенческих проявлений. В главе III, рассматривая различные модели измерения, мы убедимся, что латентная черта (свойство, фактор) далеко не всегда являются причиной своих индикаторов. Сейчас же отметим, что модель латентной черты чрезвычайно удобна для исследования соотношений генотипа и фенотипических проявлений организма в биологии или при изучении некоторых специальных способностей, имеющих высокую степень наследственной обусловленности. Однако применимость модели одномерного континуума латентного свойства в шкалировании установок требует куда более веских обоснований, помимо соображений удобства.

Глава вторая

ПРОБЛЕМА КАЧЕСТВА ИЗМЕРЕНИЯ В СОЦИОЛОГИИ: ОТ КОНСТРУКТА К ИНДИКАТОРУ И ОБРАТНО

1. Надежность, валидность и ошибка измерения: кризис классической теории тестов

Ключевые понятия оценки качества измерения - надежность и валидность - пришли в социологию из классической теории тестов и психометрики одновременно с появлением первых шкал установок. В нашу задачу не входит исчерпывающий анализ концепций надежности и валидности в теории тестов1, поэтому мы лишь кратко рассмотрим некоторые базисные предпосылки, допущения и результаты "классического подхода". Это позволит нам понять причины, определившие недостаточность этого подхода для оценки социологического измерения и вызвавшие возникновение новых представлений и методов оценки качества измерения в социальных науках.

Общее теоретическое определение надежности в психометрике связано с понятием устойчивости процедуры относительно объектов измерения [36. С.74-75 ]. В общем виде надежность относится к тому, "в какой мере измерения повторяемы - для одних и тех же индивидов при использовании различных мер одного и того же свойства или для различных лиц при использовании одной меры свойства" [191. Р. 172 ]. Если используемая мера, скажем, удовлетворенности браком, надежна, то при использовании разных конкретных индикантов (графических шкал, вербальных самоотчетов и т.д.) на одной и той же группе исследователь будет получать идентичные результаты. И,

сдругой стороны, повторные замеры будут давать тот же уровень удовлетворенности браком. Надежность-устойчивость (ретестовая, диахроническая надежность) характеризует точность измерения при проведении повторных тестирований. Надежность-согласованность (одномоментная надежность) связана с внутренней согласованностью инструмента, т.е. теста или батареи тестов [36. С.68-69]. Соответственно ненадежная мера (инструмент измерения) при измерении какого-то свойства у данной группы лиц будет давать неповторяющиеся или несогласованные результаты. Надежность измерительной процедуры, таким образом, находится в обратной связи

сколичеством случайных ошибок в процессе измерения. Случайные ошибки при повторном выполнении тестовых заданий могут быть и результатом неконтролируемых изменений условий тестирования, и следствием "моментальных" изменений в состоянии самого испытуемого. Итак, ретестовая надежность говорит о репрезентативности результатов теста для различных случаев его применения [2. С. 104 ]. Применимость ретестовой надежности как оценки качества измерения ограничена содержательными соображениями, теоретически-

61

1 Такой анализв значительноймереосуществлен в отечественной литературе (например

[1:36]).

ми представлениями об исследуемом свойстве (отсутствие эффектов "памяти", "научения", ограничение временными интервалами предполагаемой стабильности исследуемого свойства). Поэтому даже в психологическом тестировании повторное тестирование применяется прежде всего для оценки надежности элементарных психомоторных и сенсорных тестов [2. С.106]. Надежность-согласованность имеет другую содержательную природу и оценивается обычно через коррелирование либо взаимозаменяемых форм теста, либо частей одного теста.

Валидностъ измерения в самом общем смысле характеризует соответствие измерения его цели [131. Р.226; 191. Р.75]. Иначе говоря, валидность процедуры (инструмента) измерения состоит в однозначности и правильности получаемых результатов относительно измеряемого свойства объектов, т.е. относительно предмета измерения [36. С.74 ]. Надежность является необходимым, но не достаточным условием валидности, что и зафиксировано в основном психометрическом соотношении: валидность теста не может превышать надежность. Уже на интуитивном уровне очевидно, что надежный инструмент может измерять нечто другое вместо подразумеваемого конструкта (например, не температуру, а давление, или не интеллект, а особенности "познавательного стиля"). Классическая теория тестов признает принципиальное различие надежности и валидности, однако не дает средств для независимой оценки валидности и, фактически, сводит ее лишь к критериальной оценке (отсюда "надежность теста - это, собственно, его валидностьпо отношению к параллельному тесту" [172. Р.63]).

Нужно отметить, что самостоятельное осмысление проблем качества измерения в социологии долго тормозилось сравнительно меньшим к ним интересом. Собственно специально-методические исследования проблем валидности показателей вплоть до середины 60-х - 70-х годов не были распространены в американской эмпирической социологии. Единственным исключением, достаточно серьезным по масштабам и результатам, было так называемое Денверское исследование валидности. Это исследование, проведенное денверским филиалом Национального центра исследований общественного мнения (NORC), было одним из трех основных проектов Комитета по измерению мнений, установок и потребительских нужд, созданного С.Стауффером в 1947 г. [104 ]. В исследовании, проведенном в 1949г., сопоставлялись данные ответов респондентов на фактографические вопросы с данными официальной местной статистики (регистрация

иголосование, взносы в местную казну, наличие водительских прав

ичитательского билета библиотеки и т.п.). Сопоставляя данные официальной статистики, принимаемые за истинное значение, с ответами респондентов, исследователи обнаружили, что данные самоотчетов часто существенно от них отклонялись. Величина расхождений составляла от нескольких процентов до почти 50%, в зависимости от содержания вопроса. Изучалось также влияние интервьюера. Данные этого исследования критериальной валидности пред-

ставляют значительный интерес и сейчас (см., в частности: [199]). И все же, оценивая роль критериально-ориентированного подхода в валидизации данных, полученных в массовых опросах, следует помнить об ограничениях, присущих этому подходу: объективный критерий, используемый как "эталон", нередко нуждается в столь же строгой оценке своих измерительных качеств. Здесь нам представляется вполне справедливой точка зрения Дж.Конверс: "(Действительно) Проводящие опросы исследователи редко выходят за пределы самоотчетов. Исследования валидности не только дорогостоящи, но и чрезвычайно сложны. Существует возможность сравнивать "субъективные" самоотчеты с "объективными" данными официальных документов, но большая часть документов, к которым обращаются для валидизации обследований, также построена на самоотчетах и, следовательно, обычно уязвима для тех же самых ошибок измерения и смещений, что и сами обследования. В некоторых ситуациях информация, полученная в социологических опросах, может оказаться лучше официальных данных: выборки часто точнее, чем переписи, и современная машинная обработка данных может успешнее устранять ошибки, чем системы "бумага-и-карандаш", до сих пор доминирующие в официальных записях" [109. Р.415].

Интерес к качеству измерения стал ведущей ориентацией в том "возрождении" проблематики измерения в социологии, которое произошло в середине шестидесятых годов, после приблизительно пятнадцатилетнего периода снижения популярности работ в данной области [177. Р.1].

Недостаточность классической теории тестов была осознана в социологии в конце 60-х - начале 70-х годов. Не отрицая полезности традиционного подхода к оценке надежности и валидности эмпирических измерений, содержащих случайную ошибку, специалисты по социологическому измерению (Дж.Борнстед, Х.Блейлок, Г.Костнер, Р.Зеллер, Р.Алтаузер и др.) показали принципиальную недостаточность и ограниченность психометрического подхода к оценке качества социологического измерения.

Для того чтобы убедиться в обоснованности этой оценки, рассмотрим некоторые основные положения психометрического подхода. Так как измеряемое (наблюденное) значение (X) из-за погрешности измерения (e) не равно истинному (Т) , то можно записать:

X = Т + е.

(2.1)

Далее обычно делаются некоторые предположения об ошибке измерения [172. Р.36]:

1)отрицательные и положительные величины ошибок взаи- мопо-гашаются, т.е.

E(e) =0

2) истинные баллы и ошибки не скоррелированы:

ρ (t,e)= 0;

62

63

 

3) корреляция между значением ошибок по одному измерению и истинным значением по другому равна нулю:

р(e1, t2) = 0;

4)корреляция ошибок различных измерений равна нулю

Р (e1, е2) = 0.

Из этих предположений следует:

Е(Х) = Е(Т).

Отсюда:

σ x2 =σ 2 (t +e)

Так как ковариация истинных баллов и ошибок (по определению) равна нулю, т.е.

σte = 0

то из формулы

Надежность = p2

=

σ2

t

xt

 

σ2

 

 

x

Если вся дисперсия измеренных баллов связана с ошибкой измерения (по определению случайной), то надежность равна 0. Если бы никакие ошибки не влияли на измерение, то надежность теста была бы равна 1.

Так как из формулы (2.4) на практике нельзя произвести оценку надежности (дисперсия истинных баллов неизвестна), то для оценки надежности вводится представление о параллельных (собственно параллельных или тау-эквивалентных) формах теста. Для нас достаточно рассмотреть случай параллельных тестовых измерений, для которых вводится предположение о равенстве истинных компонентов и дисперсий ошибочных компонентов, что можно выразить следующим образом:

X = T и

X = T +e

 

где

 

 

σe2 = σe2

и

T=T

64

σ x2 =σt2 +σe2 +2σte следует:

σχ2 =σt2 +σe2

Отсюда следует определение надежности как доли дисперсии истинного компонента измерения от общей дисперсии теста:

т.е. корреляция параллельных тестов (пунктов) равна дисперсии истинного компонента, деленной на дисперсию измеренных значений. Формула (2.5) позволяет выразить дисперсию истинного балла через наблюдаемые величины:

σ2

=σ2 p

xx

'

(2.6)

t

x

 

 

т.е. через произведение дисперсии измеренных значений и корреляции параллельных форм. Подстановка этого выражения в формулу

(2.4) дает:

 

 

σ2

 

σ2 p

xx

'

 

 

 

 

p2

=

t

=

 

x

 

= p

 

'

(2.7)

 

σ2

 

xx

xt

 

σ2

 

 

 

 

 

 

 

 

x

 

 

x

 

 

 

 

 

 

дисперсий измеренных баллов; 3) равенство корреляций параллельных форм с другими переменными; 4) равенство попарных интеркорреляций нескольких параллельных форм. Из всей совокупности Предполагается, что параллельные формы имеют ряд важных

свойств: 1) равенство средних измеряемых значений; 2) равенство

Т.е. оценка надежности - это корреляция параллельных форм. В классической теории тестов валидность определяется как корреляция измерения X и измерения Y [172. Р.61 Г]2;

Валидность = pxy =

σxy

(2.8)

σ σ

 

 

 

 

 

 

 

 

x y

 

Если X и Y - параллельны в вышеуказанном смысле, то:

Х- Т Y=T

 

 

.

 

 

 

 

В результате для валидности

получают

cледующую формулу:

 

 

 

 

σ xy

 

2

 

 

 

ρ xy =

= σ t2

 

 

(2.9)

 

 

 

σ

x

σ

y

σ

x

 

 

 

 

 

 

 

 

 

 

Отсюда очевидно концептуальное тождество критериальной валидности и надежности 3. Однако, отмечают, Р.3еллер и Э.Карминес, "...

по определению

2О других подходах к теоретико-эмпирической валидизации мы будем говорить далее.

3Новалидностьтестапоотношениюккакому-тоиномутестунеможетпревосходить квадратногокорняегонадежности[172. Р.72].

65

классическая теория тестов применима тогда и только тогда, когда ошибка измерения является полностью случайной. Попросту говоря,

вклассической теории тестов предполагается, что вся ошибка измерения случайна" [242. Р. 11]. Конечно, в социологическом опросе или даже в исследовании, использующем агрегированные данные переписи, существует много источников случайной, несистематической ошибки измерения. Например, ошибки кодирования или простого подсчета могут носить случайный характер. Если респондент с равной вероятностью (при повторном опросе) выбирает одну из соседних категорий ответа, ошибка измерения также может носить несистематический характер. Однако как только эта ошибка теряет случайный характер, "это уже не проблема надежности, а скорее проблема валидности" [225. Р.13]. Как только ошибка измерения становится неслучайной, часть вариации в индикаторах оказывается связанной с каким-то иным конструктом, отличным от того, который исследователь стремится измерить. Т.е. систематический компонент дисперсии надежного индикатора может относиться только к теоретически специфицированному конструкту, что обеспечит валидность индикатора. Невалидная же, но надежная мера, может полностью или частично относиться к другой переменной, а не к той, для измерения которой она была сконструирована. Следует отметить, что введенное в психометрике в 50-х годах понятие конструктной валидности (см., например: [18]) также было сфокусировано на отношениях эмпирических показателей к теоретическим конструктам, однако процедуры оценки конструктной валидности не могли быть разработаны в рамках традиционного подхода. Для оценки конст-

руктной валидности предлагалось использовать экспертные оценки, содержательные соображения, внешние критерии4.0днако систематическая разработка представлений о конструктной (или концептуальной) валидности и процедур ее оценки стала возможна лишь в результате возникновения в американской социологии моделирующего подхода к измерению и широкой трактовки измерения как "теоретически-нагруженного" процесса, связывающего концепты теории с эмпирическими индикаторами (вторая половина 60-х - 70-е годы). Анализу этих новых подходов к измерению, причинных моделей и "вспомогательных теорий измерения" посвящена третья глава этой книги. Здесь же нам важно зафиксировать, что инновации

вконцептуализации надежности и валидности, как и появление новых методов оценивания качества социологического измерения, были вызваны, прежде всего, той трактовкой измерения, которая первоначально была предложена в работах Х.Блейлока5 .

4Близки к идее конструктной валидности и процедуры конвергентнодискриминантной валидации [106]. О роли последних для возникновения моделей с множественными индикаторами, а также присущих им ограничениях будет сказано позднее (в послед-нем параграфе этой главы).

5Самой существенной в данном контексте чертой предложенного Х.Блейлоком подхода явился отказ от узкого понимания измерения как" присваивания численных значений объектам или событиям в соответствии с правилами", предложенного С.Стивенсон в 40-х годах, и переход к пониманию измерения как процесса связывания абстрактных понятий теории с наблюдаемыми эмпирическими индикаторами.

66

Конкретные причины, вызвавшие неудовлетворенность социологов, занимавшихся проблемами измерения, механическим переносом традиционной психометрической "парадигмы" оценки качества измерения, очень отчетливо сформулированы в книге Р.Зеллера и Э.Карминеса [242. Р. 11-12]. Во-первых, предположение о случайной природе всей ошибки измерения, приемлемое в психологическом эксперименте, чаще всего необоснованно, когда речь идет о выборочном обследовании, опросе и т.п. Измерение, основанное на таком типе данных, обычно включает и случайный, и неслучайный ошибочный компонент. Характерными примерами являются эффекты "памяти", социальной желательности, установки на позитивный или негативный ответы. В более широком смысле здесь можно говорить о неэквивалентности экспериментального и статистического контроля (применительно к обоснованности научного вывода в неэкспериментальных исследованиях эта проблема была впервые сформулирована в [212], см. также: [168]). Еще более существенным является то обстоятельство, что систематическая ошибка измерения имеет место и тогда, когда "совокупность индикантов измеряет не только подразумеваемый теоретический концепт или даже репрезентирует совершенно иной концепт" [242. Р.11]. По определению такого рода ошибки не обладают, по крайней мере, некоторыми из статистических свойств, приписываемых собственно случайной ошибке измерения. Т.е. имеет место как минимум одно из следующих обстоятельств:

E (e ) 0, ρte 0, ρe1t 2 ρe1e 2 0

Р.Зеллер и Э.Карминес приводят пример утвердительной и отрицательной тактик ответа со стороны респондента. В этом случае сформулированные в одном "направлении" пункты, даже если они никак не связаны сами по себе, оказываются скоррелированными. И уже нельзя говорить о равенстве нулю корреляции между ошибками измерения по отдельным пунктам-индикантам.

Вторым недостатком классической теории тестов является, с точки зрения этих авторов, отсутствие адекватной концептуализации валидности и отношений между валидностью и надежностью, т.е. то, о чем уже говорилось выше. Вслед за Дж.Борнстедом, Р.Зеллер и Э.Карминес утверждают, что простое знание того, что валидность измерения (как корреляция с другой переменной) не может быть выше квадратного корня его надежности, не решает никаких проблем. Это соотношение, как отметил Дж.Борнстед [95. Р.97 ], не дает никакого прямого знания о валидности как о степени соответствия индикаторов предполагаемой цели измерения. Более того, сама оценка валидности оказывается "побочным продуктом" оценки надежности [242. Р. 12].

Осознание двух названных принципиальных ограничений, присущих психометрическому подходу к оценке качества измерения в социологии (игнорирования систематической ошибки и неудовлетворительной теоретической дифференциации надежности и валидности), привело к возникновению новых идей и ориентации. В после-

67

дующих двух разделах мы проанализируем два близких подхода к валидности и надежности измерения, очень характерных, на наш взгляд, для происходивших в 60-е - 70-е годы изменений.

2. Надежность и валидность эмпирическх моделей

Первый из этих подходов полнее всего изложен в уже упоминавшейся книге Р.Зеллера и Э.Карминеса [242 ].

Р.Зеллер и Э.Карминес предложили переформулировку определений валидности и надежности, а также критерии и практические методы их оценки. Предложенная ими концептуализация надежности и валидности (как и другие ориентации в моделирующем подходе к измерению) базируется на том, что наблюдаемые значения измеряемой переменной (X) равны сумме истинных значений (Г), систематической ошибки измерения (S) и случайной ошибки измерения (R)6. Т.е.:

X = Т + S + R.

(2.10)

Тогда для генерального среднего измеренных баллов можно записать:

Е(Х) = Е(T) +E(S),

(2.11)

так как для случайной ошибки действительны прежние предположения. Для конечной выборки наблюдений среднее измеренное значение переменной становится несмещенной оценкой "истинного балла", к которой прибавлена средняя систематической ошибки [242. Р.12].

В присутствии и случайной, и систематической ошибок для ожидаемой дисперсии можно из:

σ2x = σ2( t + s + r )

вывести, что

σ2x = σ2 t + σ2 s + σ2 r + 2σts

(2.12)

(Так как по определению σ tr = σ sr = 0.) Здесь существенно, что так как Т и S могут быть скоррелированы, суммирование дисперсий Т, S и R не обязательно дает дисперсию X. Причем ковариация Т и S может быть и больше, и меньше нуля. Можно оценить дисперсию случайной ошибки и наблюдаемых значений. Однако невозможно ничего сказать о дисперсии истинного компонента, систематической ошибки и ковариации TS, не сделав каких-то дополнительных содержательных предположений ("не существует чисто механической процедуры для идентификации латентных переменных с гарантированной теоретической валидностью" [146. Р.9]).

В этом контексте можно ввести следующие различения для надежности и валидности: "Надежность - это доля неслучайной

6 Хотя это и не является предметом нашего обсуждения, укажем, что сходный в некоторых чертах анализ погрешностей измерения был проделан в отечественной литера-

туре [23].

дисперсии; валидность - та доля дисперсии наблюденных значений, которая относится к истинному компоненту" [242. Р.13]. Т.е.:

Надежность

 

=

σ

2

+ σ 2

+ 2σ

ts

=

σ 2

σ 2

 

 

 

 

t

s

 

x

 

r

 

 

 

 

 

σ

 

 

 

 

 

 

 

 

 

 

2

 

 

σ 2

 

 

 

 

 

 

 

 

x

 

 

 

x

 

Валидность

=

σ

2

 

 

 

 

 

 

 

 

σ

t

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

Такое определение согласуется с данными выше содержательными определениями валидности и надежности. Кроме того, из него становится ясным, что различие валидности и надежности индикатора зависит от присутствия систематической ошибки измерения. Если совокупность индикаторов измеряет только заданный теоретический конструкт с точностью до случайных погрешностей, то валидность будет равна надежности. Чем больше доля систематического ошибочного компонента, тем больше надежность будет превосходить валидность.

Наконец, в гипотетическом случае, когда вся наблюденная дисперсия индикатора будет обусловлена систематической ошибкой (скажем, из-за неправильной спецификации теоретической модели), валидность будет нулевой, а надежность - абсолютной.

Все изложенные представления, как уже говорилось, в принципе были достаточно осознаны и в психометрической традиции (по крайней мере, к середине 60-х годов). Однако близкая к контролируемому эксперименту ситуация тестирования позволяла, в принципе, находить " паллиативные" средства конструктной валидации.

Скажем, необходимость учета содержательных представлений о тестируемом свойстве в области образовательного тестирования могла реализовываться в конкретных процедурах оценки репрезентативности тестового материала (по объему и содержанию) относительно заранее известной учебной программы. Идею совпадения теоретической модели "поведения" изучаемого свойства с реальностью легко было осуществить, например, через оценку его возрастной динамики в "естественном эксперименте" (если тест X измеряет вербальный интеллект, то показатели для детей должны расти с каждым годом) [2. С.141 ].

В социальных же науках, где экспериментальный контроль практически недостижим, где целью является не тестирование или дифференциальная диагностика, а измерение переменных на мик- ро-и макро-уровне, и где систематическая ошибка весьма типична, неудовлетворенность таким подходом к качеству измерения была значительно острей. Это и вызвало появление новых подходов в данной области.

Если принять предложенную формулировку надежности и валидности, то можно выделить два обобщенных критерия их оценки: 1) внутренняя ассоциация как паттерн взаимоотношений между

69

68

индикантами, предназначенными для измерения одного теоретического конструкта, и 2) внешняя ассоциация как паттерн отношений между индикантами данного конструкта и другими переменными

[242. Р.151

Критерий внутренней ассоциации предполагает, что существуют позитивные интеркорреляции между индикаторами, что соответствует содержательному пониманию надежности как согласованности. Наиболее популярной техникой оценки внутренней согласованности пунктов (совокупности индикаторов, субтестов шкалы) является факторный анализ. Сторонники факторного анализа как средства оценки качества измерения иногда склонны полагать, что именно факторный анализ, выявляющий эмпирическую многомерную структуру матрицы корреляций между пунктами, может использоваться для полной оценки конструктной валид-ности отдельных индикаторов:"Каждый тест может быть охарактеризован посредством основных факторов, определяющих его показатели, весом, или нагрузкой, каждого фактора и корреляцией теста с каждым из них. Такая корреляция именуется факторной валидностью теста" [2. С.143]. Однако такая точка зрения переоценивает роль факторного анализа в оценке качества измерения, хотя бы в силу того, что не принимает во внимание проблему интерпретации факторов. Сама по себе интерпретация фактора как релевантного определенному теоретическому конструкту (или, наоборот, представляющего другой конструкт либо артефакт метода) невозможна без принятия каких-то предположений о валидности измерения (за исключением случая, когда систематическая ошибка отсутствует).

Нам кажется более обоснованным использование факторного анализа как средства оценки систематических компонентов наблюденной дисперсии, т.е. "доли наблюденной дисперсии, представленной истинными значениями и неслучайными или систематическими ошибками" [242. Р.15]. Исходя из этого, Р.Зеллер и Э.Карминес предложили процедуру использования факторного анализа для эмпирической оценки надежности, создания новых факторных переменных (шкал) и построения исходной модели измерения, адекватность и параметры которой подлежат дальнейшей комплексной оценке.

Наиболее эффективным подходом, с точки зрения этих авторов, является одновременная оценка надежности и валидности измерения. При этом для оценки надежности (и как воспроизводимости, и как согласованности) часто применимы методы классической теории тестов, сравнительные достоинства которых авторы анализируют в [242. Р.48-76 ]. Оценка надежности связана со случайной ошибкой измерения (чем выше надежность, тем ниже случайная ошибка и наоборот). Точные оценки надежности измерения могут быть получены при использовании моделей факторного анализа. Причина заключается в том, что наиболее общий метод оценки надежности для линейных

70

сводных показателей (суммирующих оценки для отдельных ин- дикаторов-субтестов) - "альфа" Кронбаха - равна надежности лишь когда все индикаторы (пункты) строго параллельны или тау-эквива- лентны19, т.е. она устанавливает нижнюю границу надежности

[242. Р.59] (см. также: [1. С.123; 36. С.70]).

С практической точки зрения, условия, когда "альфа" Кронбаха не дает хорошей оценки надежности, весьма существенны для социологического измерения. Это происходит, когда "пункты измеряют один концепт в неравной мере, или измеряют более одного концепта, равно или неравно" [242. Р.60]. Существенна здесь и типичная для социологии ситуация невозможности подобрать большое число индикаторов-пунктов для одного теоретического концепта20. Уже сами условия, ограничивающие полезность коэффициента Кронбаха, предполагают применимость и релевантность оценки надежности, основанной на факторном анализе. В этом контексте становится понятной популярность двух коэффициентов надежности, основанных на факторном анализе - "тега" и "омега". Общее обоснование использования факторного анализа в оценке надежности достаточно полно илаконично изложено вотечественной работе [1. С.127-129], где, в частности, отмечается, что так как для заданного числа пунктов в тесте (шкале) большей корреляции между пунктами соответствует большая надежность, а высокая корреляция также является условием выделения небольшого числа значимых факторов, то надежность теста может быть связана с результатами его факторизации. "Факторизация гомогенного теста должна давать один главный фактор, на котором эти (входящие в тест) высказывания имели бы заметные нагрузки... Использование факторного анализа для определения надежности гетерогенного теста сводится, по существу, к процессу гомогенизации посредством факторного расчленения высказываний теста. При этом каждый выделенный фактор объединяет в себе предложения одного гомогенного теста" [1. С.127128].

Коэффициент "тега" основан на модели анализа главных компонент и может быть содержательно интерпретирован с учетом того, что основная задача в ней заключается не в объяснении корреляции между признаками, а в объяснении максимальной доли дисперсии наблюдений [52. С. 15]. Надежность гомогенного теста (шкалы), образованного пунктами, вошедшими в первую компоненту:

Θ =

N

 

(1

1

)

N 1

 

 

 

λ

 

 

 

 

1

 

где N - число пунктов, a A i - наибольшее (т.е. первое) собственное число. (В случае гетерогенного теста можно подвергнуть повторному анализу каждую полученную подсовокупность пунктов-высказы-

71

19 Т.е. имеют идентичные истинные значения, либо попарно отличающиеся на аддитивную константу.

20 Впсихологическом тестировании, особенно образовательном, обычновозможно составить достаточно длинный тест изгомогенныхсубтестов.

ваний.) "Тета" может рассматриваться как максимизированное зна-

чение альфа-коэффициента.

Р.Зеллер и Э.Карминес рассматривают и другой коэффициент надежности - "омега", основанный на модели общих факторов и предложенный Д.Хейсом и Дж.Борнстедом в 1970 г. Приведем его упрощенную формулу для корреляций между пунктами:

Ω =1a hi2 a +2b

где а - число пунктов, Ь - сумма корреляций между пунктами, hi - общность P-ro пункта.

При этом отмечается, что так как общности в модели общих факторов оцениваются, существует доля неопределенности при вычислении "омеги" (но не "теты"). Все три коэффициента ("альфа", "омега" и "тега") будут равны, если корреляции между пунктами равны (при равенстве дисперсий пунктов). Для тау-эквивалентных пунктов а < в < Q [242. Р.63]. Различия между коэффициентами "альфа" и "тега" либо "омега" будут существенны, когда высказывания теста (шкалы) имеют очень гетерогенные интеркорреляции (однако эти различия можно уменьшить, исключив "слабые" пункты). Процедура, предложенная Р.Зеллером и Э.Карминесом для оценки надежности [242. Р.67-75 ], включает в себя факторизацию, построение и эмпирическую оценку параметров причинной модели измерения, коррекцию на аттенюацию корреляций между неизмеряемыми конструктами в модели (если в исследовании ставилась задача оценить взаимосвязь различных конструктов, измерявшихся разными совокупностями индикаторов) , оценку надежности сводных показателей, анализ матрицы корреляций после резидуализации (чтобы убедиться, что она содержит только случайную ошибку). Обсуждаются также критерии, указывающие на присутствие только случайной ошибки [242. Р.71-75]. После выполнения всех шагов этой процедуры исследователь имеет основания утверждать, что "причиннаямодель содержит всю надежную дисперсию" [242. Р.76 ].

Однако абсолютная надежность, как уже говорилось, не гарантирует валидности эмпирических показателей. В принципе, очень надежная мера может быть совершенно невалидной, если все индиканты отражают лишь систематическую ошибку. Источником этой систематической ошибки может быть и артефакт метода (самый простой и распространенный случай - позиционный стиль ответа, response set), и другой теоретический конструкт, неучтенный в модели. На многочисленных примерах Р.Зеллер и Э.Карминес показывают, что задача оценки валидности значительно сложнее, чем в случае оценки надежности (именно в силу возможного присутствия систематической ошибки). Конечно, если в процессе измерения имеют место лишь случайные ошибки, валидность будет равна надежности, однако "при измерении большинства теоретических концептов, используемых в социальных науках, измерение, по всей вероятности, содержит и случайную, и систематическую ошибку"

[242, Р. 159 ]. Оценка же систематической ошибки (и, таким образом, валидности) в значительно большей степени является теоретической проблемой, чем сугубо статистической. Здесь не может существовать чисто механической процедуры. Стратегия, предложенная Р.Зеллером и Э.Карминесом, основана на теоретических импликациях процедур эмпирического измерения. Исходя из теоретической концепции, делаются предсказания о возможных отношениях валидизируемых показателей к другим (внешним) переменным. Т.е. предполагается, что валидная мера имеет такой паттерн связей с теоретически релевантными внешними переменными, который согласован с ожидаемым на основании теоретических предположений. При этом уверенность исследователя в валидности эмпирического измерения тем выше, чем больше таких проверок конструктной валидности, основанных на критерии внешней ассоциации, удалось успешно провести. Наиболее эффектной является стратегия одновременного оценивания надежности и валидности, так как эмпирические показатели должны обладать и статистическими свойствами надежности, и концептуальной валидностью при измерении сложных и высокоабстрактных понятий социологической теории.

Так как предложенный Р.Зеллером и Э.Карминесом подход в значительной мере зависит от конкретного теоретического контекста и причинной модели измерения, т.е. от содержательных соображений, его эффективность проще всего продемонстрировать на какомто примере. Таким примером может служить, в частности, проведенный ими анализ предложенной У.Шутцем концепции межличностного поведения и соответствующей модели измерения. Эта концепция "Фундаментальной ориентации межличностных отношений в поведении" (FIRO-B) постулирует, что лишь удовлетворительные отношения с другими людьми могут удовлетворить потребности, мотивирующие поведение в сфере общения [46; 209 ]. Безуспешность попыток установить такие отношения ведет к фрустрации потребности и, следовательно, к возрастанию тревожности. Существует три фундаментальных межличностных потребности - включенность, контроль и расположение (любовь). Кроме того, поведение, относящееся к каждой из межличностных потребностей, описывается в двух ортогональных измерениях: поведение самого субъекта по отношению к другим и желаемое им поведение со стороны других. В соответствии с этими теоретическими представлениями был создан опросник, состоящий из шести шкал, измеряющих ортогональные, независимые (по гипотезе Шутца) теоретические концепты: 1) выражаемая субъектом межличностная потребность во включенности, 2) "желаемая" потребность во включенности (т.е. связанная с ожидаемым поведением других людей, 3) выражаемая в поведении субъекта потребность в контроле, 4) желаемый контроль со стороны других людей, 5) выражаемая потребность в проявлении расположения, 6) желаемое расположение со стороны других.

Опросник FIRO-B состоит из 54 пунктов, т.е. из 9 высказываний для каждой из 6 шкал концептуального пространства межличностного поведения размерности 3x2.

73

72

Р.Зеллер и Э.Карминес провели факторный анализ опросника в целомикаждойизшестишкал, проверку конструктнойвалидностипо критерию внешней ассоциации, а также оценку надежности суммарных баллов по каждой шкале после исключения "слабых" пунктов[242. Р.123-136, 155-158 ]. Одновременнаяоценканадежности и валидности показала, что высказывания FIRO-B измеряют в действительностичетыретеоретическиспецифицированныхконцепта: включенность, контроль и двааспекта расположения - "Близкоеи личностное" и "Холодное идистантное". Проведенный анализ не даетоснованийдляпредложенногоШутцемразведенияжелаемогои ожидаемогоповедения всферемежличностных отношений. При этом, в частности, выяснилось, что полученное при исходной факторизации расщепление "контрольных" пунктов на два фактора отражает не наличие двух измерений контроля, а существование общегофактораконтроляиартефактаметодапозиционногостиляс гветовучастииспытуемых. Т.е. формулировкаисходныхвопросов вела к систематической ошибке измерения для части выборки. ПрименениекритериявнешнейассоциациииQ-техникифакториза- ции(объединениереспондентоввгруппы-факторы) позволилоотделитьвлияние"позиционных" ответовотистинноговлиянияфактора контроля. Дляиллюстрации этогорезультатаприведем оцененную модельизмерениядляшкалыконтроляопросникаFIRO-B (рис.3). Однако, какотмечаетР.ЗеллериЭ.Карминес, артефактыметодане всегдамогутбытьобнаружены. Вслучаешкалыконтроляизоп- росникаFIRO-B, выявлениенесвязаннойссодержаниемшкалыдоли систематическойвариацииответов, зависящейотформыпредставлениявысказываний, былооблегченотем, чточастьпунктовбыланегативной(поотношениюкизмеряемомусвойству). Еслижевлияние артефактов метода на все индикаторы имеет одно направление, то задачаоценкимоделиизмерениястановитсяпрактически невыполнимойбезпривлечениядополнительныхтеоретическихсоображений дляповторнойконструктнойвалидацииидополнительныхпоказателейдлярасширениямоделиизмерения. Традиционныйподход, основанный прежде всего начистостатистической оценкенадежности, здесьнеэффективен. Вэтомпримереонпривелбыкполучению"завышенной" надежностипринизкойвалидности. Конечно, некоторые приемывыявленияартефактовметода, разработанныевпсихометрике, могутбытьпримененывсоциологическомизмерениинапример, использование"прямых" и"обратных" пунктов. Однаковбольшинствеслучаев эти простыесредстванеэффективны иедвалиприменимы. Едва ли возможно разрабатывать "шкалы лжи" для каждого социологическогоопросаиливводитьванкетумногочисленныевопросыдублиили"экзотические" вопросыдлявыявленияслучайной тактикиответовреспондента.

Конкретныйподходкоценкекачестваизмерения, предложенный Р.Зеллером и Э.Карминесом, не стал окончательным решением черченных проблем. В этом подходе недостаточно разработаны проблемыизмерения, возникающиепринеправильнойспецификации теоретическоймодели. Удовлетворительноерешениеэтихпроблем

74

Рис. 3. Модель измерения

Контроль

для шкалы кош-роля опрос-

 

ника FIRO-B.21

 

П

о

з

и

ц

и

о

н

н

ы

й

о

т

в

е

т

(

R e s P o n

se set )

возможно лишь при соотнесении понятия "валидность" со "вспомогательнойтеориейизмерения", очем будетидтиречьвглавеIII данной работы. Однако в этом подходе достаточно ясно выражено стремление перейти от понимания измерения как "числового приписывания" к его трактовке как процесса связывания понятий теориисязыкомнаблюденияи, следовательно, ккомплекснойоценке качества измерения с учетом и статистических свойств, и содержательной адекватности. Безусловную ценность представляют и содержащиеся в этом подходе эвристические приемы, позволяющие установить зависимость качества эмпирических индикаторов от влияния неслучайных ошибок измерения - артефактов метода и ошибок теоретической спецификации, искажающих параметры модели измерения. Однакопрежде чем давать оценку новым, самостоятельным подходам к измерению, оказавшим существенное влияние на американскую эмпирическую социологию 60-х - 70-х годов, рассмотрим в общих чертах еще один такой подход, использующий инуюстратегиюоценкикачествапоказателей.

3.Множественныеиндикаторы

воценке качества измерения

Подход, основанный на использовании множественных индикаторов и путевого анализа, был предложен в статье Герберта Костнера, вышедшей в 1969 г. [113]. Однако сама идея использования

75

21 Отношения между " контролем" и артефактом измерения для 15 высказываний шкалы контроля. Коэффициенты соответствуют факторным нагрузкам после вращения. Источ-

ник- [242. Р. 134].

многих показателей для оценки надежности и валидности социологического измерения была достаточно популярна уже в первой половине 60-х годов. Сам Г.Костнер в указанной статье подчеркивает, что первую общую формулировку многоиндикаторного подхода можно найти в работах Х.Блейлока (1964) [81], Р.Кёртиса и Э.Джексона (1962) [116], а также в книге Ю.Уэбба и соавт., посвященной нереактивному измерению в общественных науках [238 ]. На наш взгляд, еще более прямой является связь многоиндикаторного подхода и процедуры конвергентной-дискри- минантной валидизации с использованием многометодной матрицы свойств (черт), или "ДО-М"- матрицы. Эта процедура была предложена Д.Кэмпбеллом и Д.Фиске в статье 1959 г. [106] и рассматривается в психометрической литературе как эффективный подход к комбинированной оценке конструктной валидности. Использование причинных моделей со множественными индикаторами позволило определить границы обоснованности такой оценки, о чем пойдет речь далее, однако до изложения основных идей многоиндикаторного подхода целесообразно просто зафиксировать наличие

такой связи.

Многоиндикаторный подход позволяет одновременно проводить оценку конструктной валидности индикаторов, эмпирическую проверку принятой исследователем причинной модели измерения и надежности индикаторов для сравнительно простых моделей измерения. Прежде всего, рассмотрим проблему оценки надежности, так как именно она позволяет понять тесную связь данного подхода со спецификой планирования исследования и сбора данных в социологии. В принципе, обычные методы оценки надежности (как внутренней согласованности и как повторяемости), принятые в теории тестов, вполне эффективны, когда речь идет о сравнительно стабильных свойствах, состоящих из многих высказываний тестах и сравнительной легкости доступа к источникам

данных.

В социологии же (и других общественных науках) единицей анализа часто является не индивидуум, а какой-то макроуровневый социальный объект - определенного типа группа, регион, культура и т.п. Возможности повторного тестирования в небольшом временном интервале, как и возможности использования многих индикаторов ("пунктов"), нацеленных на измерение одного и того же свойства, обычно крайне ограничены. С одной стороны, при использовании агрегированных данных официальной статистики социолог заранее ограничен существованием больших интервалов между переписями, так как за такой срок может меняться сам уровень интересующего его свойства (в [225. Р.29] приводится пример медианного уровня дохода как показателя экономических ресурсов штата). В результате, нельзя использовать оценку ретестовой надежности. С другой стороны, чаще всего попросту невозможно подобрать более двух-трех индикаторов интересующего исследователя свойства. И даже когда это возможно (преимущественно, при изучении установок), в реальный социологический ин-

76

струмент (анкету, план интервью) редко удается включить достаточно большой список высказываний, связанных с единственным свойством22. Однако исследователю все же необходима какая-то процедура для оценки качества измерения и внесения поправок на ошибку измерения в статистические оценки корреляций между изучаемыми свойствами23.

В условиях, когда имеется лишь один индикатор для каждой из исследуемых переменных и отсутствует возможность повторных замеров, нельзя оценить надежность этого индикатора (которая, в терминах путевого анализа, равна квадрату эпистемической корреляции, т.е. корреляции измеряемого свойства и индикатора). Причинная модель измерения становится непроверяемой, если не принять нереалистическое предположение об абсолютной надежности индикатора (эпистемические корреляции равны 1) или пренебрежимо малой ошибке измерения [113. Р.245]. Ситуация меняется уже с введением двух индикаторов для каждой переменной. На рисунке 4 X и Y- это исследовательские переменные, о связи между которыми говорит теоретическая гипотеза, с - структурный коэффициент, представляющий связь между X и Y в совокупности. Далее х1 и х2 -это индикаторы теоретической переменной X, которая сама по себе неизмеряема, так как является теоретическим конструктом24. Соответственно, у1 и у2 - индикаторы Y, a a, b, d и е - это так называемые эпистемические корреляции, связывающие индикатор с соответствующей неизмеряемой переменной. Принимается, что все переменные стандартизованы и, соответственно, а, b, с, d и е - это путевые коэффициенты, т.е. стандартизованные значения структурных коэффициентов (см.: [53. С. 177]). Правила путевого анализа позволяют выразить наблюдаемые

значения корреляций (в нашем случае, rx1x2, rx1у1, rx1у2, rx2у1, rx2y2, ry1y2)25 через последовательность коэффициентов причин-

ной диаграммы (о путевом анализе см., например, [53]).

На рис.4 изображены также возмущения или ошибки еi для которых принимаются допущения о случайном характере (они не скоррелированы друг с другом и их генеральное среднее равно нулю), и, кроме того, члены-концептуальные ошибки - ui , представляющие все неизвестные причины концептуальных переменных (X и У) в многоиндикаторных моделях. Для последних принимается, что они случайны по отношению друг к другу, к возмущениям в индикаторах

77

22Причины здесь могут заключаться и в обычно присущем социологическому исследованию многоцелевом характере, и, вероятно, в некотором различии мотивов к сотрудничеству у опрашиваемого в ситуациях социологического опроса и тестирования.

23Уже в работе 1968 г. П.Зигель и Р.Ходж использовали причинные модели для изучения влияния ошибки измерения на корреляцию между переменными [179].

24Подробнее об этом будет говориться в главе Ш.

25Для упрощения изложения, как это нередко делается в литературе, мы не будем пока

подчеркивать различие между выборочными оценками и параметрами совокупности, т.е. будем рассматривать выборочную корреляцию г как эквивалент параметра сово купности/)^ . *"

( ei) и по отношению к другим, точно указанным причинам каждой концептуальной переменной26.

Итак, используя правила путевого анализа, можно записать следующие уравнения, выражающие корреляции между индикаторами на рис. 4, через путевые коэффициенты:

rx1x2 = ab rx1 y1 = acd

(2.14)

(2.15)

78

26 В нашем обсуждении возмущения, в силу принятых предположений, не будут играть большой роли.

Корреляции rxiyj могут быть получены из данных для всех индикаторов, т.е. это известные величины. В системе из шести уравнений

содержатся и пять неизвестных (путевых коэффициентов). Следовательно, мы можем получить оценку любого из пяти коэффициентов: и корреляции истинных значений с, и эпистемические корреляции a,b,d и е, квадрат которых равен надежности индикатора. Однако модель, изображенная на рис.4, переопределена (шесть уравнений, пять неизвестных). Идея, предложенная Г.Костнером, как раз и заключалась в том, чтобы использовать избыточную информацию для оценки согласованности (несогласованности) получаемых значений коэффициентов и, соответственно, проверки обоснованности предположений, включенных в модель, в частности, предположения об отсутствии определенного рода неслучайной ошибки измерения. Для рассматриваемой нами модели на рис.4 из уравнений 2.15 и 2.18 мы получаем:

r

 

r

x

 

= abc2de

 

x y

y

2

 

 

1

1

2

 

 

 

Аналогично, из уравнений 2.16 и 2.17 получаем:

 

r

 

r

 

 

= abc2de

 

x y

2

y x

2

 

 

1

1

 

 

Следовательно,

 

rx1 y1 ry2 x2 = rx1 y2 ry1x2

(2.20)

Г.Костнер обозначил уравнение 2.20 как критерий согласованности. Если данные действительно порождены причинной моделью, изображенной на рис.4, то критерий согласованности должен соблюдаться для наблюдаемых корреляций как необходимое условие. Однако, если модель ошибочна, то критерий не соблюдается, так как присутствует неслучайная ошибка измерения (Г.Костнер обозначил исследовавшиеся им типы ошибок как "дифференциальное смещение" или "дифференциальную постоянную ошибку", так как она будет постоянна для повторных измерений одного случая, но варьировать для разных случаев, будучи скоррелированной с другим индикатором в модели [113. Р.248]). Эта неслучайная ошибка будет присутствовать, если хотя бы один индикатор детерминируется

79

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]