- •Москва "наука" 1993
- •Глава первая
- •1. Становление основных подходов к измерению установок (1920-е - 1930-е годы)
- •3. Психологическая ориентация: ф.Олпорт, л.Л.Терстоун, р.Ликерт
- •4. Традиция Гутмана-Лазарсфельда
- •2. Надежность и валидность эмпирическх моделей
- •3. Множественные индикаторы в оценке качества измерения
- •1. Концептуализация и косвенное измерение
- •2. Взаимозависимость концептуализации и измерения:
- •1. Обобщение моделей структурных уравнений с латентной переменной и "общеизвестные истины" измерения
- •2. Г£гяао-методология и процедуры автоматического поиска моделей
- •4. Реалистская стратегия измерения
- •Вместо заключения: о радикальной критике "количественных" процедур в социологии 1
- •Литература
3. Множественные индикаторы в оценке качества измерения
Подход, основанный на использовании множественных индикаторов и путевого анализа, был предложен в статье Герберта Кост-нера, вышедшей в 1969 г. [113]. Однако сама идея использования
75
многих показателей для оценки надежности и валидности социологического измерения была достаточно популярна уже в первой половине 60-х годов. Сам Г.Костнер в указанной статье подчеркивает, что первую общую формулировку многоиндикаторного подхода можно найти в работах Х.Блейлока (1964) [81], Р.Кёртиса и Э.Джексона (1962) [116], а также в книге Ю.Уэбба и соавт., посвященной нереактивному измерению в общественных науках [238 ]. На наш взгляд, еще более прямой является связь многоиндикаторного подхода и процедуры конвергентной-дискри-минантной валидизации с использованием многометодной матрицы свойств (черт), или "ДО-М"- матрицы. Эта процедура была предложена Д.Кэмпбеллом и Д.Фиске в статье 1959 г. [106] и рассматривается в психометрической литературе как эффективный подход к комбинированной оценке конструктной валидности. Использование причинных моделей со множественными индикаторами позволило определить границы обоснованности такой оценки, о чем пойдет речь далее, однако до изложения основных идей многоиндикаторного подхода целесообразно просто зафиксировать наличие
такой связи.
Многоиндикаторный подход позволяет одновременно проводить оценку конструктной валидности индикаторов, эмпирическую проверку принятой исследователем причинной модели измерения и надежности индикаторов для сравнительно простых моделей измерения. Прежде всего, рассмотрим проблему оценки надежности, так как именно она позволяет понять тесную связь данного подхода со спецификой планирования исследования и сбора данных в социологии. В принципе, обычные методы оценки надежности (как внутренней согласованности и как повторяемости), принятые в теории тестов, вполне эффективны, когда речь идет о сравнительно стабильных свойствах, состоящих из многих высказываний тестах и сравнительной легкости доступа к источникам
данных.
В социологии же (и других общественных науках) единицей анализа часто является не индивидуум, а какой-то макроуров-невый социальный объект - определенного типа группа, регион, культура и т.п. Возможности повторного тестирования в небольшом временном интервале, как и возможности использования многих индикаторов ("пунктов"), нацеленных на измерение одного и того же свойства, обычно крайне ограничены. С одной стороны, при использовании агрегированных данных официальной статистики социолог заранее ограничен существованием больших интервалов между переписями, так как за такой срок может меняться сам уровень интересующего его свойства (в [225. Р.29] приводится пример медианного уровня дохода как показателя экономических ресурсов штата). В результате, нельзя использовать оценку рете-стовой надежности. С другой стороны, чаще всего попросту невозможно подобрать более двух-трех индикаторов интересующего исследователя свойства. И даже когда это возможно (преимущественно, при изучении установок), в реальный социологический ин-
76
струмент (анкету, план интервью) редко удается включить достаточно большой список высказываний, связанных с единственным свойством22. Однако исследователю все же необходима какая-то процедура для оценки качества измерения и внесения поправок на ошибку измерения в статистические оценки корреляций между изучаемыми свойствами23.
В условиях, когда имеется лишь один индикатор для каждой из исследуемых переменных и отсутствует возможность повторных замеров, нельзя оценить надежность этого индикатора (которая, в терминах путевого анализа, равна квадрату эпистемической корреляции, т.е. корреляции измеряемого свойства и индикатора). Причинная модель измерения становится непроверяемой, если не принять нереалистическое предположение об абсолютной надежности индикатора (эпистемические корреляции равны 1) или пренебрежимо малой ошибке измерения [113. Р.245]. Ситуация меняется уже с введением двух индикаторов для каждой переменной. На рисунке 4 X и Y- это исследовательские переменные, о связи между которыми говорит теоретическая гипотеза, с - структурный коэффициент, представляющий связь между X и Y в совокупности. Далее х1 и х2 -это индикаторы теоретической переменной X, которая сама по себе неизмеряема, так как является теоретическим конструктом24. Соответственно, у1 и у2 - индикаторы Y, a a, b, d и е - это так называемые эпистемические корреляции, связывающие индикатор с соответствующей неизмеряемой переменной. Принимается, что все переменные стандартизованы и, соответственно, а, b, с, d и е - это путевые коэффициенты, т.е. стандартизованные значения структурных коэффициентов (см.: [53. С. 177]). Правила путевого анализа позволяют выразить наблюдаемые значения корреляций (в нашем случае, rx1x2, rx1у1, rx1у2, rx2у1, rx2y2, ry1y2)25 через последовательность коэффициентов причинной диаграммы (о путевом анализе см., например, [53]).
На рис.4 изображены также возмущения или ошибки еi для которых принимаются допущения о случайном характере (они не скор-релированы друг с другом и их генеральное среднее равно нулю), и, кроме того, члены-концептуальные ошибки - ui , представляющие все неизвестные причины концептуальных переменных (X и У) в многоиндикаторных моделях. Для последних принимается, что они случайны по отношению друг к другу, к возмущениям в индикаторах
77
( ei) и по отношению к другим, точно указанным причинам каждой концептуальной переменной26.
Итак, используя правила путевого анализа, можно записать следующие уравнения, выражающие корреляции между индикаторами на рис. 4, через путевые коэффициенты:
( 2.14)
(2.15)
78
Корреляции rxiyj могут быть получены из данных для всех индикаторов, т.е. это известные величины. В системе из шести уравнений содержатся и пять неизвестных (путевых коэффициентов). Следовательно, мы можем получить оценку любого из пяти коэффициентов: и корреляции истинных значений с, и эпистемические корреляции a,b,d и е, квадрат которых равен надежности индикатора. Однако модель, изображенная на рис.4, переопределена (шесть уравнений, пять неизвестных). Идея, предложенная Г.Костнером, как раз и заключалась в том, чтобы использовать избыточную информацию для оценки согласованности (несогласованности) получаемых значений коэффициентов и, соответственно, проверки обоснованности предположений, включенных в модель, в частности, предположения об отсутствии определенного рода неслучайной ошибки измерения. Для рассматриваемой нами модели на рис.4 из уравнений 2.15 и 2.18 мы получаем:
Аналогично, из уравнений 2.16 и 2.17 получаем:
Следовательно,
(2.20)
Г .Костнер обозначил уравнение 2.20 как критерий согласованности. Если данные действительно порождены причинной моделью, изображенной на рис.4, то критерий согласованности должен соблюдаться для наблюдаемых корреляций как необходимое условие. Однако, если модель ошибочна, то критерий не соблюдается, так как присутствует неслучайная ошибка измерения (Г.Костнер обозначил исследовавшиеся им типы ошибок как "дифференциальное смещение" или "дифференциальную постоянную ошибку", так как она будет постоянна для повторных измерений одного случая, но варьировать для разных случаев, будучи скоррелированной с другим индикатором в модели [113. Р.248]). Эта неслучайная ошибка будет присутствовать, если хотя бы один индикатор детерминируется
79
внешней переменной помимо концептуальной переменной, которую он представляет, и собственной случайной ошибки измерения. Г.Костнер, как уже говорилось, показал, что критерий согласованности для модели с двумя индикаторами каждой переменной является необходимым, но не достаточным условием, и рассмотрел случаи, когда уравнение 2.20 выполняется (в пределах ошибки выборки) при наличии неслучайной ошибки измерения. Один из таких случаев показан на рис.5А, другой - на рис.5Б.
Диаграмма на рис.5А отражает ситуацию неслучайной ошибки при измерении индикаторов одной переменной (например,y1 и у2 - смежные вопросы анкеты, измеряющие одно качество). В случае такой модели изменится лишь уравнение 2.19 из системы, которое не использовалось при получении критерия 2.20. На рис.5Б изображена ситуация, когда один индикатор детерминируется двумя неизмеряемыми переменными, что вполне возможно, когда между переменными существует тесная взаимосвязь и они трудно разделимы теоретически (например, это социальный и экономический престиж соответственно). Для этой модели в нашей первоначальной системе уравнений 2.14 -2.19 нужно переписать два:
Однако и в этом случае критерий согласованности будет выполняться, т.е.
так как : (а с d + аf) (Ь с е) = (асe) (b с d + bf) .
Кроме того, в некоторых случаях (например, при наличии неслучайной ошибки измерения между индикаторами разных концептуальных переменных) различия между левой и правой частями критерия согласованности будут очень малы и неотличимы от ошибки выборки, так как будут выражены через произведение многих путевых коэффициентов, каждый из которых меньше единицы.
Как показал Х.Блейлок [83] , предложенный Г.Костнером подход, может быть распространен на все рекурсивные модели (определение рекурсивных причинных систем см.: [53. С.139-141] ) , т.е. для любого числа концептуальных переменных. Так, для двухиндикаторной модели с тремя переменными будут существовать три критерия согласованности. Однако добавление новых переменных будет вести к резкому возрастанию вычислительных сложностей и числа оценок для каждого коэффициента, что порождает проблемы оценивания. Поэтому для сложных моделей со многими переменными и многими индикаторами, которые, однако, не очень типичны для обычной практики, используют факторно-аналитические процедуры, основанные на методе максимального правдоподобия.
80
Г .Костнер также показал, что уже для моделей, содержащих три индикатора каждой переменной, можно выявить некоторые типы систематических ошибок, т.е. не просто обнаружить наличие систематической ошибки, но и "локализовать" невалидный индикатор и исключить его. Для откорректированной модели измерения, где ошибки измерения случайны, из соответствующих путевых коэффициентов можно получить оценки надежности. Для модели с тремя индикаторами для каждой из двух переменных существует девять критериев согласованности (Костнер рассматривал ее как совокупность девяти двухиндикаторных моделей) [113; 225. Р.38-39]:
Приведем пример. Пусть в действительности имеет место ситуация, изображенная на рисунке 6. Исследователь же исходит из предположения, что присутствуют лишь случайные ошибки измерения, т.е. у индикаторов х3 и у, нет общего источника вариации.
Так как для каждой переменной используются три индикатора, то, рассматривая, какие из критериев 2.20-2.28 не выполняются, можно обнаружить источник неслучайной ошибки в модели. В данном случае не будут удовлетворены условия 2.21, 2.22, 2.27 и 2.28, включающие корреляцию rx3y1 , тогда как в остальных случаях равенство будет удовлетворено. Таким образом, исследователь может исключить из модели два невалидных индикатора (х3 и у1) и далее получить множественные оценки остальных параметров, в частности, оценить надежность остальных индикаторов, как в случае модели с двумя индикаторами.
Следует, однако, помнить о том, что при увеличении числа индикаторов в модели число получаемых оценок будет возрастать в
6 И.Ф.Девятко 81
Рис. 7. Причинная модель измерения для двух свойств и двух методов.
геометрической прогрессии [242. Р. 173]. Поэтому обычно модели с тремя индикаторами используют для выявления невалидных индикаторов (систематической ошибки измерения), а для оценки параметров возвращаются к модели с двумя индикаторами, не порождающей серьезных проблем, если число концептуальных переменных невелико [225. Р.40].
В начале данного раздела речь шла об определенном сходстве многоиндикаторного подхода с процедурой конвергентно-дискрими-нантной валидизации, предложенной Д.Кэмпбеллом и Д.Фиске. При этом мы оговорили, что построение причинных моделей измерения со множественными индикаторами позволило показать, что использование многометодной матрицы свойств далеко не всегда является эффективным средством проверки конструктной валидности. Так как процедура Д.Кэмпбелла и Д.Фиске неоднократно описана в литературе (например, [2. С. 144-146]), укажем лишь, что суть процедуры заключается в применении разных методов измерения - заполняемый респондентом опросник, структурированное интервью, наблюдение и т.п. - к оценке двух или более свойств. В результате получается матрица "свойства/методы", элементами которой являются коэффициенты корреляции, включающие в себя и коэффициенты надежности (на главной диагонали), и коэффициенты валидности. В работах Р.Алтаузера и соавт. [72; 73] содержится анализ "М-М"-матриц с помощью причинных моделей измерения. Проиллюстрируем выводы, полученные в этих работах, на простейшем примере двух свойств (концептуальных переменных X и Y) и двух методов. Матрица для этого примера показана в таблице 2.1.
Не считая оценок надежности (заключенных в скобки), в матрице содержится шесть наблюдаемых коэффициентов корреляции для
82
Таблица 2.1. Матрица корреляций для двух свойств и двух методов [225. Р.48]
Рис.
6. Модель Костнера с двумя
переменными и шестью
индикаторами (с выявляемой
неслучайной ошибкой).
четырех различных индикаторов (два метода для каждого из двух свойств). Вариация каждого индикатора имеет два независимых источника - свойство, т.е. концептуальная переменная, и метод измерения. Представим эти отношения с помощью причинной модели измерения на рисунке 7.
Здесь X и Y - значения двух свойств, М{ и М2 представляют влияние двух используемых методов. Существует какая-то корреляция между истинными значениями двух свойств (S), и между влияниями двух методов. Последнее предположение весьма правдоподобно если допустить существование сходных факторов, воздействующих на реакцию респондента - социальной желательности, тематики самопрезентации или просто сходства способа измерения. Модель на рис.7 не доопределена (шесть измеряемых коэффициентов и десять параметров, подлежащих оцениванию).
Однако, следуя правилам путевого анализа, можно выразить все корреляции через путевые коэффициенты, что позволяет оценить четыре основанных на этих корреляциях критерия валидности, предложенных Кэмпбеллом и Фиске (что и было сделано в работах [72; 73], см. также: [225. Р.47-55]).
Таким образом, получаем для коэффициентов валидности (одно свойство, разные методы):
(2.29) (2.30)
Для корреляций между различными свойствами, измеренными разными методами:
( 2.31) (2.32)
83Для корреляций разных свойств, измеренных одним методом:
Т ретий критерий предполагает, что корреляция двух измерений (разными методами) одной переменной будет выше, чем корреляция двух черт, измеренных одним методом. Например,
( 2.33) (2.34)
Первый критерий Кэмпбелла и Фиске требует, чтобы коэффициенты валидности г и ry1y2 были высоки и статистически значимы. Однако из уравнений 2.29 и 2.30 очевидно, что это требование будет выполняться либо из-за высоких значений эпистемических корреляций а, b, с, d, либо из-за того, что влияние метода измерения велико (/, т, p и k) и методы скор-релированы (ср. обсуждение в предыдущем разделе). Следовательно, даже прямая оценка валидности будет корректной лишь если предположить, что методы совершенно не скоррелированы. Но такое предположение может выглядеть правдоподобным лишь в очень редких ситуациях.
Второй критерий предполагает сравнение между коэффициентами валидности и корреляциями между разными свойствами, измеренными разными же методами (стоящими в той же колонке и столбце). Корреляции между методами при измерении одного свойства должны быть выше, чем при измерении разных свойств, т.е., например:
Для рассматриваемого коэффициента валидности это равнознач-
но:
cd + mkR-(bcS + PmR)>0.
Перегруппируем слагаемые, чтобы разделить компоненты, связанные с концептуальной переменной и с методом:
(с d - b с S) + (k -P) т R > 0 . (2.35)
Обсуждаемый критерий предполагает, что большое различие этих корреляций должно указывать на то, что два измерения У должны быть связаны сильнее, чем измерение Y и измерение второго свойства. Действительно, если d и b приблизительно равны, величина первого компонента будет функцией от (1 - S). Но для этого нужно предположить, что второй компонент должен быть близок к нулю. Это возможно либо когда влияния метода невелики (либо корреляция между двумя методами равна нулю), либо эфекты метода велики и приблизительно равны (k = P). В последнем случае критерий будет удовлетворен при наличии сильных артефактов метода.
Следовательно, осмысленное применение критерия дискрими-нантной валидности возможно лишь при принятии допущения об отсутствии сильных эффектов метода (что, как уже говорилось, далеко не всегда может быть оправдано).
84
т.е.
(а b + I P R) — (а с S + I т)
или
(а b — а с S) + I (P R — т) > 0.
П о аналогии с предыдущим критерием, если предположить, что эпистемические корреляции b и с приблизительно равны, первый компонент будет функцией от (1 — 5) и его величина будет зависеть от корреляции между X и Y. Во втором компоненте присутствует разность между произведением двух путевых коэффициентов - р и R - и одним коэффициентом т. Так как величины путевых коэффициентов меньше единицы, то второй компонент, вероятно, будет меньше 0. Если эффекты метода сильны, то значение второго компонента будет сравнительно большим и отрицательным, а интересующее нас различие между корреляциями - маленьким. Т.е., .если дисперсия метода больше дисперсии свойства, то критерий будет не удовлетворен, что согласуется с идеей Д.Кэмпбелла и Д.Фиске. Однако, чтобы дисперсия, связанная с методами, была заметна, связь между свойствами (S) должна быть невелика или первый компонент должен иметь сравнительно небольшое значение. Если же свойства высоко коррелируют, то величина первого компонента будет небольшой и результирующая разность корреляций rx1x2 и rx1y1 окажется маленькой даже тогда, когда второй компонент будет также невелик. Т.е. в этом случае влияние артефактов метода будет переоцениваться. Таким образом, третий критерий адекватен лишь для случая, когда заранее можно предположить отсутствие значительной корреляции между свойствами.
Четвертый критерий, предложенный Д.Кэмпбеллом и Д.Фиске, предполагает сравнение паттернов корреляций внутри блоков, относящихся к одному методу (внутри пунктирных прямоугольников, подобных выделенному в таблице 2.1) . Отношения между свойствами должны сохраняться вне зависимости от используемого метода. Для того, чтобы проверить этот критерий, "М-М"-матрица должна быть расширена хотя бы до трех свойств. Мы не будем приводить здесь выкладки, так как ход рассуждений аналогичен вышеизложенным. Можно показать, что критерий будет удовлетворен даже при наличии существенных эффектов метода, если соответствующие пути будут приблизительно равны бсак это было показано при анализе второго критерия валидности)27 . В таком случае применение четвертого
85
критерия ограничено ситуациями, коща можно заранее принять предположение о том, что каждый метод имеет отличное по величине влияние для каждого свойства, т.е. выраженность артефактов данного метода зависит от того, какое свойство измеряется. Это предположение нельзя назвать очевидным, так как оно само нуждается в проверке.
Таким образом, анализ критериев конвергентно-дискриминант-ной валидности с позиций причинных моделей измерения с множественными индикаторами показал, что по крайней мере три из предложенных критериев в действительности требуют очень сильных допущений, которые достаточно нечасто могут быть приняты даже для простых ситуаций. Введение же даже небольших усложнений в модель, приближающее ее к реальности (например, предположения о воздействии измерения первого индикатора каждой черты на последующие измерения других индикаторов [225. Р.53-54 ]), делает применение кэмпбелловского подхода к валидности практически невозможным. Работы Р.Алтаузера, Т.Хеберлейна и Р.Скотта, осуществивших анализ возможностей и ограничений использования "М-М"-матриц для оценки валидности измерения, содержали и некоторые подходы к выявлению влияния метода измерения для простейших моделей с двумя свойствами и двумя методами. Более общим, однако, представляется подход, связанный с увеличением числа свойств или числа используемых индикаторов. Переопределенными будут уже модели с четырьмя методами измерения для двух свойств (либо модели, содержащие четыре измеряемых свойства и два метода измерения). В этом случае появляется возможность оценки всех релевантных параметров. Однако, как уже говорилось, этот подход ведет к появлению множественных оценок каждого параметра.
Очень плодотворным оказалось применение многоиндикаторных моделей измерения и для двух других классов задач - анализа сравнимости индикаторов [89] и оценки ретестовой надежности и истинной стабильности измеряемого свойства. Как отмечалось в предыдущем разделе, оценка ретестовой надежности в рамках традиционного психометрического подхода осложнена проблемой стабильности измеряемого свойства и применима к достаточно узкому диапазону ситуаций. Без явного задания модели измерения и при наличии лишь двух замеров она может основываться лишь на непроверяемом предположении об отсутствии истинных изменений в концептуальной переменной. Априорное принятие такого допущения может считаться оправданным применительно к конституционально обусловленным психофизиологическим характеристикам индивида (например, скорости моторной реакции), но совершенно неприемлемо, когда речь идет о динамических социальных процессах. Даже при очень небольших временных интервалах мнения и установки могут достаточно радикально меняться.
Д.Хейс (1971 г.) показал, что существует возможность получения отдельных оценок надежности и стабильности при введении в панель третьей волны [145]. Однако и здесь все еще требуются некоторые
86
сильные допущения (в частности, о постоянстве эпистемических корреляций, т.е. фактически коэффициентов одномоментной надежности) . Д.Уайли и Дж.Уайли показали, что это допущение не всегда обосновано и предложили способ оценки модели с тремя волнами и одним индикатором без стандартизации.Единственным априорным предположением в этом случае является постоянство дисперсии ошибок индикатора [240 ]. Еще одно спорное допущение, присутствующее в панельных моделях, - это нескоррелированность возмущений концептуальной переменной (концептуальных ошибок и. ) в последовательные моменты времени. Как и в случае скоррелирован-ных ошибок измерения, прибавление дополнительных волн не дает возможности оценить параметры. Однако Д.Хейс показал, что прибавление четвертой волны позволяет проверить гипотезу о нескор-релированности возмущений, так как в этом случае может быть выведен критерий согласованности.
Х.Блейлок предложил альтернативный подход для панельных моделей с использованием множественных индикаторов в двух или более временных точках [85 ]. Получающиеся в результате модели аналогичны ранее обсуждавшимся моделям с двумя переменными и множественными индикаторами (только здесь вместо двух концептуальных переменных имеется одна, измеренная дважды). Преимущества использования множественных индикаторов в данном случае - это достаточность двух волн данных, отсутствие ограничений на устойчивость коэффициентов одномоментной надежности, возможность проверки допущений о скоррелированности ошибок индикаторов с помощью уже описанных критериев согласованности. Однако и здесь возникает проблема множественных оценок параметров, о которой мы неоднократно упоминали и на которой вкратце остановимся немного ниже после обсуждения проблемы значимости выводов, получаемых при проверке модели.
Как было показано ранее, переопределенные модели со множественными индикаторами, дающие несколько оценок для каждого параметра, позволяют сформулировать критерии согласованности. Критерий согласованности - это средство проверки валидности для каждого из индикаторов и для модели в целом. И при изложении комбинированного подхода к оценке качества измерения в предыдущем разделе, и при анализе многоиндикаторного подхода мы неоднократно подчеркивали, что наиболее адекватной стратегией оценки валидности является построение и проверка модели измерения, а не валидизация отдельного индикатора. Однако любой критерий согласованности в моделях со множественными индикаторами предполагает, что при корректности модели левая и правая части критерия должны быть равны. Если же их разность больше нуля, то возникает проблема оценки значимости этого различия. Обсуждая критерии согласованности и соответствующие модели, мы не уделяли внимания этой проблеме, т.е. не подчеркивали, что любое нарушение равенства может быть связано и с выборочной природой данных. В действительности существует необходимость проверки гипотезы о вероятности выполнения равенства в совокупности при данной ве-
87
личине отклонения от точного равенства в выборке. Следовательно, необходимо решить статистическую задачу проверки значимости. Такой тест значимости был создан за несколько десятилетий до появления первых моделей со множественными индикаторами Ч.Спирменом и К.Хользингером (1924 г.) при разработке простой модели факторного анализа [225. Р.70-72]. Предложенная этими авторами величина "тетрадической разности" сходна с критерием согласованности Костнера, поэтому оценка стандартной ошибки этой величины вполне подходит для аналогичной оценки различия между левой и правой частями критерия согласованности.
Тетрадическая (или тетрадная) разность (t d) для модели с двумя переменными и четырьмя индикаторами определяется как:
Для оценки стандартной ошибки (S.E.) используется формула [225. Р.71]:
(2.38)
где:
N - размер выборки
Так как данная формула предполагает довольно громоздкие
вычисления, то на практике используют простое приближение:
ее значительно более
(2.39)
-где г - среднее четырех корреляций, входящих в критерий.
Эта более простая формула может использоваться во всех случаях, кроме тех, когда и N, и эмпирические корреляции малы. Используя эту формулу для оценки стандартной ошибки, можно применить простой ^-критерий для оценки значимости отличия полученной величины td от нуля [225. Р.71 ]. Значение будет равно отношению:
t =
td
S.E.
Далее с помощью стандартной таблицы t -распределения определяют уровень значимости (для N - 1 степеней свободы).
Существует, однако, еще одна проблема, возникающая при использовании критерия согласованности. Если наблюдаемые корреляции очень малы, то даже ошибочная модель может пройти проверку значимости, так как разность между двумя парами таких корреляций заведомо будет очень мала. Поэтому обычно предлагается не использовать критерий согласованности, когда корреляции между индикаторами меньше или равны 0,3 [73; 225 ]. Для проверки корректности модели в этом случае рекомендуется сравнить между собой различные оценки каждого параметра. В случае, если эти оценки очень близки по величине, можно считать модель верной. Существуют и другие, более сложные тесты значимости для моделей со множественными индикаторами (см.: [176]).
Значительно более сложной проблемой является наличие нескольких различающихся оценок для каждого параметра. Это "цена", которую приходится платить за переопределенность (которая, в свою очередь, необходима для проверки согласованности). Как уже говорилось, в модели с двумя переменными и четырьмя индикаторами для каждого параметра имеется две оценки, в модели с тремя индикаторами для каждой переменной оценок будет уже девять и т.д. Даже если модель успешно прошла проверку по критерию согласованности, эти оценки могут заметно расходиться. Возникает проблема выбора между этими оценками эпистемических корреляций (т.е. надежности индикаторов) или корреляций между переменными с поправкой на надежность. Для решения этой проблемы предлагались разные способы: простое усреднение оценок для каждого параметра, усреднение оценочных уравнений для получения одного значения и т.д. [225. Р.73 ]. В принципе любая из этих процедур дает несмещенную оценку, так как правильно определенная модель является теоретически несмещенной. Однако в статистическом оценивании, помимо несмещенности, требуется и эффективность оценки, т.е. выборочное распределение оценок должно обладать сравнительно небольшой дисперсией. Так как обсуждение собственно статистических проблем несколько выходит за рамки нашего изложения, ограничимся лишь двумя замечаниями. Во-первых, отсутствие окончательного решения проблемы "наилучшей" оценки служило поводом для критики многоиндикаторного подхода [242. Р.173 ]. Во-вторых, так как в переопределенной модели эффективной оценкой может быть лишь взвешенная средняя, где "веса" отражают вариативность исходных оценок, простое усреднение дает лишь несмещенную оценку. Конечно, для элементарных моделей с небольшим количеством оценок каждого параметра эта проблема не очень существенна, любое взвешивание дает результат, не слишком отличающийся от простого усреднения. Однако по мере усложнения модели измерения (и увеличения числа оценок) возникает необходимость перехода от простых методов путевого анализа к методам максимального правдоподобия.
Отметим, однако, что любые более сложные подходы к оценке параметров могут применяться лишь к конкретной теоретически
88
89
специфицированной модели измерения с несколькими индикаторами. Описанный нами подход со множественными индикаторами, как и подход к оценке качества измерения, обсуждавшийся в предыдущем разделе, важен именно для понимания содержательных аспектов измерения и роли модели измерения в комплексной оценке надежности и валидности. Понимание этой содержательной стороны проблемы позволяет оценить вклад социологов в традиционные психометрические представления о надежности и валидности.
Оценивая роль рассмотренных подходов к реконцептуализации понятия качества измерения в социологии, отметим, во-первых, что возникновение этих подходов было бы невозможным без принципиально новой и возникшей собственно в социологии трактовки измерения как основанного на содержательных теоретических представлениях процесса соотнесения высокоабстрактных понятий теории с данными наблюдений, в " снятой" форме представленного в модели измерения. Во-вторых, сами новые подходы к оценке качества измерения, ориентированные на проверку гипотез об адекватности принятой модели измерения (а не на оценку качества отдельных показателей), послужили толчком к дальнейшему углублению именно тех представлений об измерении, которые первоначально инициировали их появление28. Т.е. понимание сложной и носящей обоюдный характер взаимосвязи теоретически заданного предмета измерения, его метода и конкретных эмпирических показателей, к которому подводила рассмотренная концепция качества измерения, способствовало отказу от узко инструментальной трактовки функций измерения. Новое, более широкое определение функций измерения очень точно, на наш взгляд, передано в следующем тезисе: "Их (измерительных операций) неизменная функция коренится во взаимосвязях между их концептуальными и операциональными аспектами, в семантически целесообразном и эмпирически реализуемом соответствии числовым операциям и в надлежащей спецификации, которая соотнесена с природой объекта измерения, с используемыми измерительными инструментами, применяемым способом измерения..." [9. С.31 ].
Рассмотренные подходы к оценке валидности и надежности измерения в силу своей относительной простоты не могут быть использованы в ситуациях, когда модель измерения очень сложна. Для оценки параметров очень сложных моделей в последнее время используются значительно более изощренные статистические процедуры (например, анализ ковариационных структур). Однако применение таких процедур осмысленно лишь тогда, когда исследователь имеет серьезные основания подозревать наличие конкретных типов неслучайной ошибки в своих данных и способен отчетливо сформулировать проверяемую модель. В то же время достоинства сравнительно простых подходов тесно связаны с их недостатками, т.е. с существованием ограничений на сложность модели. Прежде всего, необходимость заранее сформулировать все допущения, касающиеся
90
структуры модели, заставляет исследователя эксплицировать, явно задавать все имеющиеся у него представления о природе и взаимосвязи переменных, возможных влияниях метода измерения на его результат. Тем самым возникают определенные гарантии против опаснейшей иллюзии эмпирической социологии - иллюзии "самоочевидной интерпретируемости результатов измерения" (см.: [7; 35]), не зависящей от теоретических представлений. С другой стороны, преодолевается противоположный соблазн строить в принципе непроверяемые теории, где все связано со всем, в надежде, что хороший методист должен найти способ устранить ошибки измерения и откорректировать инструмент (оценить ретестовую надежность отдельного индикатора, указать корреляцию с суммарным баллом и т.п.). Конечно, тема зависимости измерения от теории не исчерпывается проблемами определения валидности и надежности (ряд других проблем будет анализироваться в следующей главе), однако анализируя эволюцию взглядов на качество измерения в американской социологии 60-х - 70-х годов, нельзя не признать, что этот процесс характеризовался растущим пониманием специфики целей, задач и методов собственно социологического исследования, все большей "автономизацией" подходов и отказом от некритического копирования отдельных приемов психометрики. не исключавшим, впрочем, принятия конструктивных идей.
Глава третья
КОНЦЕПТУАЛИЗАЦИЯ, ИЗМЕРЕНИЕ, МОДЕЛИРОВАНИЕ:
НОВАЯ ТРАКТОВКА ДИАГНОСТИЧЕСКОЙ ПРОЦЕДУРЫ В СОЦИОЛОГИИ