Бодалев А.А. - Общая психодиагностика
.pdfмерения. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинно-
го балла данного испытуемого. Таким образом, для проверки гипотезы о значимости отличия балла испытуемого от среднего значения оказы-
вается недостаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разброс в положении индивидуального балла (рис. 7).
Рис. 7. Соотношение распределений Sm – стандартное от-
клонение эмпирического среднего, St – стандартное отклонение
ошибки
Как же определить ошибку измерения? На помощь приходят корреляционные методы, позволяющие определить точность(надеж-
ность) через устойчивость и согласованность результатов, получаемых как на уровне целого теста, так и на уровне отдельных его пунктов.
Надежность целого теста имеет две разновидности.
1. Надежность-устойчивость (ретестовая надежность). Измеряет-
ся с помощью повторного проведения теста на той же выборке испыту-
емых, обычно через две недели после первого тестирования. Для ин-
тервальных шкал подсчитывается хорошо известный коэффициент корреляции произведения моментов Пирсона:
åx12i x2i - åx1i åx2i
r12 = n
(åx12i -(åx1i )2 / n)(åx22i -åx2i )2 / n)
где х1i. - тестовый балл i-го испытуемого при первом измерении;
101
х2i. - тестовый балл того же испытуемого при повторном измере-
нии;
n - количество испытуемых.
Оценка значимости этого коэффициента основывается на - не сколько иной логике, чем это обычно делается при проверке нулевой гипотезы - о равенстве корреляций нулю. Высокая надежность дости-
гается тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле
S 2 |
|
S |
2 |
=1- r |
|
= |
|
e |
(3.2.4) |
||
|
|
||||
0 |
|
Sx2 |
12 |
||
|
|
|
|
Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко уда-
ется достичь коэффициентов, превышающих 0,8. При г = 0,75 отно-
сительная доля стандартной ошибки равна1 - 0,75 = 0,5 . Этой ошиб-
кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически по-
лученное отклонение индивидуального тестового балла от среднего по выборке оказывается, как правило, завышенным. Для того чтобы вы-
яснить «истинное» значение тестового балла индивида, применяется формула
x =rx +(1-r) |
x |
(3.2.5) |
|
¥ |
i |
|
|
где x¥ - истинный балл; |
' |
хi — эмпирический балл i-го испытуемого;
r- эмпирически измеренная надежность теста; x - среднее для теста.
Предположим, испытуемый получил балл IQ по шкале Стэнфор-
да.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тогда
истинный балл x¥ = 0,9 ´ 120 + 0,1 ´ 100 =118.
Конечно, требование ретестовой надежности является коррект-
ным лишь по отношению к таким психическим характеристикамин дивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний(бодрости, тре-
102
воги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.
Для шкал порядка в качестве меры устойчивости к перетестиро-
ванию используется коэффициент ранговой корреляции Спирмена:
p =1 - |
6ådi2 |
|
|
|
, |
(3.2.6) |
|
|
|||
|
n(n 2 -1) |
|
|
где di |
— разность рангов /-го |
испытуемого в первом и втором |
|
ранговом ряду. |
|
С помощью компьютера определяется более надежный коэффи-
циент ранговой корреляции Кендалла (1975).
2. Надежностьсогласованность (одномоментная надежность).
Эта разновидность надежности не зависит от устойчивости, име-
ет особую содержательную и операциональную природу. Простейшим способ ее измеренияСОСТОИТЕ коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллельные формы теста получают расщеплением составного теста на «четную» и
«нечетную» половины: к первой относятся четные пункты, ко второй -
нечетные. По каждой половине рассчитываются суммарные баллы и между двумя рядами баллов по испытуемым определяются допустимые
(с учетом уровня измерения) коэффициенты корреляции. Если парал-
лельные тесты не нормализованы, то предпочтительнее использовать ранговую корреляцию. При таком расщеплении получается коэффици-
ент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна:
rxx = |
2rx |
|
|
(3.2.7) |
|
|
||
|
1-rx |
где rx - эмпирически рассчитанная корреляция для половин.
Делить тест на две половины можно разными способами, и каж-
дый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки син-
хронной надежности, который соответствует разбиению теста на такое
103
количество частей, сколько в нем отдельных пунктов. Такова формула
Кронбаха:
æ |
|
j |
ö |
|
||
|
åS 2j |
|
||||
ç |
|
÷ |
|
|||
a = |
k ç |
- |
j=1 |
÷ |
|
|
|
ç1 |
|
÷ |
(3.2.8) |
||
k -1 |
S 2 |
|||||
ç |
|
x |
÷ |
|
||
ç |
|
|
÷ |
|
||
è |
|
|
ø |
|
где а - коэффициент Кронбаха; k- количество пунктов теста;
S 2j - дисперсия по j-му пункту теста;
Sx2 - дисперсия суммарных баллов по всему тесту.
Обратите внимание на структурное подобие формулы Кронбаха
(3.2.2) и формулы Рюлона (3.2.8).
Несколько раньше была получена формула Кьюдера - Ричардсо-
на, аналогичная формуле Кронбаха для частного случаякогда отве-
ты на каждый пункт теста интерпретируются как дихотомические -пе ременные с двумя значениями (1 и 0):
|
|
|
|
æ |
|
k |
ö |
|
|
|
|
|
|
- å p j q j |
|
||
|
|
k |
ç S x2 |
÷ |
|
|||
KR20 |
= |
ç |
|
j =1 |
÷ |
(3.2.9) |
||
|
|
ç |
|
|
÷ |
|||
k -1 |
|
2 |
||||||
|
|
ç |
|
S x |
÷ |
|
||
|
|
|
|
ç |
|
|
÷ |
|
|
|
|
|
è |
|
|
ø |
|
где KR20 - традиционное обозначение получаемого коэффициен-
та;
p j q j -дисперсия i-и дихотомической переменной, какой является
i-й пункт теста; р = N («верно») , q = 1 - p n
В 1957 г. Дж. Ките предложил следующий критерий для оценки статистической значимости коэффициента a:
X n2-1 |
= |
k (n -1) |
(3.2.10) |
|
k (1 - a) + a |
||||
|
|
|
104
где X n2-1 - эмпирическое значение статистики % квадрат с п-1
степенью свободы;
k - количество пунктов теста; n - количество испытуемых;. a - надежность.
Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласо-
ванность пунктов теста, используя при этом только подсчет дисперсий.
Однако коэффициенты а и KR2I> позволяют оценить и среднюю корре-
ляцию между i-м и j-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей формулой:
a = |
|
|
krij |
|||
|
|
|
|
|
11) |
|
|
|
|
|
|
||
1+ |
(k -1)rij |
|||||
где |
rij |
- средняя корреляция между пунктами теста. Легко уви- |
деть идентичность формулы (3.2.11) обобщенной формуле Спирмена -
Брауна, позволяющей прогнозировать повышения синхронной надеж-
ности теста с увеличением количества пунктов теста в k раз (Аванесов В. С., 1982, с. 121). Из этой формулы видно, что при больших k малое значение rij может сочетаться с высокой надежностью. Пусть rij = 0,1, a k =100, тогда по формуле (3.2.11)
a = |
100 × 0,1 |
= |
10 |
» 0,91 |
|
|
|||
1 + 99 × 0,1 |
10,9 |
|
Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще однойдо статочно эффективной формулы надежности теста, которой легко вос-
пользоваться, получив стандартную распечатку компьютерных резуль-
татов факторного анализа по методу главных компонент:
|
k |
|
æ |
|
1 |
ö |
|
|
|
ç |
÷ |
|
|||||
q = k -1 |
- l |
(3.2.12) |
||||||
ç1 |
÷ |
|||||||
|
|
|
è |
1 |
ø |
|
105
где θ - коэффициент, получивший название тета-надежности
теста;
k - количество пунктов теста;
λ1 - наибольшее значение характеристического корня матрицы интеркорреляций пунктов (наибольшее собственное значение,
или абсолютный вес первой главной компоненты).
Как и предыдущие формулы, формула (3.2.12) также относится к оценке надежности теста, направленного на измерение одной харак-
теристики. Но, кроме того, она применима и для многофакторного тес-
та, хотя и нуждается в пересчете после первоначального отбора пунк-
тов, релевантных фактору (после того, как на основании многофак-
торного анализа отобраны пункты по одному фактору, снова прово-
дится факторный анализ - только для этих отобранных пунктов).
Надежность отдельных пунктов теста. Надежность теста обес-
печивается надежностью пунктов, из которых он состоит. Чтобы по-
высить ретестовую надежность теста в целом, надо отобрать из ис-
ходного набора пунктов, апробируемых в пилотажных психометри-
ческих экспериментах, такие пункты, на которые испытуемые дают ус-
тойчивые ответы. Для дихотомических пунктов (типа «решил - не ре-
шил», «да - нет») устойчивость удобно измерять с использованием че-
тырехклеточной матрицы сопряженности:
Тест 1
|
Да |
Нет |
|
Да |
|
|
Тест 2 |
a |
B |
||
Нет |
|
|
|
c |
D |
|
|
|
|
|
|
Здесь в клеточке а суммируются ответы«Да», данные испытуе-
мым при первом и втором тестировании, в клеточке b - число случаев,
когда испытуемый при первом тестировании отвечал«Да», а при вто-
ром - «Нет» и т. д. В качестве меры корреляции вычисляется фи-
коэффициент:
ad - bc
j = (3.2.13)
(a + b)(c + d )(a + c)(b + d )
106
Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:
X12 = j 2 n |
(3.2.14) |
Если вычисленное значение хи-квадрат выше табличного с од-
ной степенью свободы, то нулевая гипотеза (о нулевой устойчивости)
отвергается. Удобство использования фи-коэффициента состоит в том,
что он одновременно оценивает степень оптимальности данного пунк-
та теста по силе (трудности): фи-коэффициент оказывается тем мень-
шим, чем сильнее частота ответов «да» отличается от частоты ответа
«нет».
Кроме того, сама четырехклеточная матрица позволяет просле-
дить возможную несимметричность в устойчивости ответов«да» и
«нет» (это важнее для задач, чем для вопросов: например, может ока-
заться, что все испытуемые, уже решившие однажды данную задачу,
решают ее при повторном тестировании; это наводит на мысль о том,
что при втором тестировании происходит сбережение опыта, приоб-
ретенного при первом тестировании). Выявленные в результате такого анализа неустойчивые и неинформативные(слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной
выборке величина 1 - j превышает 0,71. При этом φ< 0,5.
Для т<?го чтобы повысить одномоментную (синхронную) надеж-
ность теста, следует из исходной пилотажной батареи пунктов отбро-
1
сить те, которые плохо согласованы с остальными. В отсутствие ком-
пьютера согласованность для пунктов также очень просто определяет-
ся с помощью четырехклеточной матрицы. В этом случае в первом столбце суммируются ответы испытуемых из«высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой».
Высокая Низкая
1 В ряде пособий показатель согласованности для пунктов называется дискриминативностью пунктов (Гайда В. К., Захаров В П., 1982).
107
Да |
A |
B |
Нет |
|
|
C |
D |
|
|
|
|
При нормальном распределении частот суммарных баллов«вы-
сокая» и «низкая» группы отсекаются справа и слева 27%-ными мар-
гинальными квантилями (рис. 8).
Для оценки согласованности с суммарным баллом применяется полная1 или упрощенная формула фи-коэффициента:
2a -P -1
ji = 1 (3.2.15)2
Pi (N *-Pi )
где Pi - количество ответов «верно» («да») на i-й пункт теста;
N* - сумма всех элементов матрицы;
N* = n • 0,54 где n - объём выборки;
Pi = а + b - При включении в эстремальную группу 1/3 выборки
N* = 0,66 • n.
Рис. 8. Квантили «высокой» и «низкой» группы на гра-
фике распределения тестовых баллов
В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэф-
фициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением«-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно
1Полная формула отличается от формулы (3.2.13) наличием в числителе вычитаемого (а + b + с +d)/2 - поправки с учетом вклада, который i-й пункт вносит в суммарный балл:
2Если 2а –Р1< 0, то числитель в формуле (3.2 15) выглядит так: 2а-Р1+1
108
исключить из теста.
При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме вы-
борки в 100 человек и уровне значимости р < 0,01 пороговое зна-
чение вычисляется так:
|
|
|
|
x0,012 |
|
|
|
|
|
|
|
j |
|
= |
= |
|
6,63 |
» 0.27 |
(3.2.16) |
||
|
|
|||||||||
|
|
n |
|
|||||||
|
|
|
|
100 |
|
|
|
|||
|
|
|
При постоянном использовании компьютера при подсчете сум-
марных баллов ключ для каждого пункта Q целесообразно определить в виде самого фи-коэффициента (или другого коэффициента корреля-
ции), определенного при коррелировании ответов на пункт с - сум марным баллом. Тогда тестовый балл подсчитывается по формуле
k |
|
xi =åRijCj , |
(3.2.17) |
j=1
где хi — суммарный балл i-го испытуемого;
Rij - ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт;
Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обрат-
ного.
Более чувствительный коэффициент, который также применяет-
ся для дихотомических пунктов, - это точечный бисериальный коэф-
фициент корреляции, учитывающий амплитуду отклонения индиви-
дуальных суммарных баллов от среднего балла:
1 |
n |
|||||
å x * - pi |
x |
|
||||
rpbi = |
n |
3.2.18) |
||||
|
|
|
|
|||
|
||||||
|
|
S x pi qi |
где å x* - сумма финальных баллов тех индивидов, которые да-
ли утвердительный ответ на i-й пункт теста (решили i-ю задачу);
109
Sx - стандартное отклонение для суммарных баллов всех инди-
видов из выборки;
pi qi - стандартное отклонение по i-му пункту; x - средний балл по всем пунктам.
А. Анастази относит критерий внутренней согласованности теста к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и можно в
данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Как правило, слишком высокая со-
гласованность снижает внешнюю валидность теста по критерию(см.
раздел 3.3). Если проверяется согласованность пунктов, составленных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетель-
ствует о внутренней валидности(согласованности) разработанного диагностического понятия (конструкта).
В компьютерных данных факторного анализа аналогом корреля-
ции пункта с суммарным баллом является нагрузка пункта на ведущий фактор («факторная валидность» в терминах А. Анастази). Если при-
бегать к геометрическому изображению нагрузки как проекции векто-
ра-пункта на ось-фактор, то структура пунктов хорошо согласованного теста предстанет в виде пучка векторов, плотно прилегающих к фак-
тору и вытянувшихся вдоль его оси (рис. 9).
Рис. 9. Векторная модель соотношения «прямых» и «об-
ратных» эмпирических пунктов с релевантным(измеряемым)
фактором и иррелевантными («шумовыми») факторами
Последовательность действий при проверке надежности:
1. Узнать, существуют ли данные о надежности теста, предпо-
110