Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Бодалев А.А. - Общая психодиагностика

.pdf
Скачиваний:
499
Добавлен:
15.09.2017
Размер:
2.58 Mб
Скачать

мерения. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинно-

го балла данного испытуемого. Таким образом, для проверки гипотезы о значимости отличия балла испытуемого от среднего значения оказы-

вается недостаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разброс в положении индивидуального балла (рис. 7).

Рис. 7. Соотношение распределений Sm – стандартное от-

клонение эмпирического среднего, St – стандартное отклонение

ошибки

Как же определить ошибку измерения? На помощь приходят корреляционные методы, позволяющие определить точность(надеж-

ность) через устойчивость и согласованность результатов, получаемых как на уровне целого теста, так и на уровне отдельных его пунктов.

Надежность целого теста имеет две разновидности.

1. Надежность-устойчивость (ретестовая надежность). Измеряет-

ся с помощью повторного проведения теста на той же выборке испыту-

емых, обычно через две недели после первого тестирования. Для ин-

тервальных шкал подсчитывается хорошо известный коэффициент корреляции произведения моментов Пирсона:

åx12i x2i - åx1i åx2i

r12 = n

(åx12i -(åx1i )2 / n)(åx22i -åx2i )2 / n)

где х1i. - тестовый балл i-го испытуемого при первом измерении;

101

х2i. - тестовый балл того же испытуемого при повторном измере-

нии;

n - количество испытуемых.

Оценка значимости этого коэффициента основывается на - не сколько иной логике, чем это обычно делается при проверке нулевой гипотезы - о равенстве корреляций нулю. Высокая надежность дости-

гается тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле

S 2

 

S

2

=1- r

 

=

 

e

(3.2.4)

 

 

0

 

Sx2

12

 

 

 

 

Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко уда-

ется достичь коэффициентов, превышающих 0,8. При г = 0,75 отно-

сительная доля стандартной ошибки равна1 - 0,75 = 0,5 . Этой ошиб-

кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически по-

лученное отклонение индивидуального тестового балла от среднего по выборке оказывается, как правило, завышенным. Для того чтобы вы-

яснить «истинное» значение тестового балла индивида, применяется формула

x =rx +(1-r)

x

(3.2.5)

¥

i

 

где x¥ - истинный балл;

'

хi — эмпирический балл i-го испытуемого;

r- эмпирически измеренная надежность теста; x - среднее для теста.

Предположим, испытуемый получил балл IQ по шкале Стэнфор-

да.-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тогда

истинный балл x¥ = 0,9 ´ 120 + 0,1 ´ 100 =118.

Конечно, требование ретестовой надежности является коррект-

ным лишь по отношению к таким психическим характеристикамин дивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний(бодрости, тре-

102

воги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Для шкал порядка в качестве меры устойчивости к перетестиро-

ванию используется коэффициент ранговой корреляции Спирмена:

p =1 -

6ådi2

 

 

,

(3.2.6)

 

 

n(n 2 -1)

 

где di

— разность рангов /-го

испытуемого в первом и втором

ранговом ряду.

 

С помощью компьютера определяется более надежный коэффи-

циент ранговой корреляции Кендалла (1975).

2. Надежностьсогласованность (одномоментная надежность).

Эта разновидность надежности не зависит от устойчивости, име-

ет особую содержательную и операциональную природу. Простейшим способ ее измеренияСОСТОИТЕ коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1,с. 106). Чаще всего параллельные формы теста получают расщеплением составного теста на «четную» и

«нечетную» половины: к первой относятся четные пункты, ко второй -

нечетные. По каждой половине рассчитываются суммарные баллы и между двумя рядами баллов по испытуемым определяются допустимые

(с учетом уровня измерения) коэффициенты корреляции. Если парал-

лельные тесты не нормализованы, то предпочтительнее использовать ранговую корреляцию. При таком расщеплении получается коэффици-

ент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна:

rxx =

2rx

 

(3.2.7)

 

 

1-rx

где rx - эмпирически рассчитанная корреляция для половин.

Делить тест на две половины можно разными способами, и каж-

дый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки син-

хронной надежности, который соответствует разбиению теста на такое

103

количество частей, сколько в нем отдельных пунктов. Такова формула

Кронбаха:

æ

 

j

ö

 

 

åS 2j

 

ç

 

÷

 

a =

k ç

-

j=1

÷

 

 

ç1

 

÷

(3.2.8)

k -1

S 2

ç

 

x

÷

 

ç

 

 

÷

 

è

 

 

ø

 

где а - коэффициент Кронбаха; k- количество пунктов теста;

S 2j - дисперсия по j-му пункту теста;

Sx2 - дисперсия суммарных баллов по всему тесту.

Обратите внимание на структурное подобие формулы Кронбаха

(3.2.2) и формулы Рюлона (3.2.8).

Несколько раньше была получена формула Кьюдера - Ричардсо-

на, аналогичная формуле Кронбаха для частного случаякогда отве-

ты на каждый пункт теста интерпретируются как дихотомические -пе ременные с двумя значениями (1 и 0):

 

 

 

 

æ

 

k

ö

 

 

 

 

 

 

- å p j q j

 

 

 

k

ç S x2

÷

 

KR20

=

ç

 

j =1

÷

(3.2.9)

 

 

ç

 

 

÷

k -1

 

2

 

 

ç

 

S x

÷

 

 

 

 

 

ç

 

 

÷

 

 

 

 

 

è

 

 

ø

 

где KR20 - традиционное обозначение получаемого коэффициен-

та;

p j q j -дисперсия i-и дихотомической переменной, какой является

i-й пункт теста; р = N верно») , q = 1 - p n

В 1957 г. Дж. Ките предложил следующий критерий для оценки статистической значимости коэффициента a:

X n2-1

=

k (n -1)

(3.2.10)

k (1 - a) + a

 

 

 

104

где X n2-1 - эмпирическое значение статистики % квадрат с п-1

степенью свободы;

k - количество пунктов теста; n - количество испытуемых;. a - надежность.

Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласо-

ванность пунктов теста, используя при этом только подсчет дисперсий.

Однако коэффициенты а и KR2I> позволяют оценить и среднюю корре-

ляцию между i-м и j-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей формулой:

a =

 

 

krij

 

 

 

 

 

11)

 

 

 

 

 

1+

(k -1)rij

где

rij

- средняя корреляция между пунктами теста. Легко уви-

деть идентичность формулы (3.2.11) обобщенной формуле Спирмена -

Брауна, позволяющей прогнозировать повышения синхронной надеж-

ности теста с увеличением количества пунктов теста в k раз (Аванесов В. С., 1982, с. 121). Из этой формулы видно, что при больших k малое значение rij может сочетаться с высокой надежностью. Пусть rij = 0,1, a k =100, тогда по формуле (3.2.11)

a =

100 × 0,1

=

10

» 0,91

 

 

1 + 99 × 0,1

10,9

 

Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще однойдо статочно эффективной формулы надежности теста, которой легко вос-

пользоваться, получив стандартную распечатку компьютерных резуль-

татов факторного анализа по методу главных компонент:

 

k

 

æ

 

1

ö

 

 

ç

÷

 

q = k -1

- l

(3.2.12)

ç1

÷

 

 

 

è

1

ø

 

105

где θ - коэффициент, получивший название тета-надежности

теста;

k - количество пунктов теста;

λ1 - наибольшее значение характеристического корня матрицы интеркорреляций пунктов (наибольшее собственное значение,

или абсолютный вес первой главной компоненты).

Как и предыдущие формулы, формула (3.2.12) также относится к оценке надежности теста, направленного на измерение одной харак-

теристики. Но, кроме того, она применима и для многофакторного тес-

та, хотя и нуждается в пересчете после первоначального отбора пунк-

тов, релевантных фактору (после того, как на основании многофак-

торного анализа отобраны пункты по одному фактору, снова прово-

дится факторный анализ - только для этих отобранных пунктов).

Надежность отдельных пунктов теста. Надежность теста обес-

печивается надежностью пунктов, из которых он состоит. Чтобы по-

высить ретестовую надежность теста в целом, надо отобрать из ис-

ходного набора пунктов, апробируемых в пилотажных психометри-

ческих экспериментах, такие пункты, на которые испытуемые дают ус-

тойчивые ответы. Для дихотомических пунктов (типа «решил - не ре-

шил», «да - нет») устойчивость удобно измерять с использованием че-

тырехклеточной матрицы сопряженности:

Тест 1

 

Да

Нет

 

Да

 

 

Тест 2

a

B

Нет

 

 

 

c

D

 

 

 

 

 

Здесь в клеточке а суммируются ответы«Да», данные испытуе-

мым при первом и втором тестировании, в клеточке b - число случаев,

когда испытуемый при первом тестировании отвечал«Да», а при вто-

ром - «Нет» и т. д. В качестве меры корреляции вычисляется фи-

коэффициент:

ad - bc

j = (3.2.13)

(a + b)(c + d )(a + c)(b + d )

106

Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:

X12 = j 2 n

(3.2.14)

Если вычисленное значение хи-квадрат выше табличного с од-

ной степенью свободы, то нулевая гипотеза (о нулевой устойчивости)

отвергается. Удобство использования фи-коэффициента состоит в том,

что он одновременно оценивает степень оптимальности данного пунк-

та теста по силе (трудности): фи-коэффициент оказывается тем мень-

шим, чем сильнее частота ответов «да» отличается от частоты ответа

«нет».

Кроме того, сама четырехклеточная матрица позволяет просле-

дить возможную несимметричность в устойчивости ответов«да» и

«нет» (это важнее для задач, чем для вопросов: например, может ока-

заться, что все испытуемые, уже решившие однажды данную задачу,

решают ее при повторном тестировании; это наводит на мысль о том,

что при втором тестировании происходит сбережение опыта, приоб-

ретенного при первом тестировании). Выявленные в результате такого анализа неустойчивые и неинформативные(слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной

выборке величина 1 - j превышает 0,71. При этом φ< 0,5.

Для т<?го чтобы повысить одномоментную (синхронную) надеж-

ность теста, следует из исходной пилотажной батареи пунктов отбро-

1

сить те, которые плохо согласованы с остальными. В отсутствие ком-

пьютера согласованность для пунктов также очень просто определяет-

ся с помощью четырехклеточной матрицы. В этом случае в первом столбце суммируются ответы испытуемых из«высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой».

Высокая Низкая

1 В ряде пособий показатель согласованности для пунктов называется дискриминативностью пунктов (Гайда В. К., Захаров В П., 1982).

107

Да

A

B

Нет

 

 

C

D

 

 

 

При нормальном распределении частот суммарных баллов«вы-

сокая» и «низкая» группы отсекаются справа и слева 27%-ными мар-

гинальными квантилями (рис. 8).

Для оценки согласованности с суммарным баллом применяется полная1 или упрощенная формула фи-коэффициента:

2a -P -1

ji = 1 (3.2.15)2

Pi (N *-Pi )

где Pi - количество ответов «верно» («да») на i-й пункт теста;

N* - сумма всех элементов матрицы;

N* = n • 0,54 где n - объём выборки;

Pi = а + b - При включении в эстремальную группу 1/3 выборки

N* = 0,66 • n.

Рис. 8. Квантили «высокой» и «низкой» группы на гра-

фике распределения тестовых баллов

В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэф-

фициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением«-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно

1Полная формула отличается от формулы (3.2.13) наличием в числителе вычитаемого (а + b + с +d)/2 - поправки с учетом вклада, который i-й пункт вносит в суммарный балл:

2Если 2а –Р1< 0, то числитель в формуле (3.2 15) выглядит так: 2а1+1

108

исключить из теста.

При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме вы-

борки в 100 человек и уровне значимости р < 0,01 пороговое зна-

чение вычисляется так:

 

 

 

 

x0,012

 

 

 

 

 

 

 

j

 

=

=

 

6,63

» 0.27

(3.2.16)

 

 

 

 

n

 

 

 

 

 

100

 

 

 

 

 

 

При постоянном использовании компьютера при подсчете сум-

марных баллов ключ для каждого пункта Q целесообразно определить в виде самого фи-коэффициента (или другого коэффициента корреля-

ции), определенного при коррелировании ответов на пункт с - сум марным баллом. Тогда тестовый балл подсчитывается по формуле

k

 

xi =åRijCj ,

(3.2.17)

j=1

где хi — суммарный балл i-го испытуемого;

Rij - ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт;

Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обрат-

ного.

Более чувствительный коэффициент, который также применяет-

ся для дихотомических пунктов, - это точечный бисериальный коэф-

фициент корреляции, учитывающий амплитуду отклонения индиви-

дуальных суммарных баллов от среднего балла:

1

n

å x * - pi

x

 

rpbi =

n

3.2.18)

 

 

 

 

 

 

 

S x pi qi

где å x* - сумма финальных баллов тех индивидов, которые да-

ли утвердительный ответ на i-й пункт теста (решили i-ю задачу);

109

Sx - стандартное отклонение для суммарных баллов всех инди-

видов из выборки;

pi qi - стандартное отклонение по i-му пункту; x - средний балл по всем пунктам.

А. Анастази относит критерий внутренней согласованности теста к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и можно в

данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Как правило, слишком высокая со-

гласованность снижает внешнюю валидность теста по критерию(см.

раздел 3.3). Если проверяется согласованность пунктов, составленных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетель-

ствует о внутренней валидности(согласованности) разработанного диагностического понятия (конструкта).

В компьютерных данных факторного анализа аналогом корреля-

ции пункта с суммарным баллом является нагрузка пункта на ведущий фактор («факторная валидность» в терминах А. Анастази). Если при-

бегать к геометрическому изображению нагрузки как проекции векто-

ра-пункта на ось-фактор, то структура пунктов хорошо согласованного теста предстанет в виде пучка векторов, плотно прилегающих к фак-

тору и вытянувшихся вдоль его оси (рис. 9).

Рис. 9. Векторная модель соотношения «прямых» и «об-

ратных» эмпирических пунктов с релевантным(измеряемым)

фактором и иррелевантными («шумовыми») факторами

Последовательность действий при проверке надежности:

1. Узнать, существуют ли данные о надежности теста, предпо-

110