Рационально-эмририческая стратегия конструирования тестов.
Процедуру разработки тестовых методик часто именуют конструированием тестов.
Теорию (науку) конструирования — тестологией.
Известны два пути создания психодиагностических методик:
разработка новых, оригинальных методик.
адаптация известных методик (зарубежных, устаревших, с иными целями);
Информация по тесту, предлагаемому для решения определенных диагностических задач, должна состоять из:
Детального описания содержания измерительного инструмента;
Сведений о процедуре проведения и обработки полученных результатов;
Описания норм;
Данных о надежности;
Данных о валидности.
Рассмотрим некоторые аспекты целостной стратегии конструирования, эмпирической апробации и внедрения методики в практику [15]. В реальном случае создание оригинальной методики или адаптация зарубежной методики не могут сводиться только к проверке (или перепроверке) отдельных психометрических свойств - репрезентативности, надежности, валидности, достоверности - в произвольной последовательности. В одних случаях целесообразно начинать с одного, в других - с другого этапа работы.
По существу любая реальная ситуация использования теста не является ситуацией только "конструирования" или "применения". Можно без преувеличения сказать, что существует континуум между крайними полюсами:
"создание"------------ "применение"
Однако на практике, все многообразие ситуаций, всю комбинаторику независимых параметров психологи, как правило, пытаются свести к двум-трем типовым ситуациям [15].
1. Ситуация применения. Тест кем-то разработан (возможно, в других социокультурных условиях), известны тестовые нормы, полученные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается несущественным).
2. Ситуация адаптации. Тест кем-то разработан - проверены надежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм.
3. Ситуация создания. Есть концепция психического свойства, но нет "подходящей" процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Необходимо разработать измерительную процедуру, проверить ее надежность, валидность, построить тестовые нормы.
Этапы конструирования теста (ситуация создания методики):
1. Выбор предмета (явления - диагностического конструкта) и объекта исследования (контингента испытуемых – выборка стандартизации).
Теоретический анализ диагностического конструкта, разработка теоретической концепции тестируемого свойства. Формирование системы «эмпирических индикаторов» – операционально-однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях.
Выбор вида теста (объективный, субъективный, проективный), типа заданий (с предписанными ответами, со свободными ответами) и шкал (числовые, вербальные, графические).
Конструирование пунктов теста. Подбор первичного банка заданий, может осуществляться двумя путями:
вопросы формулируются, исходя из теоретических представлений об измеряемом явлении (факторно-аналитический принцип);
или вопросы подбираются в соответствии с их дискриминативностью, т. е. способностью отделять испытуемых по наличию требуемого признака (критериально-ключевой принцип). Второй принцип является эффективным в тестах отбора (например, профессионального или клинического).
Предварительное тестирование, формирование банка эмпирических данных.
Оценка заданий первичного банка (оценка содержательной валидности теста, т. е. соответствия каждого из заданий измеряемому явлению и полноты охвата изучаемого явления тестом в целом). Проводится с помощью метода экспертной оценки.
Формулирование релевантного социально-прагматического критерия (внешнего критерия) для проверки прагматической валидности (критериальная валидность). Проводится с помощью корреляционного анализа оценок теста и показателей по внешнему критерию изучаемого свойства (например, школьной успеваемости при валидизации теста интеллекта; врачебного диагноза при валидизации клинических тестов; данных других тестов, валидность которых известна, и др.).
Планирование и проведение теоретической валидизации методики – подсчет конвергентной валидности, посредством корреляционного исследования (или квазиэксперимента) на специально подобранной выборке испытуемых, для которых известно значение внешнего критерия показателя, а также результатов по родственным психологическим тестам.
Исследование достоверности результатов (введение в тест шкалы лжи).
Отсев пунктов, не удовлетворяющих критериям валидности и достоверности.
Оценка надежности теста (устойчивости результатов к действию случайных факторов, внешних и внутренних).
Определение надежности измерительного инструмента (коэффициент внутренней согласованности и коэффициент стабильности) посредством оценки ретестовой надежности (соответствие результатам повторного тестирования, обычно через несколько месяцев), далее надежности частей теста (гомогенная надежность - устойчивость результатов отдельных задач или групп задач, например, по методу «четное — нечетное») и надежности параллельных форм, если таковые существуют.
Методика признается надежной, если коэффициент корреляции результатов (первичного и повторного тестирования; одной и другой частей теста; одной и другой параллельных форм) составляет не менее 0,75.
При более низком показателе надежности производится корректировка заданий теста, переформулирование вопросов, снижающих надежность.
Если надежность невысока, следовательно, возврат к пункту плана 1. и уточнение теоретических представлений.
12. Проводится стандартизация теста, т. е. приведение процедуры и оценок к общепринятым нормативам. Стандартизация оценок подразумевает преобразование нормальной или искусственно нормализованной шкалы первичных оценок (эмпирических значений изучаемого показателя) в оценки шкальные (отражающие место в распределении результатов выборки испытуемых). Виды шкальных оценок: стены (1-10), станайны (1-9), Т-оценки (10-100) и др.
13. По возможности определяется прогностическая валидность, т. е. информация о том, с какой степенью точности методика позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. Также определяется по внешнему критерию, но данные по нему собираются спустя некоторое время после тестирования.