Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Линда Джуэлл Индустриально-организационная псих....doc
Скачиваний:
29
Добавлен:
12.07.2019
Размер:
15.84 Mб
Скачать

Стандартная погрешность измерения

Оценка надежности теста — это оценка ошибки, сделанной при определении поло­жения индивидуума на измерительной шкале. Теоретически, если многократно под­вергнуть одного и того же человека тестированию с использованием эквивалентных тестов, полученные результаты будут распределяться вокруг истинного значения тес­тируемой характеристики. Некоторые из этих результатов будут ближе к истинному значению, чем другие, поскольку в некоторых случаях при проведении тестирования возникала меньшая ошибка, чем в других случаях. Если подвергнуть все эти результа­ты определенным статистическим преобразованиям, то результаты многократного тестирования можно представить в виде кривой нормального распределения. Стан­дартная погрешность измерения — это стандартное отклонение этой кривой, как показано на рис. 3.1.

Кривая нормального распределения — см. стр. 58.

Стандартная погрешность измерения связана с распределением результатов, кото­рые были бы получены при многократном тестировании одного человека с использованием одного и того же теста (хотя вычисляется она другим способом). Чем больше стандартная погрешность измерения, тем сильнее разброс результатов вокруг истин­ного значения (среднее значение распределения). На рис. 3.1 стандартная погрешность измерения с помощью Теста А примерно в два раза меньше, чем стандартная погрешность измерения с помощью Теста Б. Это означает, что результат, полученный с помощью Теста А, с большей вероятностью приближается к истинному значению измеряе­мой характеристики данного человека, чем результат, полученный с помощью Теста Б.

Связанная с тестированием стандартная погрешность измерения не является чисто теоретическим понятием; она может повлиять на жизнь любого человека, если ему приходится подчиняться решениям, принятым на основе результатов теста. Если для какого-либо конкретного вступительного экзамена в колледж стандартная по­грешность измерения равна 30 баллам, то вполне вероятно, что полученный поступа­ющим результат 530 баллов на самом деле означает всего 500 или целых 560 баллов. В этом случае абитуриента, набравшего 525 баллов на вступительном экзамене в кол-

ледж или университет, где проходной балл равен 550, могут не принять, и причиной этого будет исключительно измерительная погрешность теста.

Существуют способы повышения надежности теста, а значит, и уменьшения стан­дартной погрешности измерения. Наиболее распространенным способом является уве­личение продолжительности теста с целью получить более стабильную выборку изме­ряемых характеристик (таких как способности к учебе).

Валидность

Согласно словарным определениям, прилагательное «валидный» означает «обосно­ванный, подтвержденный фактами», в то время как понятие надежности основывает­ся на устойчивости результатов. В литературе по индустриально-организационной психологии обсуждению вопросов, связанных с валидностью, отводится гораздо боль­ше места, чем вопросам надежности, но это ни в коей мере не умаляет значения надеж­ности. Надежность играет важнейшую роль по очень простой причине: ненадежное измерение вообще не может быть валидным. Надежный измерительный инструмент не обязательно обладает валидностью, но вопрос о валидности можно ставить только в том случае, если инструмент надежен. Попробуем разобраться в этих тонкостях с помощью примера.

Предположим, что преподаватель хочет измерить интеллект студентов своей груп­пы. Рассудив, что чем больше голова, тем больше головной мозг, а чем больше мозг, тем выше интеллект (такие аргументы и процедура измерения интеллекта действительно использовались в прошлом), преподаватель решает измерить окружность головы каж­дого студента с помощью портновского метра. Получит ли преподаватель надежные измерения, если поступит подобным образом? На этот вопрос можно ответить поло­жительно: если у преподавателя хороший метр, он может измерить голову каждого студента три раза и получить примерно одинаковые результаты. Будут ли такие изме­рения интеллекта валидными? Конечно нет. Никаких доказательств того, что у лю­дей с более высоким уровнем интеллекта головы больше, чем у менее умных людей, не имеется. Измерение будет надежным, но необоснованным и не подтвержденным фактами.

Теперь мы можем отказаться от предварительного определения валидности. Оно сыграло свою роль, но не годится для обсуждения темы валидности измерений в инду­стриально-организационной психологии, поскольку в этом определении подразумева­ется, что измерение может быть или валидным, то есть правильным, или невалидным. На самом деле валидность очень сильно зависит от контекста. Это утверждение будет обсуждаться в связи с валидностью теста, но следует помнить, что валидность - это стандарт, который применяется ко всем измерениям, проводимым в любых ситуа­циях.

По отношению к тестированию валидность определяется как «правильность, со­держательность (meaningfulness) и полезность конкретных выводов, сделанных из ре­зультатов тестирования» (American Educational Research Association et al., 1985, стр. 9). Даже при использовании тестов одного и того же типа тестирование может прово­диться с различными целями, поэтому конкретные выводы, валидность которых нас интересует, могут быть различными. Когда целью тестирования является отбор для приема на работу, релевантные выводы касаются некоторых аспектов поведения чело­века в будущем. Если тест используется как инструмент для оценки выполнения ра­боты, главное внимание уделяется выводам о текущем уровне выполнения работы. В обоих случаях валидность теста — показатель того, насколько выводы, сделанные из результатов тестирования, подтверждаются фактами.

Получение выводов — см. стр. 57.

Традиционно принято делить доказательства валидности выводов, сделанных по результатам теста, на три категории, в зависимости от типа вывода, для которого наи­более релевантно данное доказательство. Если имеются факты, свидетельствующие о том, что тест отражает смысл измеряемой характеристики, это доказывает валидность по конструкту. Если можно продемонстрировать, что вопросы, включенные в тест, репрезентативны для всех вопросов, которые определены как релевантные тесту, это служит доказательством валидности по содержанию. Наконец, наличие систематич­ной связи между результатами теста и некоторым внешним критерием (таким как способность к исполнению работы в будущем) доказывает валидность по критерию.

Описанные категории удобны в употреблении, но это не означает, что существу­ют различные типы валидности. Скорее это различные категории доказательств, кото­рые необходимо собрать, чтобы сделать вывод об общей валидности измерительного инструмента. В идеале психологи хотели бы получить как можно больше таких дока­зательств. Однако исследования занимают много времени, они дорого стоят, и валид­ность теста чаще определяется сбором фактов, наиболее необходимых с точки зрения тех выводов, которые будут сделаны из этого теста.