Стандартная погрешность измерения

Оценка надежности теста — это оценка ошибки, сделанной при определении положения индивидуума на измерительной шкале. Теоретически, если многократно подвергнуть одного и того же человека тестированию с использованием эквивалентных тестов, полученные результаты будут распределяться вокруг истинного значения тестируемой характеристики. Некоторые из этих результатов будут ближе к истинному значению, чем другие, поскольку в некоторых случаях при проведении тестирования возникала меньшая ошибка, чем в других случаях. Если подвергнуть все эти результаты определенным статистическим преобразованиям, то результаты многократного тестирования можно представить в виде кривой нормального распределения. Стандартная погрешность измерения — это стандартное отклонение этой кривой, как показано на рис. 3.1.

Кривая нормального распределения — см. стр. 58.

Стандартная погрешность измерения связана с распределением результатов, которые были бы получены при многократном тестировании одного человека с использованием одного и того же теста (хотя вычисляется она другим способом). Чем больше стандартная погрешность измерения, тем сильнее разброс результатов вокруг истинного значения (среднее значение распределения). На рис. 3.1 стандартная погрешность измерения с помощью Теста А примерно в два раза меньше, чем стандартная погрешность измерения с помощью Теста Б. Это означает, что результат, полученный с помощью Теста А, с большей вероятностью приближается к истинному значению измеряемой характеристики данного человека, чем результат, полученный с помощью Теста Б.

Связанная с тестированием стандартная погрешность измерения не является чисто теоретическим понятием; она может повлиять на жизнь любого человека, если ему приходится подчиняться решениям, принятым на основе результатов теста. Если для какого-либо конкретного вступительного экзамена в колледж стандартная погрешность измерения равна 30 баллам, то вполне вероятно, что полученный поступающим результат 530 баллов на самом деле означает всего 500 или целых 560 баллов. В этом случае абитуриента, набравшего 525 баллов на вступительном экзамене в кол-

ледж или университет, где проходной балл равен 550, могут не принять, и причиной этого будет исключительно измерительная погрешность теста.

Существуют способы повышения надежности теста, а значит, и уменьшения стандартной погрешности измерения. Наиболее распространенным способом является увеличение продолжительности теста с целью получить более стабильную выборку измеряемых характеристик (таких как способности к учебе).

Валидность

Согласно словарным определениям, прилагательное «валидный» означает «обоснованный, подтвержденный фактами», в то время как понятие надежности основывается на устойчивости результатов. В литературе по индустриально-организационной психологии обсуждению вопросов, связанных с валидностью, отводится гораздо больше места, чем вопросам надежности, но это ни в коей мере не умаляет значения надежности. Надежность играет важнейшую роль по очень простой причине: ненадежное измерение вообще не может быть валидным. Надежный измерительный инструмент не обязательно обладает валидностью, но вопрос о валидности можно ставить только в том случае, если инструмент надежен. Попробуем разобраться в этих тонкостях с помощью примера.

Предположим, что преподаватель хочет измерить интеллект студентов своей группы. Рассудив, что чем больше голова, тем больше головной мозг, а чем больше мозг, тем выше интеллект (такие аргументы и процедура измерения интеллекта действительно использовались в прошлом), преподаватель решает измерить окружность головы каждого студента с помощью портновского метра. Получит ли преподаватель надежные измерения, если поступит подобным образом? На этот вопрос можно ответить положительно: если у преподавателя хороший метр, он может измерить голову каждого студента три раза и получить примерно одинаковые результаты. Будут ли такие измерения интеллекта валидными? Конечно нет. Никаких доказательств того, что у людей с более высоким уровнем интеллекта головы больше, чем у менее умных людей, не имеется. Измерение будет надежным, но необоснованным и не подтвержденным фактами.

Теперь мы можем отказаться от предварительного определения валидности. Оно сыграло свою роль, но не годится для обсуждения темы валидности измерений в индустриально-организационной психологии, поскольку в этом определении подразумевается, что измерение может быть или валидным, то есть правильным, или невалидным. На самом деле валидность очень сильно зависит от контекста. Это утверждение будет обсуждаться в связи с валидностью теста, но следует помнить, что валидность - это стандарт, который применяется ко всем измерениям, проводимым в любых ситуациях.

По отношению к тестированию валидность определяется как «правильность, содержательность (meaningfulness) и полезность конкретных выводов, сделанных из результатов тестирования» (American Educational Research Association et al., 1985, стр. 9). Даже при использовании тестов одного и того же типа тестирование может проводиться с различными целями, поэтому конкретные выводы, валидность которых нас интересует, могут быть различными. Когда целью тестирования является отбор для приема на работу, релевантные выводы касаются некоторых аспектов поведения человека в будущем. Если тест используется как инструмент для оценки выполнения работы, главное внимание уделяется выводам о текущем уровне выполнения работы. В обоих случаях валидность теста — показатель того, насколько выводы, сделанные из результатов тестирования, подтверждаются фактами.

Получение выводов — см. стр. 57.

Традиционно принято делить доказательства валидности выводов, сделанных по результатам теста, на три категории, в зависимости от типа вывода, для которого наиболее релевантно данное доказательство. Если имеются факты, свидетельствующие о том, что тест отражает смысл измеряемой характеристики, это доказывает валидность по конструкту. Если можно продемонстрировать, что вопросы, включенные в тест, репрезентативны для всех вопросов, которые определены как релевантные тесту, это служит доказательством валидности по содержанию. Наконец, наличие систематичной связи между результатами теста и некоторым внешним критерием (таким как способность к исполнению работы в будущем) доказывает валидность по критерию.

Описанные категории удобны в употреблении, но это не означает, что существуют различные типы валидности. Скорее это различные категории доказательств, которые необходимо собрать, чтобы сделать вывод об общей валидности измерительного инструмента. В идеале психологи хотели бы получить как можно больше таких доказательств. Однако исследования занимают много времени, они дорого стоят, и валидность теста чаще определяется сбором фактов, наиболее необходимых с точки зрения тех выводов, которые будут сделаны из этого теста.

<<< < Предыдущая 29 30 31 32 33 34 35 36 37 38 39 4041 / 31941 42 43 44 45 46 47 48 49 50 51 52 53 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
13.02.2016231.42 Кб23ЛЕКЦИЯ 7 Методы анализа РЦБ.doc
#
13.11.201923.78 Кб4Лекция по ФОПИ 1.docx
#
13.02.2016108.03 Кб27лекция Предмет задачи методы Возр Психол.doc
#
13.02.2016379.9 Кб17Леонардо ДаВинчи - Воспоминание детства.doc
#
05.05.20191.48 Mб6Леонова ПД функциональных состояний.doc
#
12.07.201915.84 Mб29Линда Джуэлл Индустриально-организационная псих....doc
#
13.02.201610.67 Кб16Литература.docx
#
13.02.201619.35 Кб36М а н и п у л и р о в а н и е м или.docx
#
13.11.201981.41 Кб11матмет_прог.doc
#
06.12.2018187.39 Кб61МЕДИС - 6-7.doc
#
17.11.2018280.06 Кб3Мет.рек. курс. работ.doc