Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Семинар № 4 ССОРО.doc
Скачиваний:
22
Добавлен:
01.09.2019
Размер:
222.72 Кб
Скачать
  1. Однократное тестирование (метод расщепления теста).

Оценка надежности чаще всего строится на подсчете корреляции между двумя наборами результатов выполнения одного и того же теста или 2-х его параллельных форм. Чем выше корреляция, тем надежнее тест.

  1. Ретестовый метод.

Данный метод оценки надежности предполагает двукратное проведение одного и того же теста в одной группе испытуемых. Повторное тестирование проводится примерно через 2-3 недели, чтобы учащиеся не слишком сильно забыли проверяемый материал и недалеко продвинулись в изучении нового, т.е. уровень их учебных достижений остался примерно прежним.

Ретестовый метод основан на подсчете корреляции индивидуальных баллов испытуемых по результатам выполнения первого и второго тестирования.

Коэффициент надежности:

xi – индивидуальный балл i-ого студента при ответе на тест при первом тестировании

yi – индивидуальный балл i-ого студента при ответе на тест при повторном тестировании

1 студент

x1

y1

x1y1

(x1)2

(y1)2

2 студент

x2

y2

x2y2

(x2)2

(y2)2

N студент

xN

yN

xNyN

(xN)2

(yN)2

xi

yi

xiyi

(xi)2

(yi)2

- коэффициент корреляции Пирсона.

Хорошим коэффициент надежности теста считается, когда показатель колеблется в пределах 0,8 < К < 1.

Данный метод оценки надежности не очень удобен в педагогических измерениях. Временной фактор играет большую роль: временной промежуток не может быть большим - изменится уровень учебных достижений учащихся, но и не должен быть слишком коротким - испытуемые могут помнить задания теста и ответы на них. И в том и в другом случае результаты измерения нельзя использовать для определения надежности теста.

  1. Метод параллельных форм.

Метод параллельных форм предполагает двукратное тестирование одной и той же группы испытуемых тестами, которые идентичны по содержанию, структуре, включают задания тождественные по трудности, дифференцирующей способности и др., т.е. параллельными формами теста.

Коэффициент надежности:

xi – индивидуальный балл i-ого студента при ответе на тест X

yi – индивидуальный балл i-ого студента при ответе на тест Y

1 студент

x1

y1

x1y1

(x1)2

(y1)2

2 студент

x2

y2

x2y2

(x2)2

(y2)2

N студент

xN

yN

xNyN

(xN)2

(yN)2

xi

yi

xiyi

(xi)2

(yi)2

N – число студентов

Главная трудность применения этого метода в том, что прежде чем использовать параллельную форму теста, разработчику надо создать новый тест, тождественный первому и доказать идентичность, а это очень трудоемкая процедура. Поэтому этот метод с практической точки зрения малоэффективен.

  1. 1. Однократное тестирование (метод расщепления теста).

Этот метод удобен в практическом применении, так как ограничивается однократным тестированием. Метод расщепления теста основан на допущении параллельности двух половин теста и предполагает деление результатов тестирования на две части: данные по нечетным заданиям теста (Х) и по четным (У). Корреляция двух половин тестов возрастает по мере роста однородности (гомогенности) теста. Поэтому метод расщепления теста называют методом оценки внутренней согласованности и используют для определения гомогенности теста.

Коэффициент надежности вычисляется по формуле:

, где результат первого тестирования - это результаты по нечетным заданиям, а второго - по четным заданиям.

Так как подсчет надежности (К) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного корректируется по формуле Спирмена-Брауна

  1. Метод Кьюдера-Ричардсона.

В практике педагогических измерений часто используется способ оценки надежности с применением формулы Кьюдера-Ричардсона (сокращенно KR - 20). Она может применяться только в том случае, когда выполнение задания оценивается дихотомически (1 балл - правильно; 0 баллов - неправильно).

Коэффициент надежности вычисляется по формуле:

K=KR20= , где

K – коэффициент надежности

m – число заданий в тесте

pj - доля правильных ответов на j-е задание теста (количество верных ответов на задание деленное на общее число студентов)

qj – доля неверных ответов на j-е задание qj=1- pj

sx2 – дисперсия индивидуальных баллов.

N – число студентов

xi – индивидуальный балл i – го студента (Индивидуальный балл испытуемого – это количество заданий, на которые студент ответил правильно).

Какой коэффициент надежности можно считать приемлемым?

Нижним пределом принято считать показатель 0,7.

Если значение коэффициента надежности ниже, то надежность теста считается неудовлетворительной, так как возникает большая погрешность измерений.

Для профессионально созданных тестов, которые используются в массовом тестированиии и по их результатам принимаются ответственные решения, нижний предел коэффициента надежности повышается до 0,8.

В тестологической практике надежность тестов находится в интервале от 0,8 до 0,95.

Например, по данным американской тестовой компании Educational Testing Service (ETS) надежность теста SAT оценивается как 0,91, а коэффициент надежности TOEFL более 0,93 (коэффициенты надежности определялись по формуле KR - 20).

Величина надежности

Оценка надежности

0,90 - 0,99

Отличная

0,80 - 0,89

Хорошая

0,70 - 0,79

Удовлетворительная

Менее 0,70

Неудовлетворительная

Оценка надежности критериально-ориентированного теста.

Рассмотренные выше методы определения надежности подходят только для оценки нормативно-ориентированных тестов. По мнению многих тестологов, эти методы нежелательно использовать для вычисления надежности критериально-ориентированного теста, так как дисперсия тестовых баллов в критериально-ориентированном тесте небольшая (здесь не нужна большая дифференциация баллов испытуемых), а соответственно и корреляционная оценка надежности будет низкой.

Поэтому предлагается другая методика оценки надежности. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, которые соответствуют одному и тому же содержанию.

Практически это выглядит следующим образом. Группа испытуемых выполняет два идентичных теста или два теста объединяются в один при этом вопросы перемежаются: (1 вариант 1 вопрос, 2 вариант 1 вопрос, 1 вариант 2 вопрос, 2 вариант 2 вопрос и т.д.). По итогам тестирования испытуемые делятся на две группы: получившие зачет и не получившие зачет по двум тестам (по частям расщепленного теста). Далее проводится сравнение результатов тестирования по двум вариантам или, во втором случае, по вариантам расщепленного теста. По результатам теста составляется таблица сопряжения.

Таблица сопряжения результатов критериально-ориентарованного теста.

Тест А

Незачет

Зачет

Тест В

Незачет

А

В

Зачет

С

D

А, B, C, D - доли испытуемых, получивших «зачет» или «незачет» по результатам двух тестов. Каждая доля определяется как отношение числа испытуемых, попавших в подгруппы (A, B, C, D), к общему количеству испытуемых.

Соответственно A + B + C + D = 1

Большие доли A и D свидетельствуют о постоянстве результатов, т.е. если по тесту А получен «зачет/незачет», то и по тесту В тоже получен «зачет/незачет», соответственно можно говорить высокой надежности теста.

Численный показатель коэффициента надежности критериально-ориентированного теста вычисляется с помощью фи-коэффициента корреляции.

Вычисляется также каппа-коэффициент как показатель критериально-ориентированного теста по формуле

k = (P - Pc)/(1 - Pc),

где P = A + D - доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc - вероятность случайного принятия согласованного решения.

Pc вычисляется по формуле

Pc = (c + d)(d + b) + (a + b)(c + a)

Каппа-коэффициент может принимать значения от -1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять фи- и каппа-коэффициенты. Их величины должны быть больше 0,8 (0,85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста.

Способы повышения надежности теста.

  1. Увеличение количества заданий теста. Согласно классической теории тестов наблюдаемый балл состоит из истинного балла и ошибочной компоненты. Теоретически, чтобы уменьшить ошибку, надо дать как можно больше заданий. Существуют специальные методики определения оптимальной длины теста для достижения необходимой надежности. Но на практике не всегда возможно и целесообразно удлинение теста.

  2. Проанализировать тестовые задания с точки зрения соответствия формы и содержания тестовой теории. Удалить неудачные задания, подкорректировать задания с некоторыми неточностями.

  3. Применение методов, учитывающих вероятность угадывания в заданиях закрытого типа.

Индивидуальный балл испытуемого при выполнении заданий закрытого типа при дихотомической оценке (1/0) есть сумма правильных ответов. В заданиях с выбором ответов индивидуальный балл испытуемых искажается эффектом случайного угадывания ответов. Поэтому если мы хотим минимизировать эффект угадывания, то можно использовать следующую формулу:

где - скорректированный индивидуальный балл i-го испытуемого, Xi - количество правильных ответов, Wi - количество неверных ответов, L - количество вариантов ответов в задании.

При этом балл сильного испытуемого уменьшится в результате коррекции незначительно, балл слабого испытуемого уменьшится гораздо сильнее, что вполне логично, поскольку, например, слабые испытуемые чаще прибегают к попытке угадать верный ответ.

Формула коррекции на возможную догадку для заданий с выбором одного верного ответа из четырех предложенных будет иметь следующий вид:

.

Первый испытуемый ответил верно на 51 задание и неверно на 9 заданий из возможных 60 заданий, то есть X1 = 51, W1 = 9.

Тогда его скорректированный балл баллов, то есть коррекционный балл составил всего 3 единицы.

Второй испытуемый ответил верно на 24 задания и с 36 заданиями он не справился, тогда X2 = 24, W2 = 36.

Скорректированный балл баллов.

Здесь коррекционный балл составил 12 единиц.

Формула коррекции используется нечасто, многие специалисты в области разработки тестов считают, что эффектом угадывания можно пренебречь, если тест имеет достаточно большое количество заданий и не менее 4 – 5 ответов к заданиям в тесте.

ВАЛИДНОСТЬ.

Валидность еще одна важная характеристика теста, определяющая его качество.

Валидность (от англ. Validity - значимость, обоснованность, пригодность) - «это характеристика способности теста служить поставленной цели измерения» [6], т.е. способность теста измерять то, для чего он предназначен.

Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста (Анастази А.; Майоров А.Н.):

1) содержательную,

2) критериальную и

3) конструктную (концептуальную) валидность.