Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
конструирование психодиагностических тестов.doc
Скачиваний:
8
Добавлен:
24.11.2018
Размер:
443.39 Кб
Скачать

1) Метод «k» лучших признаков.

В основе этого метода лежит предположение о статистической независимости анализируемых признаков. Если в качестве критерия эффективности линейной диагностической модели используется коэффициент детерминации R2, то мерой информативности отдельно взятого признака может служить его коэффициент корреляции с критериальным показателем r(xi, z) (в зависимости от типа исходных признаков и от шкалы, в которой измерен критериальный показатель, используются соответствующие меры связи). Исходное множество признаков xi....,xp упорядочивается по модулю коэффициента корреляции

и из построенного ряда отбирается «k» первых, наиболее ценных признаков. Чем строже соблюдается условие независимости отбираемых признаков, тем лучше получается конечный результат. В /Общая психодиагностика..., 1987/ приводится следующая иллюстрация X. Гаррета эффективности алгоритма, позволяющего подобрать оптимальный набор пунктов теста. Пусть имеется 20 пунктов, каждый из которых имеет корреляцию с внешним критерием порядка 0,30. Если эти пункты коррелируют друг с другом на уровне r(xi,xj)=0,60, то множественный коэффициент корреляции линейной диагностической модели равняется 0,38, если же r(xi,xj)=0,30, множественная корреляция повышается до 0,52. Наконец, при r(xi,xj)=0,10 эффективность теста достигает высокого значения 0,79. Этот факт хорошо исследован в теории регрессионного анализа (например, Хей Дж., 1987). Он также достаточно понятен на качественном уровне рассуждений, так как сильная зависимость признаков означает дублирование большой части информации о проявлении диагностируемого свойства у исследуемых объектов. пользуют более сложные методы анализа экспериментальной информации.

2) Методы последовательного увеличения и уменьшения группы признаков (пувг) и (пумг).

В зависимости от критерия оптимальности группы признаков возможны различные варианты алгоритма ПУВГ. Чаще всего применяется вариант, основанный на анализе частных корреляций между внешним критерием и пунктами теста. Алгоритм ПУВГ выглядит следующим образом. Шаг 1. Из набора исходных признаков xi,...,xp выбирается переменная xi1, имеющая максимальное значение квадрата коэффициента парной корреляции с критериальным показателем r2(xi1,z). Признак xi1 составляет начальный набор диагностических переменных Х(1).

Шаг 2. Пусть уже построен информативный набор из j признаков X(j)=xi1, ... , xij. Ищется признак xij+1 из условия

где rХ(j)(xk,z) — частный коэффициент корреляции между xk и z при фиксированных значениях переменных из Х(j). При этом дополнительно проверяется условие линейной независимости признака xk от набора признаков Х(j), которое обеспечивает вычислительную устойчивость алгоритма,

где R2[xk, X(j)] — квадрат коэффициента множественной корреляции набора X(j) с проверяемым признаком хk

τпор — заданная малая положительная величина. После определения переменной xij+1 проверяются условия остановки алгоритма ПУВГ. Возможно одно из следующих условий остановки /Енюков И. С., 1986/. — Достигнуто заданное количество признаков р3, то есть j+1=p3. — Проверяется гипотеза о равенстве нулю максимального по абсолютной' величине коэффициента частной корреляции из р—j коэффициентов частной корреляции признаков, не входящих в X(j). Если эта гипотеза подтверждается, то набор признаков считается окончательным. — Достигнуто максимальное значение FО-статистики для оценки качества регрессионного уравнения, которое определяется по формуле расчета FО. Если ни одно из условий не выполняется, то признак xij+1, присоединяется к набору Х(j) и происходит возвращение к шагу 2. После остановки алгоритма каждому из признаков, вошедших в информативную группу, могут быть присвоены веса, выражающие вклад каждого признака в критерий, не сводимый к вкладу других признаков /Аванесов В. С., 1982/. Несмотря на более изощренные операции с экспериментальной информацией по сравнению с методом «k» лучших признаков, метод ПУВГ является во многом эвристичным. Он не гарантирует получения оптимального результата, который может быть достигнут с помощью полного перебора всех возможных комбинаций исходных признаков. Отклонение от оптимального решения вероятно уже на первом шаге работы алгоритма ПУВГ, когда выбирается начальный диагностический признак из информативной группы. Хотя этот признак имеет максимальную корреляцию с критериальным показателем, это вовсе не означает, что он обязательно вошел бы в группу информативных признаков, если бы начальным был выбран какой-либо другой признак. Не гарантирует получения оптимального результата и метод последовательного уменьшения группы признаков ПУМГ, в котором начальное уравнение регрессии строится для полного набора исходных признаков. Из этого полного уравнения затем последовательно удаляется по одной переменной и для оставшихся признаков подсчитывается значение коэффициента детерминации R2 или какого-либо иного интегрального показателя качества функции регрессии. Алгоритм ПУМГ останавливается, когда дальнейшее упрощение уравнения регрессии начинает ухудшать его качество. С помощью указанного алгоритма могут быть получены более эффективные результаты, чем для ПУВГ, в случае сравнительно небольшого объема группы исходных признаков. Для высоких размерностей пространства исходных признаков (а при конструировании психодиагностических тестов размерность достигает десятков и даже сотен) возникают серьезные проблемы оценки показателя качества регрессионного уравнения, так как влияние отдельно взятого признака на суммарный эффект диагностической модели становится сопоставимым с погрешностью его измерения. Обобщением ПУВГ и ПУМГ служит метод «плюс l минус r», который, как следует из его названия, поочередно работает то на добавление, то на исключение признаков в уравнение регрессии. В целом можно отметить, что все упомянутые методы определения состава признаков в уравнении регрессии содержат в той или иной мере эвристическую составляющую. В каждом конкретном случае трудно заранее предугадать, какой из этих методов приведет к результатам, более близким к оптимальным. Поэтому на практике попытки приблизиться к желаемому оптимуму всегда сопряжены с комбинированным применением различных алгоритмов поиска группы информативных признаков в диагностической регрессионной модели.