Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3 часть SPSS.docx
Скачиваний:
4
Добавлен:
17.04.2019
Размер:
40.94 Кб
Скачать

13. Назначение, содержание и возможности регрессионного анализа

Дискриминантный анализ (ДА) – это прогностическая модель, в которой результирующий показатель (отклик) является категориальным (собирается / не собирается учиться за границей, работать / не работать в системе МИДа, быть уверенным / не уверенным в своем будущем и т.п.). Основная идея - построить прогностическую модель, оценить ее, и в случае успеха построить соответствующее уравнение (выявить факторы успешного прогноза наступления события). Основной момент, на который следует обращать внимание? точность предсказания. Критерий определения точности предсказания - доля корректно классифицированных наблюдений на основе полученного прогноза. Для этого рекомендуется построение модели по нескольким частям выборки, а затем сравнение результатов предсказания.

Важно, что дискриминантный анализ, как и другие многомерные процедуры, учитывает взаимосвязи между переменными. Переменные рассматриваются одновременно, а не по отдельности.

ДА позволяет решать две группы проблем:

1. Интерпретировать различия между классами, т.е. ответить на вопрос: насколько хорошо можно отличить один класс от другого (желающих от нежелающих работать в МИД РФ), используя данный набор переменных; какие из этих переменных наиболее существенны для различения классов, какие группы сильнее всего различаются?

2. Классифицировать объекты, т.е. отнести каждый объект к одному из классов, исходя только из значений дискриминантных переменных. По значениям дискриминантных переменных, которые являются известными, мы определяем решающие правила, позволяющие отнести каждый неизвестный объект к одному из известных классов, и находим «вес» каждой дискриминантной переменной для разделения объектов на классы.

Дискриминантные переменные часто называют предикторами, (предсказателями).

Таким образом, дискриминантная процедура используется для вычисления линейной комбинации предикторов), наилучшим образом характеризующей различия между группами.

Поскольку часто имеется много предикторных (лежащих у основания) переменных, следует решить, какие из них использовать в уравнении прогноза. Существуют методы пошагового отбора переменных в дискриминантном анализе, которые помогают отобрать предикторы.

Требования к использованию ДА. Лучше, чтобы предикторы (независимые переменные) были количественными и нормально распределенными. Однако можно вводить и дихотомические переменные.

Если в одной из независимых или зависимых переменных пропущено значение, наблюдение в анализе не используется. Если таковых много, можно задать опцию заменить пропущенные значения средними значениями.

Если стандартные отклонения в группах сильно различаются, условия равенства дисперсий не выполняется.

Этапы дискриминантнтного анализа

ДА состоит из трех основных этапов:

1. Выбор основных переменных предикторов. Список переменных, которые предположительно могут повлиять на результат группировки, составляется на основе теоретического знания, опыта, догадок исследователя. Можно при составлении списка потенциальных предикторов руководствоваться определенными технологическими алгоритмами: 1) вначале включить в этот список только переменные, отражающие объективные характеристики респондентов, 2) затем составить список из субъективных характеристик на основе предварительного выявления направленности связи, например, с помощью коэффициентов Лямбды. В этом случае список предикторов составляется поэтапно (они последовательно набираются в результате нескольких этапов ДА).

Невозможно использовать в качестве предикторов несколько десятков переменных. Это обусловлено такими концептуальными причинами, как коллинеарность переменных, потеря степеней свободы и т.д.). Обычно на начальном этапе ДА для предикторов (как и в случае факторного анализа) формируется корреляционная матрица.

2. Выбор параметров. Возможен метод принудительного включения в регрессионное уравнение всех предикторов, используемых исследователем. Другой, более «осторожный» метод, основан на пошаговом включении (исключении) предикторов. Это метод Уилкса. Он основан на минимизации коэф. Уилкса (λ) после включения в уравнение регрессии каждого нового предиктора.

Коэф. λ представляет собой отношение внутригрупповой суммы квадратов к общей сумме квадратов и характеризует долю влияния предиктора на дисперсию критерия.

λ = SSW / SST;

Лямбда Уилкса служит для проверки межгрупповых различий. Изменяется от 0 до 1. Маленькие значения говорят о том, что групповые средние различаются, значения ближе к 1- о том, что различий нет. Следовательно, чем меньше Лямбда Уилкса, чем лучше происходят различия между классифицируeмыми объектами. Лямбда Уилкса используется для проверки гипотезы о том, что средние значения всех переменных по группам равны, и дает некоторую информацию о качестве классификации.

Со значением λ связаны величины F –статистики и p, характеризующие его значимость.

3. Интерпретация результатов. Определение точности предсказания. Составление набора предикторов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]