- •5.1. Простая линейная регрессия
- •5.1.1. Назначение простой линейной регрессии
- •5.1.2. Вызов процедуры
- •5.1.3. Установка параметров
- •5.1.4. Вид результатов
- •5.2.2.2. Метод пошагового исключения (backward elimination)
- •5.2.2.3. Метод пошагового включения (forward selection)
- •5.2.2.4. Метод пошагового отбора (stepwise selection)
- •5.2.2.5. "Оптимальное" число независимых переменных
- •5.2.3. Вид результатов расчета множественной линейной регрессии
- •5.3. Нелинейная регрессия
- •5.3.1. Подгонка кривых
- •5.3.2. Использование фиктивных переменных
- •5.3.2.1. Модели нелинейные по переменным
- •5.3.2.2. Модели нелинейные по параметрам
- •5.4. Анализ остатков
- •5.4.1. Назначение анализа остатков
- •5.4.2. Понятие остатков
- •5.4.3. Проверка линейности
- •5.4.3.1. График остатков по экспериментальным значениям у
- •5.4.3.3. График остатков по независимой переменной
- •5.4.4. Однородность дисперсий
- •5.4.5. Независимость ошибок
- •5.4.6. Нормальность остатков
- •5.4.6.1. Построение гистограммы остатков
- •5.4.6.2. Построения графика остатков на нормальной вероятностной бумаге
- •5.4.7. Выявление выбросов
- •5.4.7.1. Проверка на выбросы зависимой переменной
- •5.4.7.2. Проверка на выбросы независимой переменной
- •5.4.8. Выявление существенных наблюдений
- •5.4.8.1. Включение и исключение подозрительного наблюдения
- •5.4.8.2. Вычисление расстояния Кука
- •5.4.9. Некоррелированность независимых переменных.
- •5.4.9.1. Вычисление фактора "вздутия" вариации
- •5.4.9.2. Вычисление собственных чисел
5.4.9. Некоррелированность независимых переменных.
Это предположение проверяется построением корреляционной матрицы для модели множественной регрессии. Поэтому одним из первых шагов при решении уравнения с несколькими независимыми переменными должно быть вычисление корреляционной матрицы для всех переменных.
Существование высокой корреляции между независимыми переменными характеризует ситуацию коллинеарности. Другими словами, не выполняется одна из главных предпосылок статистических методов оценки уравнения регрессии. Проблема состоит в том, что все независимые переменные оказывают схожее воздействие на зависимую, поэтому очень трудно отличить их воздействие друг от друга. Различные статистические тесты направлены на то, чтобы определить присутствие коллинеарности и степень, в которой это явление портит оцениваемые параметры.
5.4.9.1. Вычисление фактора "вздутия" вариации
Один из часто используемых показателей коллинеарности (чувствительность, допуск) — это толерантность или допуск переменной. Эта мера определяется как 1 -R2i, где Ri - множественный коэффициент корреляции, когда i -тая переменная предсказана на основе других независимых переменных. Если толерантность переменной мала, то данная переменная является почти линейной комбинацией других независимых переменных.
С толерантностью тесно связан другой показатель коллинеарности: фактор влияния на дисперсию (фактор "вздутия" вариации (variance inflation factor, сокращенно VIF). Фактически, он определяется как величина, обратная к толерантности. Иначе говоря, для i-ой переменной
VIF = 1/(1-R2 i ).
Данная величина называется так потому, что она участвует в вычислении дисперсии i-ого регрессионного коэффициента. С возрастанием величины фактора влияния на дисперсию, возрастает и дисперсия соответствующего регрессионного коэффициента.
5.4.9.2. Вычисление собственных чисел
Другой характеристикой коллинеарности являются собственные числа. Когда собственные значения превышают 13, проблема коллинеарности существует, когда эти числа больше 80, - она является острой. Чем больше индекс обусловленности, тем в большей степени введение данной переменной ухудшает проблему коллинеарности модели. Пропорции вариации показывают, как распределяется вариация каждого регрессионного коэффициента, включая константу, между компонентами, связанными с каждым из собственных чисел. В матрице пропорции вариации необходимо искать для каждого собственного значения большие коэффициенты пропорциональности в нескольких переменных. Тогда можно определить, какие именно переменные наиболее тесно связаны между собой, и исключить из рассмотрения те, включение которых наименее необходимо исходя из теоретических соображений.