Глава 2. Применение регрессивного анализа
2.1 Метод наименьших квадратов
На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемыхот их оценок(имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):
(— объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда.
Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:
Условие минимума функции невязки:
Полученная система является системой линейных уравнений снеизвестными.
Если представить свободные члены левой части уравнений матрицей
а коэффициенты при неизвестных в правой части — матрицей
то получаем матричное уравнение: , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:
Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE(Best Linear Unbiased Estimators — «наилучшие линейные несмещенные оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.
2.2 Интерпретация параметров регрессии
Параметры являются частными коэффициентами корреляции;интерпретируется как доля дисперсии Y, объяснённая, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вкладв объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.
Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида ,, свидетельствующее о наличии взаимодействий между признаками,и т. д.
Глава 3. Проблемы с регрессией, последствия и решения
Ошибки спецификации относительно независимых переменных. |
Когда ключевые независимые переменные отсутствуют в регрессионном анализе, коэффициентам и связанным с ними р-значениям нельзя доверять. |
Создаётся карта и проверяются невязки МНК и коэффициенты ГВР или запускается анализ горячих точек по регрессионным невязкам МНК, чтобы увидеть, насколько это позволяет судить о возможных отсутствующих переменных. |
Нелинейные взаимосвязи (рис. 3.1) |
МНК и ГВР - линейные методы. Если взаимосвязи между любыми независимыми величинами и зависимыми - нелинейны, результирующая модель будет работать плохо. |
Создаётся диаграмма рассеяния, чтобы выявить взаимосвязи между показателями в модели. Уделяется особое внимание взаимосвязям, включающим зависимые переменные. Обычно криволинейность может быть устранена трансформированием величин(рис. 3.2). Альтернативно, используется нелинейный метод регрессии. |
Выбросы данных(рис.3.3). |
Существенные выбросы могут увести результаты взаимоотношений регрессионной модели далеко от реальности, внося ошибку в коэффициенты регрессии. |
Создаётся диаграмма рассеяния и другие графики (гистограммы), чтобы проверить экстремальные значения данных. Корректируются или удаляются выбросы, если они представляют ошибки. Когда выбросы соответствуют действительности, они не могут быть удалены. Запускается регрессия с и без выбросов, чтобы оценить, как это влияет на результат. |
Нестационарность. Можно обнаружить, что входящая переменная, может иметь сильную зависимость в регионе А, и в то время быть незначительной или даже поменять знак в регионе B(рис. 3.4). |
Если взаимосвязь между зависимыми и независимыми величинами противоречит в пределах вашей области изучения, рассчитанные стандартные ошибки будут искусственно раздуты. |
Инструмент МНК в ArcGIS автоматически тестирует проблемы, связанные с нестационарностью (региональными вариациями) и вычисляет устойчивые стандартные значения ошибок(рис.3.5). Когда вероятности, связанные с тестом Koenker, малы (например, < 0,05), есть статистически значимая региональная вариация и необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет. Как правило, результаты моделирования можно улучшить с помощью инструмента. Географически взвешенная регрессия. |
Мультиколлинеарность. Одна или несколько независимых величин излишни(рис.3.6). |
Мультиколлинеарность ведет к переоценке и нестабильной/ненадежной модели. |
Инструмент МНК в ArcGIS автоматически проверяет избыточность. Каждой независимой переменной присваивается рассчитанная величина фактора, увеличивающего дисперсию. Когда это значение велико (например, > 7,5), избыток является проблемой и излишние показатели должны быть удалены из модели или модифицированы путем создания взаимосвязанных величин или увеличением размера выборки(рис.3.7). |
Противоречивая вариация в отклонениях. Может произойти, что модель хорошо работает для маленьких величин, но становится ненадежна для больших значений(рис. 3.8). |
Когда модель плохо предсказывает некоторые группы значений, результаты будут носить ошибочный характер. |
Инструмент МНК в ArcGIS автоматически выполняет тест на несистемность вариаций в отклонениях (называемая гетероскедастичность или неоднородность дисперсии) и вычисляет стандартные ошибки, которые устойчивы к этой проблеме. Когда вероятности, связанные с тестом Koenker, малы (например, 0,05), необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет(рис. 3.9). |
Пространственно автокоррелированные отклонения(рис.3.10) |
Когда наблюдается пространственная кластеризация в отклонениях, полученных в результате работы модели, это означает, что имеется переоценённый тип систематических отклонений, модель работает ненадежно. |
Запускается инструмент Пространственная автокорреляция (Spatial Autocorrelation) по отклонениям, чтобы убедиться, что в них не наблюдается статистически значимой пространственной автокорреляции. Статистически значимая пространственная автокорреляция практически всегда является симптомом ошибки спецификации (отсутствует ключевой показатель в модели)(рис. 3.11). |
Нормальное распределение систематической ошибки(рис.3.12). |
Когда невязки регрессионной модели распределены ненормально со средним, близким к 0, р-значения, связанные с коэффициентами, ненадежны. |
Инструмент МНК в ArcGIS автоматически выполняет тест на нормальность распределения отклонений. Когда статистический показатель Jarque-Bera является значимым (например, 0,05), скорее всего в модели отсутствует ключевой показатель (ошибка спецификации) или некоторые отношения, которые моделируются, являются нелинейными. Карта отклонений нуждается в проверке и возможно карта с коэффициентами ГВР, чтобы определить, какие ключевые показатели отсутствуют. Нужно найти на диаграмме рассеяния нелинейности взаимосвязей. |
Рис. 3.1Криволинейность. Эта криволинейная связь между кражами и доходом указывает на то, что больше краж происходит в домах среднего дохода, чем в домах низкого или высокого дохода.
Рис. 3.2Трансформация. Иногда возможно трансформировать искаженные переменные, чтобы придать им нормальное распределение.
Рис. 3.3Выбросы. Существенные выбросы могут увести результаты модели далеко от реальности, внося ошибку в коэффициенты регрессии.
Если выброс – ошибка, она должна быть исправлена или удалена из анализа. Если выброс отражает корректные данные, вы можете провести ваш анализ с и без выброса, чтобы посмотреть, как сильно он влияет на ваши результаты.
Рис. 3.4Нестационарность. Моделирование отношений, не являющимися постоянными в пределах изучаемой области.
Заметьте, что связь между числом вызовов 911 и числом людей отличаются в районах с высокой численностью населения и юго-западных районах с низкой плотностью населения.
Рис. 3.5Усьлйчивые вероятности. Инструмент МНК вычисляет стандартные ошибки и вероятностные коэффициенты, которые устойчивы к нестационарности.
Если критерий Кенкера статистически значимый (*), примите во внимание устойчивые вероятности, чтобы оценить, статистически значимые ваши независимые переменные или нет.
Рис. 3.6Мультиколлинеарность. Существует сильная взаимосвязь между этими переменными.
Использование больше чем одной из этих независимых переменных в единой регрессионной модели привело бы к избыточности и непостоянству модели. Каждая независимая переменная в вашей регрессионной модели должна достигнуть различного аспекта зависимой переменной, которую вы пытаетесь предсказать или смоделировать.
Рис. 3.7Фактор, увеличивающий дисперсию (ФУД). Большие значения ФУД говорят о избыточности среди ваших моделируемых независимых переменных
Рис. 3.8Зависимость дисперсии от случайной величины. Область рассеяния в форме конуса указывает, что модель работает по-разному в зависимости от величины оценочных показателей. В этом случае модель работает лучше (остатки меньше) для участков с меньшим количеством преступлений, чем для участков с большим числом преступлений.
Рис. 3.9Устойчивые вероятности. Инструмент МНК вычисляет стандартные ошибки и вероятностные коэффициенты, которые устойчивы к нестационарности.
Если критерий Кенкера статистически значимый (*), примите во внимание устойчивые вероятности, чтобы оценить, статистически значимые ваши независимые переменные или нет.
Рис. 3.10Карта, отражающая невязки пространственной автокорреляции. Отклонения, полученные в результате моделирования, кластеризуются в пространстве.
Заметьте, как переоценки, полученные в результате моделирования (красные), кластеризуются в пространстве. Статистически значимая пространственная кластеризация отклонений – доказательство того, что в модели отсутствуют ключевые независимые переменные. Вы можете использовать инструмент Пространственная автокорреляция (Spatial Autocorrelation), чтобы определить, присутствует ли в моделировании статистически значимая кластеризация отклонений.
Рис. 3.11Графическое представление результатов пространственной автокорреляции. Графическое представление результатов Пространственной автокорреляции (Глобальный индекс Морана I)
Рис. 3.12Гистограмма невязок. Невязки моделей должны быть распределены равномерно.