Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
statist_kursov_kharev.docx
Скачиваний:
50
Добавлен:
27.03.2015
Размер:
689.45 Кб
Скачать

Глава 2. Применение регрессивного анализа

2.1 Метод наименьших квадратов

На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемыхот их оценок(имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(— объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда.

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

Условие минимума функции невязки:

Полученная система является системой линейных уравнений снеизвестными.

Если представить свободные члены левой части уравнений матрицей

а коэффициенты при неизвестных в правой части — матрицей

то получаем матричное уравнение: , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE(Best Linear Unbiased Estimators — «наилучшие линейные несмещенные оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.

2.2 Интерпретация параметров регрессии

Параметры являются частными коэффициентами корреляции;интерпретируется как доля дисперсии Y, объяснённая, при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вкладв объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида ,, свидетельствующее о наличии взаимодействий между признаками,и т. д.

Глава 3. Проблемы с регрессией, последствия и решения

Ошибки спецификации относительно независимых переменных.

Когда ключевые независимые переменные отсутствуют в регрессионном анализе, коэффициентам и связанным с ними р-значениям нельзя доверять.

Создаётся карта и проверяются невязки МНК и коэффициенты ГВР или запускается анализ горячих точек по регрессионным невязкам МНК, чтобы увидеть, насколько это позволяет судить о возможных отсутствующих переменных.

Нелинейные взаимосвязи (рис. 3.1)

МНК и ГВР - линейные методы. Если взаимосвязи между любыми независимыми величинами и зависимыми - нелинейны, результирующая модель будет работать плохо.

Создаётся  диаграмма рассеяния, чтобы выявить взаимосвязи между показателями в модели. Уделяется особое внимание взаимосвязям, включающим зависимые переменные. Обычно криволинейность может быть устранена трансформированием величин(рис. 3.2).  Альтернативно, используется нелинейный метод регрессии.

Выбросы данных(рис.3.3).

Существенные выбросы могут увести результаты взаимоотношений регрессионной модели далеко от реальности, внося ошибку в коэффициенты регрессии.

Создаётся диаграмма рассеяния и другие графики (гистограммы), чтобы проверить экстремальные значения данных. Корректируются или удаляются выбросы, если они представляют ошибки. Когда выбросы соответствуют действительности, они не могут быть удалены. Запускается регрессия с и без выбросов, чтобы оценить, как это влияет на результат.

Нестационарность. Можно обнаружить, что входящая переменная, может иметь сильную зависимость в регионе А, и в то время быть незначительной или даже поменять знак в регионе B(рис. 3.4). 

Если взаимосвязь между зависимыми и независимыми величинами противоречит в пределах вашей области изучения, рассчитанные стандартные ошибки будут искусственно раздуты.

Инструмент МНК в ArcGIS автоматически тестирует проблемы, связанные с нестационарностью (региональными вариациями) и вычисляет устойчивые стандартные значения ошибок(рис.3.5). Когда вероятности, связанные с тестом Koenker, малы (например, < 0,05), есть статистически значимая региональная вариация и необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет. Как правило, результаты моделирования можно улучшить с помощью инструмента. Географически взвешенная регрессия.

Мультиколлинеарность. Одна или несколько независимых величин излишни(рис.3.6). 

Мультиколлинеарность ведет к переоценке и нестабильной/ненадежной модели.

Инструмент МНК в ArcGIS автоматически проверяет избыточность. Каждой независимой переменной присваивается рассчитанная величина фактора, увеличивающего дисперсию. Когда это значение велико (например, > 7,5), избыток является проблемой и излишние показатели должны быть удалены из модели или модифицированы путем создания взаимосвязанных величин или увеличением размера выборки(рис.3.7). 

Противоречивая вариация в отклонениях. Может произойти, что модель хорошо работает для маленьких величин, но становится ненадежна для больших значений(рис. 3.8).

Когда модель плохо предсказывает некоторые группы значений, результаты будут носить ошибочный характер.

Инструмент МНК в ArcGIS автоматически выполняет тест на несистемность вариаций в отклонениях (называемая гетероскедастичность или неоднородность дисперсии) и вычисляет стандартные ошибки, которые устойчивы к этой проблеме. Когда вероятности, связанные с тестом Koenker, малы (например, 0,05), необходимо учитывать устойчивые вероятности, чтобы определить, является ли независимая переменная статистически значимой или нет(рис. 3.9). 

Пространственно автокоррелированные отклонения(рис.3.10)

Когда наблюдается пространственная кластеризация в отклонениях, полученных в результате работы модели, это означает, что имеется переоценённый тип систематических отклонений, модель работает ненадежно.

Запускается инструмент Пространственная автокорреляция (Spatial Autocorrelation) по отклонениям, чтобы убедиться, что в них не наблюдается статистически значимой пространственной автокорреляции. Статистически значимая пространственная автокорреляция практически всегда является симптомом ошибки спецификации (отсутствует ключевой показатель в модели)(рис. 3.11). 

Нормальное распределение систематической ошибки(рис.3.12).

Когда невязки регрессионной модели распределены ненормально со средним, близким к 0, р-значения, связанные с коэффициентами, ненадежны.

Инструмент МНК в ArcGIS автоматически выполняет тест на нормальность распределения отклонений. Когда статистический показатель Jarque-Bera является значимым (например, 0,05), скорее всего в модели отсутствует ключевой показатель (ошибка спецификации) или некоторые отношения, которые моделируются, являются нелинейными. Карта отклонений нуждается в проверке и возможно карта с коэффициентами ГВР, чтобы определить, какие ключевые показатели отсутствуют. Нужно найти на диаграмме рассеяния нелинейности взаимосвязей.

Рис. 3.1Криволинейность. Эта криволинейная связь между кражами и доходом указывает на то, что больше краж происходит в домах среднего дохода, чем в домах низкого или высокого дохода.

Рис. 3.2Трансформация. Иногда возможно трансформировать искаженные переменные, чтобы придать им нормальное распределение.

Рис. 3.3Выбросы. Существенные выбросы могут увести результаты модели далеко от реальности, внося ошибку в коэффициенты регрессии.

Если выброс – ошибка, она должна быть исправлена или удалена из анализа. Если выброс отражает корректные данные, вы можете провести ваш анализ с и без выброса, чтобы посмотреть, как сильно он влияет на ваши результаты.

Рис. 3.4Нестационарность. Моделирование отношений, не являющимися постоянными в пределах изучаемой области.

Заметьте, что связь между числом вызовов 911 и числом людей отличаются в районах с высокой численностью населения и юго-западных районах с низкой плотностью населения.

Рис. 3.5Усьлйчивые вероятности. Инструмент МНК вычисляет стандартные ошибки и вероятностные коэффициенты, которые устойчивы к нестационарности.

Если критерий Кенкера статистически значимый (*), примите во внимание устойчивые вероятности, чтобы оценить, статистически значимые ваши независимые переменные или нет.

Рис. 3.6Мультиколлинеарность. Существует сильная взаимосвязь между этими переменными.

Использование больше чем одной из этих независимых переменных в единой регрессионной модели привело бы к избыточности и непостоянству модели. Каждая независимая переменная в вашей регрессионной модели должна достигнуть различного аспекта зависимой переменной, которую вы пытаетесь предсказать или смоделировать.

Рис. 3.7Фактор, увеличивающий дисперсию (ФУД). Большие значения ФУД говорят о избыточности среди ваших моделируемых независимых переменных

Рис. 3.8Зависимость дисперсии от случайной величины. Область рассеяния в форме конуса указывает, что модель работает по-разному в зависимости от величины оценочных показателей. В этом случае модель работает лучше (остатки меньше) для участков с меньшим количеством преступлений, чем для участков с большим числом преступлений.

Рис. 3.9Устойчивые вероятности. Инструмент МНК вычисляет стандартные ошибки и вероятностные коэффициенты, которые устойчивы к нестационарности.

Если критерий Кенкера статистически значимый (*), примите во внимание устойчивые вероятности, чтобы оценить, статистически значимые ваши независимые переменные или нет.

Рис. 3.10Карта, отражающая невязки пространственной автокорреляции. Отклонения, полученные в результате моделирования, кластеризуются в пространстве.

Заметьте, как переоценки, полученные в результате моделирования (красные), кластеризуются в пространстве. Статистически значимая пространственная кластеризация отклонений – доказательство того, что в модели отсутствуют ключевые независимые переменные. Вы можете использовать инструмент Пространственная автокорреляция (Spatial Autocorrelation), чтобы определить, присутствует ли в моделировании статистически значимая кластеризация отклонений.

Рис. 3.11Графическое представление результатов пространственной автокорреляции. Графическое представление результатов Пространственной автокорреляции (Глобальный индекс Морана I)

Рис. 3.12Гистограмма невязок. Невязки моделей должны быть распределены равномерно.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]