Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Эконометрика.doc / Эконометрика.doc
Скачиваний:
245
Добавлен:
11.04.2015
Размер:
7.44 Mб
Скачать

2.2.4. Анализ остатков уравнения множественной регрессии на втокорреляцию

Как уже отмечалось, одной из предпосылок МНК является независимость отклонений (e = y) друг от друга. Если это условие нарушено, то говорят об автокорреляции остатков. Причин возникновения автокорреляции в остатках для уравнения множественной регрессии несколько. Выделим среди них следующие:

  1. в регрессионную модель не введен значимый факторный признак, и его изменение приводит к значимому изменению последовательных остаточных величин;

  2. в регрессионную модель не включено несколько незначимых факторов, но их изменения совпадают по направлению и фазе, и их суммарное воздействие приводит к значимому изменению последовательных остатков;

  3. не верно выбран вид конкретной зависимости между анализируемыми переменными;

  4. автокорреляция остатков может возникнуть не в результате ошибок, допущенных при построении регрессионной модели, а вследствие особенностей внутренней структуры случайных компонент (например, при описании регрессией динамических рядов).

Анализ остатков на автокорреляцию, как и в случае парной регрессии, осуществляется обычно на основе критерия Дарбина–Уотсона. Табличные значения этого критерия определяются при известных n– объеме выборки,m- числе независимых переменных и α – уровне значимости. Дальнейшие исследования на автокорреляцию прговодятся по аналогии с простой регрессией. Если с помощью критерия Дарбина – Уотсона обнаружена существенная автокорреляция остатков, то необходимо признать наличие проблемы в правильности спецификации уравнения и либо пересмотреть набор включенных в уравнение регрессии переменных, либо изменить форму регрессионной зависимости. Но в большей степени такой анализ актуален при рассмотрении регрессии временных рядов. При анализе рядов динамики с помощью регрессии уменьшение автокорреляции в остатках может дать включение в регрессию времени, как факторной переменной.

2.2.5. Пошаговый выбор переменных

Отбор переменных в уравнение множественной регрессии может осуществляться в несколько этапов. На первом этапе подобный отбор осуществляется исходя из качественного анализа изучаемого социально-экономического явления, без каких бы то ни было ограничений на переменные. На втором этапе на основе, например, анализа матрицы парных коэффициентов корреляции можно отсеять незначимые факторные переменные, если это не входит в противоречие с логикой изучаемого явления. И только на третьем этапе провести строгий отбор с использованием метода пошагового выбора переменных.

При использовании этого метода отбор переменных происходит исходя только из статистических критериев. Подобные процедуры включены во многие статистические пакеты прикладных программ и предусматривают три варианта их реализации.

Процедура “вперед” (Forward) начинает работать с “пустой” моделью и последовательно включает в модель только значимые переменные. При этом на каждом шаге значимость каждой переменной определяется заново. Осуществляется это, например, на основе коэффициентов частной корреляции и рассчитанных для них статистик Фишера. Процедура включения переменных в модель заканчивается, если на очередном шаге наибольшее значение критерия Фишера будет меньше граничного. Граничное значение либо устанавливается исследователем, либо определяется по умолчанию. Если в результате реализации этого метода переменная на каком-либо шаге была включена в уравнение, то она там остается до конечного варианта уравнения регрессии.

Процедура ”назад” (Backward) начинает работать с “полной” моделью и последовательно исключает из нее незначимые переменные. Значимость переменных здесь пересчитывается также на каждом шаге. В этом случае гарантируется, что из уравнения регрессии будут исключены только незначимые независимые переменные. Если в этой процедуре переменная на каком-либо шаге была исключена из уравнения, то она не будет включена в него до конечного варианта уравнения регрессии

Пошаговая процедура (Stepwise) включения-исключения переменных состоит в сочетании двух уже рассмотренных методов. Здесь после очередного включения-исключения переменной происходит пересчет значимости уже включенных или исключенных переменных и если какая-либо ранее включенная (исключенная) переменная оказывается незначимой (значимой), то она исключается из уравнения или включается в него.

В большинстве случаев эти три метода дают одинаковый конечный результат. Применение метода пошагового выбора переменных позволяет упростить уравнение регрессии без значимого ухудшения его точности. К тому же подобные процедуры исключают возможность включения в регрессию коллинеарных факторных переменных.

Пример. Множественный корреляционно-регрессионный анализ и точность МНК-оценок

Приведем пример корреляционно-регрессионного анализа многомерных наблюдений на основе следующих данных.

Пусть имеется информация о 20 торговых фирмах по пяти показателям:

у– количество посещений в месяц (тыс. чел.);

х1– расходы на рекламу (тыс. руб.);

х2– торговые площади (м2);

х3– число потенциальных покупателей (тыс. чел.);

х4– число конкурирующих магазинов.

Провести полный корреляционно-регрессионный анализ этой информации.

Приведем сначала для рассматриваемой информации некоторые описательные статистики (см. рис.15).

Рис. 15. Описательные статистики

Обратите внимание на соотношение стандартных отклонений (standard deviation) и коэффициентов вариации (coeff. of variation). ЕслиSx1 = 2,63 существенно меньше, чемSx2 = 234,1 (почти в 100 раз), тоVx1 = 49,3 % меньшеVx2 = 67,7 % не на много. Связано это с тем, что исследуемые показатели имеют разные единицы измерения (тыс. чел. и тыс. руб.). В этом случае реальное представление о сравнительной мере рассеяния дает коэффициент вариации. Для одинаковых единиц измерения эти два показателя дают сходную информацию (сравнитех1их3).

Рассчитаем для этих переменных матрицу парных коэффициентов корреляции с указанием для каждого коэффициента корреляции р-величины (см. рис. 16).

Анализ матрицы парных коэффициентов корреляции показывает, что:

  1. значимыми являются три переменные: х1, х3их4(для них расчетные уровни значимости меньше 0,05) – это следует из анализа строки (столбца) коэффициентов для зависимой переменнойy;

  2. мультиколлинеарность отсутствует (наибольший коэффициент корреляции между независимыми переменными = 0,61, что меньше 0,8).

Рис.16. Матрица коэффициентов корреляции (ППП STATISTICA)

Матрица частных коэффициентов корреляции следующая (см. рис.17) (столбец х4отсутствует, но в силу симметрии этой матрицы его можно заменить строкойх4):

Рис. 17. Матрица частных коэффициентов корреляции (ППП Statgraphics)

Как видим, чистая связь между уих1ослабла, а междууих3, наоборот – усилилась. Теснота других связей существенно не изменилась.

Приведем результаты расчетов по регрессионному анализу (рис.18 – 20).

Рис. 18. Отчет об уравнении регрессии (ППП STATISTICA)

Рис. 19. Тот же отчет для ППП Statgraphics

Рис. 20. Тот же отчет в электронной таблице Excel

Окно отчета в ППП Statgraphics(рис. 19) приводит полную информацию о регрессии, а в ПППSTATISTICA(рис. 18) дисперсионный анализ регрессии и коэффициент Дарбина – Уотсона приводятся в отдельных окнах. Кроме того, в ПППSTATISTICAрассчитываются- коэффициенты, чего нет в ПППStatgraphics. Отчет вExcel(рис. 20), кроме всего, дает еще и доверительные интервалы для параметров регрессии, но здесь нет- коэффициентов и статистики Дарбина – Уотсона, а также пошаговой регрессии.

Различные отчеты здесь приведены для их сравнительного анализа.

Дисперсионный анализ регрессии показывает, что уравнение регрессии значимо (р-величина статистики Фишера меньше 0,05).

Коэффициенты множественной корреляции (R= 0,777) и множественной детерминации (R2 = 0,604) показывают, что уравнение регрессии довольно точно описывает зависимостьyот остальных переменных (на 60,4 % изменениеy обусловлено изменением всех других переменных).

Различия в исходном и исправленном коэффициентах множественной детерминации (= 0,5) говорит о том, что в уравнении регрессии есть незначимые переменные. На это же указывают расчетные уровни значимости оценок коэффициентов уравнения регрессии. Среди них только один (прих4) имеетp-valueилиp-levelменьше 0,05. Поэтому, если судить формально на основе этих показателей, то на количество посещений в месяц магазинов фирмы значимо влияет только число конкурирующих магазинов. Хотя пошаговый регрессионный анализ дает иные результаты, о чем речь ниже.

О значимости коэффициентов уравнения регрессии можно судить также и по доверительным интервалам, построенным для них. Если такой доверительный интервал содержит нуль, то это означает, что коэффициент при соответствующей переменной равен нулю. Просмотрите доверительные интервалы для коэффициентов уравнения регрессии по отчету в Excelи убедитесь в правильности высказанного предложения.

Сравнивая коэффициенты регрессии в натуральном масштабе и стандартизованные (- коэффициенты), видим, что они несут разную информацию, и если мы хотим сделать верные выводы о степени влияния факторных признаков на изучаемый показатель, то судить об этом надо по-коэффициентам (см. отчет об уравнении регрессии в ПППStatistica). Судя по-коэффициентам (столбецВЕТА), делаем вывод, что наименьшее влияние на количество посещений в месяц магазинов фирмы имеет переменнаях1– расходы на рекламу, а наибольшее – переменнаях4– число конкурирующих магазинов. Коэффициенты в натуральном масштабе в данном случае сравнивать нельзя, т. к. единицы их измерения разные.

Коэффициент Дарбина – Уотсона равен 2,43 (см. рис. 19), а его уровень значимости больше 0,05, что говорит о наличии проблемы в спецификации уравнения регрессии. Воспользуемся табличными значениями этого критерия. При n= 20,m= 4 и= 0,05 имеем (см. табл. в приложении):dl= 0,9,du = 1,83. Тогда процедура принятия решения следующая:

__есть__ dl___?____du_нет_4-du___?_____4-dl__есть___