Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
econometrika / econometrika / Модуль 4.doc
Скачиваний:
48
Добавлен:
27.03.2016
Размер:
218.11 Кб
Скачать

73

Модуль 4. Множественная линейная регрессия

4.1.1. Общая линейная модель множественной регрессии

Значения экономических переменных определяются обычно влиянием не одного, а нескольких объясняющих факторов. В таком случае зависимость y=f(x) означает, чтох -вектор, содержащийт компонентов:х=1,х2, ... ,хm).Задача оценки статистической взаимосвязи переменныхуих=1,х2, ... ,хm)формулируется аналогично случаю парной регрессии. Записывается функцияу = f(,х)+,где- вектор параметров,- случайная ошибка. Предполагается, что эта функция связывает переменнуюу свектором независимых переменныххдля данных генеральной совокупности. Как и в случае парной регрессии, предполагается, что ошибкиiявляются случайными величинами с нулевым математическим ожиданием и постоянной дисперсией;iиjстатистически независимы приij. Кроме того, для проверки статистической значимости оценокобычно предполагается, что ошибкиiнормально распределены. По данным наблюдений выборки размерностиnтребуется оценить значения параметров,то есть провести параметризацию выбранной формулы (спецификации) зависимости.

Мы будем говорить о линейной зависимости уотх,то есть о множественной линейной регрессии. Теоретическое уравнение регрессии имеет вид:

у = 0+1х1 +2х2 + ... +mхm + .

Здесь - вектор неизвестных параметров размерности+ 1). Пусть имеетсяпнаблюдений векторахи зависимой переменнойу. Для того, чтобы формально можно было решить задачу, то есть найти некоторый наилучший вектор параметров, должно бытьп т+1.Если это условие не выполняется, то можно найти бесконечно много разных векторов коэффициентов, при которых линейная формула связывает между собойхиу для имеющихся наблюдений абсолютно точно. Если, в частном случае,п = т+1(например, при двух объясняющих переменных в уравненииу =0+1х1+2х2и трех наблюдениях), то оценки коэффициентоврассчитываются един­ственным образом - путем решения системы линейных уравнений {yj=0+1х1j+2х2j+… +mхmj;j=1,2,...,п -индекс наблюдения}. Так, через три точки-наблюдения в трехмерном пространстве можно про­вести единственную плоскость, определяемую параметрами0,1,2. Если число наблюдений больше минимально необходимого, то естьп > т+1,то уже нельзя подобрать линейную формулу, в точности удовлетворяющую всем наблюдениям, и возникает необходимость оптимизации, то есть выбора наилучшей формулы-приближения для имеющихся наблюдений.Положительная разность (п-т-1) в этом случае называется числом степеней свободы. Если число степеней свободы мало, то статистическая надежность оцениваемой формулы невысока. Так, если проведена плоскость "в точности" через имеющиеся три точки наблюдений, любая четвертая точка-наблюдение из той же генеральной совокупности будет практически наверняка лежать вне этой плоскости, возможно - достаточно далеко от нее. Обычно при оценке множественной регрессии для обеспечения ста­тистической надежности требуется, чтобы число наблюдений, по крайней мере, в 3 раза превосходило число оцениваемых параметров.

Задача построения множественной линейной регрессиисостоит в нахождении (m+1)-мерного вектора а, элементы которого есть оценки соответствующих элементов вектора. Критерии оценивания, как и в случае парной регрессии, могут быть различными; мы будем вновь использовать метод наименьших квадратов (МНК). Уравнение регрессии с оцененными параметрами имеет вид

у = a0+a1х1 +a2х2 + ... +amхm + e,

и критерием для нахождения вектора (а)является.

Оцененное уравнение должно описать как общий тренд (тенденцию) изменения зависимой переменной у,так и отклонения от этого тренда. Проблема здесь состоит не только в том, чтобы объяснить возможно большую долю колебаний переменнойу,но и отделить влияние каждого из факторов, рассматриваемых как объясняющие переменные.

При выполнении предпосылок 1)-4) относительно ошибок еi(см.3.3) оценки параметров множественной линейной регрессии являются несмещенными, состоятельными и эффективными. Отклонение зависимой переменнойувj-м наблюдении от линии регрессии,еj, записывается следующим образом:

еj= уj - a0-a1хj1 -a2хj2 - ... -ajmхm

Обозначим сумму квадратов этих величин, которую нужно минимизировать в соответствии с методом наименьших квадратов, через Q:

Минимизируемая функция Q является квадратичной относительно неизвестных величин ai. Необходимым условием ее минимума является равенство нулю всех ее частных производных поai.Частные производные квадратичной функции являются линейными функциями, и, приравнивая их всех к нулю, мы получим систему из (m+1) линейных уравнений с(т+1)неизвестными. Такая система имеет обычно единственное решение (за исключением особого случая, когда столбцы ее линейно зависимы и решения нет или их бесконечно много; однако данные реальных статистических наблюдений к такому особому случаю, вообще говоря, никогда не приводят). Данная система называется системой нормальных уравнений. Ее решение в явном виде удобнее всего выписать в векторно-матричной форме, иначе оно становится слишком громоздким. Векторно-матричная запись и вывод решения системы нормальных уравнений приведены в 4.1.2; при начальном ознакомлении с проблемой оно может быть опущено.

Для анализа статистической значимости полученных коэффициентов множественной линейной регрессии необходимо, как и в случае парной регрессии, оценить дисперсию и стандартные отклонения коэффициентов aj.

В случае парной регрессии

В общем случае (гдеZjj- диагональный элемент

матрицы (XTX)-1- см.4.1.2). Соответственно, стандартное отклонение, и для проверки нулевой гипотезы для каждого из коэффициентовajрассчитываются, как и в случае парной регрессии,t-статистики:, имеющие распределение Стьюдента с(п-т-1)степенями свободы.

Если (п-т-1),то есть число степеней свободы, достаточно велико (не менее 8 - 10), то при 5%-ном уровне значимости и двусторонней альтернативной гипотезе критическое значение t-статистики приблизительно равно двум. Здесь, как и в случае парной регрессии, можно приближенно считать оценку незначимой, еслиt-статистика по модулю меньше единицы, и весьма надежной, если модульt-статистики больше трех. Другие критерии качества полученного уравнения регрессии будут рассмотрены ниже.

Соседние файлы в папке econometrika