Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
6. Эконометрика.Курс лекций.Ч.1.Булдык.doc
Скачиваний:
66
Добавлен:
14.11.2018
Размер:
5.23 Mб
Скачать

2. Многофакторные регрессионные модели

2.1. Построение многофакторной линейной регрессионной модели. Связи между массовыми экономическими явлениями характеризуются тем, что в действительности некоторое явление детерминируется множеством одновременно и совокупно действующих причин. Поэтому в общем случае зависимая переменная может быть функцией нескольких переменных и вместо парной регрессии рассматривается множественная регрессия: .

В каждом -м наблюдении получаем совокупность значений независимых переменных и соответствующее значение зависимой переменной .

Предположим, что между независимыми переменными и зависимой переменной Y существует линейное соотношение. Тогда уравнение

выражающее линейное соотношение между переменными, называется теоретическим уравнением множественной регрессии, а соответствующее эмпирическое уравнение регрессии будет иметь вид:

, (2.1)

Ясно, что указанным уравнением невозможно охватить весь комплекс причин и учесть случайность, присущую в тои или иной степени причинному действию и определенному им следствию. Ограничиваясь наиболее важными факторами, влияющими на развитие исследуемого явления, в выражение функции регрессии вводят аддитивную составляющую – возмущающую переменную U, дающую суммарный эффект от воздействия всех неучтенных факторов и случайностей. Возмущение и является случайной переменной, математическое ожидание , дисперсия возмущений U постоянна. Поэтому эмпирическое значение величины Y можно представить следующим образом:

. (2.2)

В выражении (2.1) – это среднее значение переменной Y в точке i при фиксированных значениях независимых переменных , в предположении, что только эти m переменных являются причиной изменения переменной Y. Значения – это оценки коэффициентов регрессии . Так, например, указывает среднюю величину изменения Y при изменении на одну единицу при условии, что другие переменные остаются без изменения; указывает среднюю величину изменения Y при изменении на одну единицу при условии, что другие переменные остались без изменения, и т.д. Свободный член регрессии определяет точку пересечения гиперповерхности регрессии с осью ординат. Итак, регрессия (2.1) охватывает совокупное одновременное влияние независимых переменных, а коэффициенты регрессии , указывают соответствующие усредненные частные влияния переменных , в предположении, что остальные независимые переменные сохраняются на постоянном уровне.

Обозначив через , матрицу-столбец зависимой переменной; через матрицу независимых переменных, размер которой определяется числом наблюдений n и числом переменных m; через матрицу-столбец коэффициентов регрессии; через матрицу-столбец возмущений, перепишем линейную модель (2.2) в виде

.

Для вычисления коэффициентов уравнения регрессии составим сумму квадратов отклонений:

.

Так как , то

.

Необходимым условием экстремума служит обращение в нуль частных производных функции S по параметрам. Дифференцируя S по B, получаем

.

Приравнивая нулю, находим систему нормальных уравнений, которая в матричной форме имеет вид

.

Решение полученной системы определяется по формуле

. (2.3)

Оценку параметров уравнения регрессии, найденную по формуле (2.3), называют оценкой метода наименьших квадратов.

В уравнении (2.3) матрицы записываются в следующем виде:

.

Рассмотрим процедуру построения множественной регрессии с двумя независимыми переменными, не прибегая к обращению матрицы . Функция линейной множественной регрессии в этом случае имеет вид

. (2.4)

Сумма квадратов отклонений всех наблюдаемых значений зависимой переменной от значений, вычисленных по уравнению регрессии, должна быть минимальна:

.

Продифференцировав S по каждому из параметров , приравняв частные производные нулю и выполнив элементарные преобразования, получаем следующую систему нормальных уравнений:

(2.5)

Из первого уравнения системы найдем и, подставив в (2.4), получим уравнение регрессии

.

Продолжив решение системы (2.5), найдем параметры и уравнения регрессии (2.4) по формулам:

,

(2.6)

,

где

;

2.2. Многофакторная линейная регрессионная модель в нормированной размерности. В случае множественной регрессии более чем с двумя независимыми переменными выполняют нормирование переменных по формулам:

, (2.7)

где – стандартные отклонения переменных Y и .

Проведенное нормирование позволяет упрощать расчеты определений оценок неизвестных параметров, так как исключается свободный член и за начало отсчета каждой переменной принимается значение среднего, а за единицу измерения – значение стандартного отклонения. Уравнение множественной линейной регрессии в нормированной размерности приобретает вид

, (2.8)

где – значения нормированных переменных; – нормированные коэффициенты регрессии.

Оценки нормированных коэффициентов множественной регрессии находим методом наименьших квадратов. Из соответствующих формул следуют соотношения между обычными и нормированными коэффициентами регрессии и :

. (2.9)

Как отмечалось выше, коэффициенты регрессии имеют размерность переменной Y, деленную на размерность переменной . Поэтому любое изменение единицы переменной величины сказывается на коэффициенте регрессии. Из формул (2.7 и (2.8) следует, что нормированные переменные и нормированные коэффициенты регрессии безразмерны. Вследствие этого становится возможным сравнение факторных переменных при оценке интенсивности их влияния на результативный признак, так как нормированные переменные выражаются в единицах стандартных отклонений.

Нормированные коэффициенты множественной регрессии характеризуют скорость изменения среднего значения результативного признака по каждому факторному признаку при постоянных значениях остальных факторов, включенных в модель. Они показывают, на какую часть стандартного отклонения изменилось бы среднее значение результативного признака, если бы значение факторного признака увеличилось на стандартное отклонение, а прочие факторы остались без изменения.

Таким образом, нормированные коэффициенты регрессии показывают сравнительную силу влияния каждого фактора-признака на изменение результативного признака.

2.3. Линейная частная регрессия. Из приведенных выше рассуждений следует, что в множественной регрессии исследуется одновременное влияние нескольких факторных признаков на результативный признак Y. При этом указывалось, что коэффициент множественной регрессии выражает частное влияние фактора на результативный признак Y при постоянных значениях других факторов. Это означает, что между множественной и частной регрессиями нет разницы. Покажем это для трех связанных между собой переменных Y, и . Предположим, что между переменными , и Y существуют линейные соотношения. Представим частную регрессию Y на при исключении . Для этого вначале найдем простые регрессии Y на и на . Они выразятся следующими уравнениями:

.

Из систем нормальных уравнений для указанных регрессий можно найти и :

.

Тогда уравнения регрессий выразятся формулами:

.

Предположим теперь, что переменная изъята из анализа. В этом случае регрессия Y на определяется по данным и , из которых исключено влияние :

Так как средние арифметические переменных и равны нулю, то уравнение регрессии по данным, из которых исключено влияние , имеет вид: .

Регрессия переменных с исключением влияния определяется коэффициентом , называемым коэффициентом частной регрессии. Применив метод наименьших квадратов для нахождения оценки неизвестного параметра , получим

.

Выполняя в приведен­ной формуле ряд алгебраических операций, приходим к выражению, аналогичному (2.6). Этот факт подтверждает, что частная регрессия не приводит к новым результатам при исследовании зависи­мостей.

Итак, при изучении регрессии нет необходимости различать частную и множе­ственную регрессии, так как коэффициенты частной регрессии совпадают с соответ­ствующими коэффициентами множественной регрессии.

2.4. Отбор важнейших факторов многофакторных регрессионных моделей. Проблема выбора существенных переменных (факторов) для включения их в модель тесно связана с исходными предпосылками регрессионного анализа. При построении модели два момента вступают в противоречие. В модель должны войти все пере­менные, которые с экономической точки зрения оказывают влияние на зависимую переменную. Но большое количество переменных, включенных в модель, требует большого числа наблюдений. Невыполнение первого требования может привести к неадекватности модели из-за того, что не учтены некоторые существенные факторы, а также к нарушению нормальности распределения случайной компоненты из-за того, что ее вариация будет обусловлена не только случайными факторами, но и систематически действующими, т.е. к нарушению гомоскедастичности. Дж. У. Юл и М. Дж. Кендалл считают, что максимальное число переменных, включенных в мо­дель, не должно превышать десяти.

Сокращение числа переменных, входящих в модель, можно производить путем отсеивания менее существенных факторов в процессе построения регрессионной модели или путем замены исходного набора переменных меньшим числом эквива­лентных переменных, полученных в результате преобразо­ваний исходного набора.

Процедура отсева несущественных факторов в процессе построения регресси­онной модели называется многошаговым регрессионным анализом. Этот метод основан на построении нескольких промежуточных уравнений регрессии, в резуль­тате анализа которых получается конечная модель, включающая только факторы, оказывающие существенное влияние на исследуемый показатель. При этом выделяется три подхода.

1. Строится уравнение регрессии по максимально возможному количеству фак­торов, предположительно оказавших влияние на исследуемый показатель. Затем с помощью t - критерия исключаются несущественные факторы.

2. Строится парная регрессия по одному значимому фактору, а затем в уравне­ние регрессии последовательно вводятся по одному все значимые факторы. Этот метод называет методом пошаговой регрессии.

3. Строится несколько уравнений регрессии, затем с помощью определенного критерия выбирается наилучшее.

Кратко охарактеризуем эти методы построения регрессионных моделей.

Применение t-критерия для отбора существенных факторов основано на пред­положении о нормальном распределении остатков U. Если это условие выполняется, то величина распределена по закону Стьюдента с степенями сво­боды. Задавая уровень значимости по числу степеней свободы , находят кван­тиль t-распределения, с которым сравнивают . При , коэффициент регрес­сии признается статистически значимым с вероятностью . Если все ко­эффициенты регрессии признаны значимыми, то уравнение регрессии считается окончательным и при общей проверке его адекватности по F-критерию принимается в качестве модели исследуемого экономического процесса. Если же среди коэффи­циентов регрессии имеются незначимые, то соответствующие факторы следует ис­ключить из уравнения регрессии, предварительно проранжировав коэффициенты регрессии по значению . В первую очередь исключается фактор, для которого значение наименьшее. Исключив один фактор с наименьшим значением , строят уравне­ние регрессии без исключенного фактора и снова производят оценку коэффициентов регрессии по t-критерию. Изложенную процедуру повторяют до тех пор, пока все коэффициенты регрессии в уравнении не окажутся значимыми. При этом на каждом шаге, кроме формальной статистической проверки значимости коэффициентов рег­рессии, проводят экономический анализ несущественных факторов и устанавливают порядок их исключения. В некоторых случаях, исходя из профессиональных сообра­жений, оставляют фактор, для которого незначительно меньше .

Отметим, что не существенность коэффициента регрессии по t-критерию не всегда является основанием для исключения фактора из дальнейшего анализа. Т. Андерсон рекомендовал исключать переменную из уравнения регрессии лишь в том случае, когда средняя квадратичная ошибка коэффициента регрессии превышает абсолютную величину вычисленного коэффициента, т.е. в случае, если значение t-критерия меньше единицы. При этом предполагается, что нет веских оснований для того, чтобы оставить переменную в модели. При пошаговом построении уравнения регрессии выбирают фактор имеющий наибольший коэффициент парной корреля­ции с Y, и строят уравнение парной регрессии. Затем находят частные коэффициенты корреляции между Y и остальными переменными при исключении выбранной переменной . Переменную с максимальным значением частного коэффи­циента корреляции включают в уравнение регрессии и вычисляют и част­ный F-критерий, который показывает, существенный ли вклад вносит в уравнение эта переменная по сравнению с уже введенными. Указанная процедура проводится до тех пор, пока расчетное значение F-критерия становится меньше таблич­ного. Подчеркнем, что на каждом шаге с добавлением новой переменной определя­ется значимость не только новой переменной, но и переменных, уже включенных в модель. И если какие-то из них окажутся незначимыми, они исключаются из уравне­ния. Значимость определяется значением частного F-критерия для всех переменных модели.

В многошаговом регрессионном анализе, основанном на методе случайного по­иска с адаптацией, разработанным Г.С. Лбовым, применяют «поощрение» или «на­казание» отдельных переменных исходя из их «ценности». В качестве критерию «ценности» используют коэффициент множественной корреляции R.

В начале поиска задают равные вероятности для каждого из факто­ров. Затем случайным образом выбирают q групп по к факторов и в этой системе определяют max R и min R. Векторы факторов в первой системе и запоми­нают. Вероятность попадания в систему увеличивается, а в уменьшается на h (h - произ­вольное число). Так образовывают l систем по q групп в каждой. За эффектив­ную принимают ту группу, при которой

При переборе ряда групп вероятность выбора факторов, часто встречающихся в удачных сочетаниях, становится большей, и именно этот набор факторов повторя­ется гораздо чаще остальных. Число q выбирают так, чтобы между значениями и данной системы j была заключена основная часть сочетаний, а величину шага h - такой, чтобы вероятность выбора фактора, если он будет встречаться на каждом этапе, оставалась большей или равной установленной вероятности . При увеличе­нии шага растет и доля случаев, когда эффективное сочетание факторов не будет найдено. При эффективный поиск сводится к методу Монте-Карло. В этом ме­тоде отсутствует статистическая проверка значимости коэффициентов регрессии.

Из предложенных подходов построения регрессионной модели выделяют пер­вый, основанный на оценке значимости коэффициентов регрессии по критерию Стьюдента.

2.5. Измерение интенсивности множественной связи. Выше мы показали, что при проведении социально-экономических исследований часто изучаются связи ме­жду более чем двумя явлениями. Для оценки интенсивности такой связи использу­ется коэффициент множественной корреляции (совокупный коэффициент корреля­ции), который характеризует тесноту связи одной из переменных с совокупностью других.

В качестве оценки интенсивности связи между результативным признаком Y и совокупностью факторных признаков , используется вели­чина

(2.10)

где - наименьшее значение суммы

которая характеризует соответствие регрессии опытным данным, т.e. рассеяние значений , которое возникает из-за случайностей и изменчивости прочих неучтенных факторов. Из формулы (2.10) видно, что чем меньше значение , тем меньше опытные данные отклоняются от значений регрессии .

Величина R, вычисляемая по формуле (2.10), называется коэффициентом множественной корреляции (совокупным коэффициентом корреляции).

Средняя квадратичная ошибка коэффициента множественной корреляции определяется по формуле

,

где n-число наблюдений; m-число параметров уравнения регрессии.

Используя значения параметров уравнения (2.4), найденных при решении системы нормальных уравнений (2.5), формулу (2.10) преобразуем к виду

(2.11)

(см. [2, § 9.7]), где - коэффициенты парной корреляции между переменными и , и Y, и .

Коэффициент множественной корреляции удовлетворяет следующим свойствам:

1) его значения удовлетворяют неравенству 0;

2) если R = 0, то результативный признак Y и факторные признаки не могут быть свя­заны линейной регрессионной зависимостью, хотя нелинейная зависимость может существо­вать;

3) если R = 1, то результативный признак Y и факторные признаки связаны линейной функ­циональной зависимостью.

Из формулы (2.11) следует также, что если R стремится к единице, то теснота линейной корреляционной зависимости между переменными и Y увеличивается, так как стре­мится при этом к нулю, т.е. опытные данные меньше отклоняются от значений регрес­сии.

Об уровне тесноты множественной корреляционной связи между факторными признаками и ре­зультативным судят по значению множественного коэффициента корреляции R. Различают слабую (0,1), умеренную , заметную,  тесную и весьма тесную  корреляционную связь.

Отметим также, что с помощью коэффициента множественной корреляции нельзя сде­лать вывод о том, положительна или отрицательна корреляция между переменными. Только если все парные коэффициенты корреляции имеют один знак, можно установить характер связи между Y и

.

Из формулы (2.11) следует, что если коэффициент парной корреляции , т.е. если и некоррелированы, то .

Это значит, что квадрат интенсивности связи между Y и , равен сумме квадратов интенсив­ности связи между Y и, Y и.

Коэффициент множественной корреляции можно вычислить через коэффициенты парной корреляции по формуле:

,

где - определитель матрицы парных коэффициентов корреляции,

- определитель матрицы межфакторной корреляции.

Связь коэффициента множественной корреляции с нормированными коэффициентами регрессии и выражается формулой

,

которая обобщается на случай любого конечного числа факторных признаков, т.е.

.

Как и в случае простой линейной регрессии, для установления того, какая часть общей дисперсии может быть объяснена зависимостью переменной Y от переменных , вычисляют коэффициент множественной детерминации

,

где ; ; - опытные данные. Его свойства и формула аналогичны свойствам и формуле простой линейной регрессии. Если B = 1, то между Y и , , существует линейная функциональная зависимость; если же B = 0, то линейная зависимость отсутствует.

При пошаговом построении уравнения регрессии важно отметить изменение множест­венного коэффициента детерминации. Если при введении новых факторов в уравнение рег­рессии множественный коэффициент детерминации увеличивается, то вводимые факторы существенны. В противном случае вводимые факторы несущественны и их можно исключить из уравнения регрессии.

Если уравнение множественной регрессии содержит только два факторных признака и то его можно представить в виде

.

Возведем в квадрат обе части данного равенства и просуммируем все отклонения. Тогда, так как

получим

.

Подставив этот результат в формулу коэффициента множественной детерминации B, приведем ее к виду

.

Итак, мы определили способы оценки тесноты связи одной переменной (Y) с совокуп­ностью переменных , включенных в анализ социально-экономических явлений. При этом следует отметить, что если переменные , коррелируют друг с другом, то на значение коэффициента парной корреляции между Y и частично сказывается влияние других переменных. Вполне возможно, что корреляция между Y и не прямая, а косвен­ная, возникающая вследствие воздействия других переменных на Y. Поэтому для определения интенсивности связи между Y и следует зафиксировать или исключить влияние других переменных . Интенсивность такой связи определяется с помощью коэффициентов частной корреляции. Исключенные переменные могут закрепляться как на средних уровнях, так и на уровнях, выбранных в соответствии с интересующими нас участками изменения переменных, между которыми определяется связь в чистой форме.

Изучим частную корреляцию в случае взаимосвязи трех переменных. Определим коэффициенты частной корреляции между переменными Y и при исключении влияния , а также частной корреляции между переменными Y и при исключении влияния :

. (2.12)

Как видно из приведенных формул, вычисление коэффициентов частной корреляции сводится к нахождению коэффициентов парной корреляции. Из формул (2.12) следует, что если (переменные и не коррелированы), то и ; если же , то . Это означает, что с уменьшением взаимосвязи между факторами и коэффициент частной корреляции по сравнению с соответствующим коэффициентом парной корреляции не убывает, причем увеличение коэффициентов частной корреляции тем сильнее, чем больше или . Кроме того, при , а при ; если же и имеют противоположные знаки, то всегда . Отметим, что коэффициент множественной корреляции также связан с частными коэффициентами корреляции по формуле

или

.

Обобщим формулы (2.12) на любое число факторных признаков. Для этого воспользуемся формулами, связывающими коэффициенты частной и парной корреляций с коэффициентами частной регрессии:

,

.

Перемножив правые и левые части приведенных формул, получим:

,

. (2.13)

Обобщая формулу (2.13), можно записать:

.

Аналогично можно обобщить и формулы (2.12):

. (2.14)

Как видно из формулы (2.14), вычисление коэффициентов частной корреляции порядка m сводится к вычислению коэффициентов частной корреляции порядка m-1. Поэтому применение формулы (2.14) предполагает знание коэффициентов парной корреляции, что позволяет вычислять коэффициенты частной корреляции, которые в свою очередь дают возможность вычислять коэффициенты частной корреляции более высокого порядка.

В множественном регрессионном анализе определяют часть из тех изменений, которые в данном явлении зависят от одного факторного признака при исключении влияния остальных факторных признаков, рассматриваемых в регрессии. Для этого используется коэффициент частной детерминации.

Остановимся на случае линейной зависимости результативного признака

Y от факторных признаков и .

Для оценки части вариации Y, объясняемой вариацией фактора при исключении влияния , определим формулы коэффициента частной детерминации по данным, из которых исключены значения фактора :

Используя формулу

и учитывая, что , получаем выражение коэффициента частной детерминации:

.

Выполнив элементарные преобразования, приведем это выражение к виду

. (2.15)

Из формулы (2.15) следует, что коэффициент частной детерминации вычисляется по коэффициентам парной детерминации. Эта формула позволяет устанавливать часть вариации, обусловленной зависимостью результативного признака Y от фактора при исключении влияния .

Укажем формулы, связывающие коэффициенты множественной и частной корреляций, регрессии и детерминации. Между коэффициентами множественной корреляции R и детерминации B существует следующее соотношение:

или

.

Такие же соотношения справедливы и для коэффициентов частной корреляции и частной детерминации. Например,

.

Коэффициент множественной детерминации равен сумме коэффициентов парной детерминации, если переменные попарно не коррелированы, т.е.

.

Кроме того, справедливо следующее соотношение между коэффициентами частной детерминации и регрессии:

.

2.6. Проверка статистической существенности (значимости) параметров множественной регрессии и показа­телей интенсивности корреляционной связи. Как отмечалось, каждый параметр корреляционно-регрессионного анализа является случайной величиной. Поэтому для ответа на вопрос, могут ли обнаруженные различия между оценками параметров корреляционно-регрессионного анализа и самими параметрами быть приписаны случайным колебаниям в выборке или они отражают существенное изменение условий взаимосвязи переменных, проводится проверка статистической значимости оценок на основе статистики.

Для проверки статистической значимости коэффициентов регрессии , выдвигаются следующие гипотезы:

- переменная не оказывает существенного влияния на зависимую переменную Y;

- переменная оказывает существенное влияние на зависимую переменную Y.

Для проверки гипотезы используется статистика

(2.16)

где дисперсия остатков; - элемент главной диагонали матрицы . Статистика (2.16) имеет t-распределение Стьюдента с степенями свободы. Если , то с вероятностью нулевая гипотеза отвергается, т.е. с вероятностью можно утверждать, что переменная оказывает значимое частное влияние на переменную Y. В противном случае, т.е. при , принимается гипотеза . Следовательно, на основе данной выборки нельзя окончательно решить, значимо ли частное влияние переменной на переменную Y.

Оценка статистической значимости парных коэффициентов корреляции проводится аналогично проверке гипотезы о статистической значимости выборочного коэффициента корреляции. Статистическая значимость коэффициентов частной корреляции проверяется также аналогичным способом, изменяется лишь число степеней свободы. Таким образом, для проверки гипотезы , состоящей в том, что различие между выборочным частным коэффициентом корреляции и частным коэффициентом корреляции генеральной совокупности незначимо, вычисляется статистика

и сравнивается с критическим значением , найденным по таблице t-распределения при уровне значимости и числе степеней свободы . Принятие или отклонение гипотезы проводится по правилу, которое описано в п. 1.8. Проверку значимости частного коэффициента корреляции можно осуществить, используя критические значения коэффициента корреляции и z-преобразование Фишера.

Оценка статистической значимости коэффициента множественной детерминации проводится с помощью статистики

,

которая имеет F-распределение с и степенями свободы. Расчетное значение статистики сравнивается с критическим значением , которое определяется по таблице F-распределения при заданном уровне значимости и степенях свободы и . Если , то вычисленный коэффициент детерминации значимо отличается от нуля. В противном случае, т.е. при , принимается нулевая гипотеза :, состоящая в том, что ни одна из переменных, включенных в уравнение регрессии, не оказывает существенного влияния на зависимую переменную.

Для оценки существенности коэффициента частной детерминации применяется статистика

,

которая имеет F-распределение с и степенями свободы. Здесь p - число переменных, исключенных при вычислении коэффициентов частной детерминации. Процедура проверки статистической значимости коэффициента частной детерминации аналогична процедуре проверки статистической значимости коэффициента множественной детерминации.

Так как между коэффициентами множественной корреляции и детерминации выполняется равенство

или ,

то о значимости коэффициента множественной корреляции судят по результату проверки значимости коэффициента множественной детерминации. Кроме того, если , то с вероятностью 0,99 можно считать R статистически значимым.

Следует отметить, что дополнительное исследование изучаемой регрессионной модели может показать, что не все переменные, введенные в модель, имеют одинаковое значение в исследуемой регрессии. Поэтому, прежде чем вынести решение об исключении переменных из анализа вследствие их незначимого влияния на зависимую переменную, проводят исследование с помощью коэффициента детерминации. Для проверки предположения о включении в регрессионную модель переменных можно применить критерий, который оценивает систематическое влияние дополнительно включенных переменных . При этом рассматриваются две регрессионные модели:

, (2.17)

(2.18)

для которых , где - число переменных модели (2.18); m - число переменных модели (2.17). В регрессии (2.17) по сравнению с (2.18) содержится дополнительно переменных . Для проверки гипотезы о том, вносят ли переменных существенную долю в объяснение вариации переменной Y, сформулируем гипотезу , состоящую в том, что , при альтернативной гипотезе :. Отметим, что влияние первых переменных не оценивается. При проверке гипотезы используется статистика

, (2.19)

имеющая F-распределение с и степенями свободы. В формуле (2.19) - коэффициент детерминации регрессии с m переменными, а - коэффициент детерминации регрессии с переменными. Разность в числителе формулы (2.19) является мерой дополнительного объяснения вариации переменной Y за счет включения переменных. Поэтому число степеней свободы числителя равно . В критерии базой сравнения служит неопределенность функции регрессии с m переменными, поэтому число степеней свободы знаменателя равно . Если , то включенные дополнительно переменные совместно не оказывают значимого влияния на переменную Y. В противном случае, при , гипотеза на уровне значимости отвергается, т.е. включенные переменные оказывают существенное влияние на вариацию переменной Y. Критическое значение находят по таблице F-распределения при заданном уровне значимости и , степенях свободы.

Важной проблемой регрессионного анализа является сравнение оценок  парамет­ров регрессии. При  этом  выделяются две проблемы:

1) сравнение коэффициентов частной регрессии и одной и той же функции регрессии;

2) сравнение оценок параметров двух функций регрессии для двух различных выборок.

Для решения первой проблемы формулируем нулевую гипотезу , состоящую в том, что , т.е. коэффициенты частной регрессии в генеральной совокупности равны. В альтернативной гипотезе предполагаем, что коэффициенты частной регрессии в генеральной совокупности значимо различаются. При этом если : , то используется двусторонняя критическая область, если же : , то используется односторонняя критическая область. При проверке нулевой гипотезы может быть использован критерий

, (2.20)

имеющий  t-распределение с степенями свободы. В формуле (2.20) , и - элементы матрицы . Решение о принятии гипотезы принимается путем сравнения с квантилем t-распределения для уровня значимости при степенях свободы. Если , то гипотеза с вероятностью отвергается, т.е. коэффициенты регрессии и статистически значимо различны. В противном случае гипотеза принимается.

Сравним оценки параметров регрессии двух функций для двух выборок объемами и . При этом предположим, что:

1) в обеих генеральных совокупностях исследуется содержательно одинаковая зависимость переменной Y от переменной X;

2) пары наблюдений и , являются результатами двух независимых выборок объемами и из генеральных совокупностей;

3) по результатам каждой выборки строится простая линейная регрессия и находится дисперсия остатков:

Для сравнения оценок параметров регрессий выдвигается нулевая гипотеза , состоящая в том, что обе выборки произведены из генеральных совокупностей в среднем с одинаковой зависимостью переменной Y от переменной X: . Альтернативная гипотеза заключается в том, что выборки произведены из генеральных совокупностей с разной зависимостью переменной X: .

Проверка гипотезы разбивается на ряд этапов. На первом этапе выдвигается гипотеза , состоящая в том, что дисперсии остатков в обеих генеральных совокупностях равны, т.е. , против альтернативной гипотезы : . Проверка гипотезы осуществляется с помощью статистики

,

имеющей F – распределение при заданном уровне значимости и , степенях свободы. При этом в числителе стоит большая дисперсия. Если , то гипотеза принимается. В противном случае, т.е. при , гипотеза отклоняется на уровне значимости . Если принимается , т.е. дисперсии остатков обеих генеральных совокупностей равны, то вычисляется сводная оценка дисперсии остатков для обеих регрессий:

. (2.21)

На втором этапе, после принятия гипотезы о равенстве дисперсий, выдвигается гипотеза , состоящая в том, что коэффициенты регрессии равны: , против альтернативной гипотезы: : . Проверка гипотезы осуществляется с помощью статистики

, (2.22)

имеющей t-распределение с степенями свободы. Подставив в статистику (2.22) оценки дисперсий коэффициентов регрессий и оценку дисперсии остатков (2.21), получим

.

Из таблицы t-распределения для заданного уровня значимости и числа степеней свободы определяем критическое значение . Тогда, если , то гипотеза принимается. Следовательно, различие между коэффициентами регрессии несущественно, т.е. регрессионные прямые параллельны. Уравнения регрессии могут различаться не угловыми коэффициентами, а своими постоянными и . В противном случае, т.е. при , гипотеза отвергается. С вероятностью можно утверждать, что регрессионные прямые не параллельны.

Если принимается гипотеза , то вычисляется свободная оценка коэффициента регрессии по формуле

. (2.23)

Если принимаются гипотезы о равенстве дисперсий остатков и коэффициентов регрессий, то оценивается расхождение свободных членов в двух сравниваемых уравнениях регрессии. Для этого выдвигается нулевая гипотеза , состоящая в том, что свободные члены , против альтернативной гипотезы : . Проверку нулевой гипотезы осуществляем с помощью статистики

, (2.24)

имеющей t-распределение с степенями свободы. В статистике (2.24) - сводная оценка коэффициента регрессии (2.23), - оценка углового коэффициента для двух уравнений регрессии, полученная по формуле

в предположении равенства как коэффициентов регрессии, так и свободных членов. Индекс в обозначениях средних соответствует номеру выборки. В формуле (2.24) стандартное отклонение

,

где определяется по формуле (2.21). Определив квантиль для уровня значимости при степенях свободы, сравним его с , найденным по формуле (3.24). Если , то постоянные регрессии существенно отличаются друг от друга на уровне значимости . В этом случае прямые регрессии не идентичны, так как имеется статистически значимое расхождение постоянных. Если же , то обе регрессионные прямые считаются идентичными, а имеющиеся различия между ними можно объяснить лишь случайными колебаниями выборочных данных.

Таким образом, если на всех трех этапах принимаются нулевые гипотезы, то полученная форма усредненной зависимости может быть принята для обеих генеральных совокупностей.

Проверку гипотезы о совпадении уравнений регрессии для отдельных групп наблюдений (выборок) можно осуществить также при помощи теста Чоу, который состоит в следующем.

Пусть для двух выборок объемами и построены два уравнения регрессии

.

Проверим гипотезу , состоящую в том, что соответствующие коэффициенты регрессии равны: . Обозначим и дисперсии остатков для первого и второго уравнений регрессии. Пусть для объединенной выборки объема построено еще одно уравнение регрессии, для которого дисперсия остатков равна . Для проверки гипотезы применяется статистика:

,

подчиняющаяся распределению с числом степеней свободы . Тогда если , то принимается гипотеза . Это означает, что уравнения регрессии для обеих выборок практически одинаковы. Если же , то нулевая гипотеза отклоняется, что свидетельствует о различии уравнений регрессии с вероятностью .

2.7. Проверка выполнимости предпосылок МНК. Статистика Дарбина – Уотсона. Статистическая значимость коэффициентов регрессии и близкое значение коэффициента детерминации к единице не гарантируют высокое качество уравнения регрессии, поскольку могут нарушаться предпосылки МНК (п. 1.4). Нарушение необходимых предпосылок влияет на точность оценок коэффициентов регрессии, увеличивая их стандартные ошибки, и обычно свидетельствует о неверной спецификации самого уравнения.

При построении линейного уравнения регрессии, мы предполагаем, что реальная взаимосвязь факторных признаков с результативным признаком является линейной, отклонения от линии регрессии являются случайными, независимыми друг от друга величинами с нулевым математическим ожиданием и постоянной дисперсией. Если эти предположения не выполняются, то оценки коэффициентов регрессии не обладают свойствами несмещенности, эффективности и состоятельности, и анализ их значимости будет не точным. Указанные предположения могут не выполняться вследствие нелинейности изучаемой зависимости или при наличии существенного неучтенного фактора в модели. Поэтому на начальном этапе проверяется, как правило, выполнимость статистической независимости оценок отклонений , между собой. Для этого проверяется коррелированность соседних отклонений и , используя коэффициент автокорреляции первого порядка:

, (2.25)

где математическое ожидание . На практике для анализа коррелированности отклонений вычисляют статистику Дарбина - Уотсона:

, (2.26)

которая связана с коэффициентом автокорреляции равенством . Можно показать, что необходимым условием независимости случайных отклонений является близость к двойке статистики Дарбина – Уотсона: . В этом случае считается, что отклонения от регрессии являются случайными и что построенная линейная регрессия, вероятно, отражает реальную зависимость. Для ответа на вопрос, какие значения можно считать близкими к двум, разработаны таблицы критических значений статистики Дарбина – Уотсона. В таблице, по данному числу наблюдений , количеству факторов и заданному уровню значимости , определяются два числа: - нижняя граница и - верхняя граница, которые устанавливают границы приемлемости расчетной статистики .

Если < , то существует положительная автокорреляция остатков;

> 4 , то существует отрицательная автокорреляция остатков;

< < 4 , то автокорреляция остатков отсутствует;

< < или 4 , то гипотеза об отсутствии автокорреляции не может быть ни принята, ни отклонена.

При наличии автокорреляция остатков уравнение регрессии считается неудовлетворительным.

Заметим, что если выполняется неравенство 1,5 < , то можно приближенно считать, что автокорреляция остатков отсутствует.

2.8. Оценка адекватности многофакторной регрессионной модели. После оценки надежности всех параметров уравнения множественной регрессии и статистической независимости отклонений важной является оценка адекватности уравнения регрессии в целом. Ее проводят с помощью методики, изложенной в п. 1.9. По значению коэффициента корреляции R также можно судить об адекватности уравнения регрессии изучаемому экономическому процессу. При следует считать модель полностью неадекватной; при R = 1 уравнение регрессии в общем и целом воспроизводит свойства исследуемого экономического процесса.

По коэффициенту множественной корреляции можно судить, достаточно ли выбранные переменные , обусловливают количественную вариацию зависимой переменной, так как

,

а коэффициент детерминации устанавливает долю дисперсии, которая обусловлена воздействием изменений объясняющих переменных.

Перечислим показатели, характеризующие качество регрессионных моделей.

  1. Средний квадрат ошибок регрессионной модели

=.

Выбор формы модели обычно производится именно по этому показателю. Он должен быть минимальным.

  1. Коэффициент аппроксимации МАРЕ. Он характеризует адекватность модели реальному распределению значений анализируемого показателя:

.

Если МАРЕ < 10 %, модель имеет высокую точность, если 10 % < МАРЕ < 20 %, модель имеет хорошую точность (допустимую). При 20 % < МАРЕ < 50 % точность модели удовлетворительная. Использование такой модели на практике спорно. Если МАРЕ > 50 %, то точность модели неудовлетворительная и ее использование в анализе недопустимо.

  1. F-критерий Фишера. Он характеризует соотношение квадратов значений результативного признака и квадратов ошибки модели:

,

где ; m - число оцениваемых параметров; n - число наблюдений. Критерий сравнивается с при и степенях свободы. Если , то адекватность модели в целом подтверждается. В анализе F-критерий Фишера используется довольно часто. Оценки, полученные на его основе, как правило, достаточно надежны.

2.9. Построение многофакторной регрессионной модели. В качестве объекта анализа были исследованы четыре предприятия легкой (швейной) промышленности Гродненской области. Исходные данные взяты из статистического сборника, из раздела “Основные показатели работы промышленности Гродненской области по данным годовых отчетов за 1990 г.”, а также из отчетностей по форме Iс (годовая) за январь - декабрь 1990 г., отчетности предприятия (объединения) по труду. Данные внесены в табл. 2.1.

Т а б л и ц а 2.1

Номер пред-прия-

тия

Среднегодовая выработка продукции предприятия на 1 одного

работающего ,

тыс. р.

Фондоотдача , тыс. р.

Фондо-

вооружённость

, тыс. р.

1

2

3

4

31,2

28,2

24,6

9,4

6,69

11,54

6,33

3,77

4,66

2,44

3,88

2,51

Задача состоит в нахождении аналитического выражения, наилучшим образом отражающего связь факторных признаков (фондоотдачи и фондовооруженности ) с результативным (производительностью труда Y), т.е. в нахождении функции . Решение  этой задачи позволяет раскрыть  механизм  управления изучаемым показателем.

Эмпирическое обоснование типа функции с помощью графического анализа парных связей в случае однофакторных моделей практически непригодно для многофакторной модели. Выбор типа функции может опираться на теоретическое обоснование изучаемого явления.

Анализ табл. 2.20 позволяет сделать вывод, что между изучаемыми показателями существует линейная зависимость вида

.

Параметры и этой функции регрессии найдем из системы нормальных уравнений

решив которую, получим: . Тогда уравнение множественной регрессии, выражающее зависимость производительности труда Y от фондоотдачи   и фондовооруженности , будет иметь вид

.

На основании уравнения множественной регрессии был сделан следующий вывод: при увеличении уровня фондоотдачи и фондовооруженности производства на одну единицу производительность труда в среднем возрастает соответственно на 2,49 и 6,74 тыс. р.

Парные коэффициенты корреляции равны:

.

Достаточно высокие значения коэффициентов корреляции и свидетельствуют о заметной корреляционной связи фондоотдачи и фондовооруженности с производительностью труда. Между факторами и корреляционная связь обратная.

Частные коэффициенты корреляции, которые являются мерой тесноты линейной корреляционной зависимости между случайными величинами Y и при исключении или фиксировании случайной величины либо Y и при исключении или фиксировании случайной величины , равны:

.

Анализ значений частных и парных коэффициентов регрессии показывает, что наибольшее влияние на результативный признак Y - производительность труда - оказывает фактор - фондовооруженность.

В связи с тем, что надежность коэффициентов корреляции зависит от объема выборки, а объем выборки в нашем примере весьма мал, и так как построение модели носит иллюстративный характер, процедуру проверки существенности статистических характеристик рассмотрим в следующем примере.

Для выявления тесноты связи результативного показателя с обоими факторами одновременно вычислим коэффициент множественной корреляции:

.

Значение коэффициента множественной корреляции свидетельствует о весьма тесной корреляционной зависимости фактора Y и факторов и . Его средня квадратичная ошибка незначительна:

.

Так как , с веротностью 0,99 можно считать R существенным.

Совокупный коэффициент множественной детерминации . Он показывает, что вариация производительности труда на 95,6 % обусловливается двумя выделенными факторами и лишь 4,4 % общей дисперсии не может быть объяснено этой зависимостью. Значит, выбранные факторы существенно влияют на показатель производительности труда, а уравнение регрессии статистически значимо, его подбор выполнен хорошо. Таким образом, изученная с помощью многофакторного корреляционного анализа статистическая связь между исследуемыми показателями свидетельствует о целесообразности  построения двухфакторной регрессионной модели.

Вычислим далее частные коэффициенты эластичности и -коэффициенты.

Коэффициент эластичности показывает, насколько изменяется результативный признак (в процентах) при изменении факторного признака на 1 %:

,

где - коэффициент регрессии при k-м факторе; - среднее значение k-го фактора; - среднее значение изучаемого показателя. Находим:

Анализ частных коэффициентов эластичности показывает, что по абсолютному приросту наибольшее влияние на производительность труда оказывает фактор - фондовооруженность. Увеличение фондовооруженности на 1 % дает прирост производительности труда на 97 %. Увеличение фондоотдачи на 1 % приводит к повышению производительности труда на 75,5 %.

Бета-коэффициент отражает скорость изменения среднего значения функции Y по каждому из факторов при постоянном значении остальных.

Вычислим - коэффициенты по формуле

,

где , - средние квадратичные отклонения величин ,, Y;

Анализ -коэффициентов показывает, что на производительность труда наибольшее влияние из двух исследуемых факторов с учетом уровня их колеблемости способен оказать фактор - фондоотдача, так как ему соответствует наибольшее (по абсолютной величине) значение -коэффициента.

Таким образом, на основании частных коэффициентов эластичности и -коэффициентов можно судить о резервах предприятия, которые заложены в том или ином факторе.

Средняя абсолютная процентная ошибка аппроксимации

свидетельствует о том, что построенное уравнение множественной регрессии адекватно исследуемому влиянию отобранных факторов , на Y .

Адекватность модели изучаемому экономическому процессу подтверждают и значения коэффициентов множественной корреляции и детерминации .

Определим общую дисперсию остаточную дисперсию и - дисперсию вследствие регрессии:

Вычислим критерий дисперсионного анализа:

.

Из таблицы F-распределения Фишера с степенями свободы для заданного уровня значимости находим критическое значение . Так как , то с веротностью P = 0,95 гипотеза о нелинейности уравнения регрессии отвергается. Тем самым подтверждается адекватность уравнения регрессии исследуемому экономическому процессу.

Сложность и взаимное переплетение отдельных факторов, обусловливающих исследуемое экономическое явление, может проявляться в линейной связи между всеми или некоторыми объясняющими переменными. Это явление носит название мультиколлинеарность. Под мультиколлинеарностью понимается наличие в уравнении регрессии более одной связи между объясняющими переменными (факторами). Причина заключается в том, что вариации в исходных данных перестают быть независимыми и поэтому невозможно выделить воздействие каждой объясняющей переменной в отдельности на зависимую переменную. Функциональная форма мультиколлинеарности возникает, когда по крайней мере одна из объясняющих переменных связана с другими объясняющими переменными линейным функциональным соотношением. Линейный коэффициент корреляции между этими двумя переменными в таком случае равен +1 или -1.

Исследуем, существует ли коллинеарность между и . Для проверки  этого  факта рассмотрим коэффициент корреляции и оценим его значимость с помощью t-статистики:

.

Критическое значение, определенное по таблице распределения Стьюдента при заданном уровне значимости и степенях свободы, (двусторонняя критическая область). Так как , то между переменными отсутствует значимая корреляционная связь. Кроме того, коэффициент парной корреляции значительно меньше 0,8.

Проверку существования мультиколлинеарности проведем еще с помощью метода Фаррара - Глаубера. Для этого вычислим значение статистики:

.

Критическое значение для доверительной вероятности 0,95 и степеней свободы . Так как , то считаем, что мультиколлинеарность между объясняющими переменными на уровне значимости отсутствует.

Итак, построенное уравнение регрессии адекватно отражает зависимость производительности труда от фондоотдачи и фондовооруженности.

Так как коэффициенты регрессии и положительны, повышения производительности труда Y можно добиться, увеличив показатели и. При этом следует учитывать, что на эффективность производства оказывает влияние не только производительность труда, но и другие факторы