Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
kira_shpory.doc
Скачиваний:
177
Добавлен:
17.03.2015
Размер:
9.12 Mб
Скачать

16. Мультиколлениарность

При изучении множественной линейной регрессии часто сталкива­ются с наличием линейной связи между всеми или некоторыми объяс­няющими переменными. Это явление называется мультиколлинеар­ностью. На наш взгляд, впервые на проблему мультиколлинеарности обратил внимание Р. Фриш. Мультиколлинеарность между объясня­ющими переменными вызывает технические трудности, связанные с уменьшением точности оценивания или даже с невозможностью оцен­ки влияния тех или иных переменных. Причина заключается в том, что вариации в исходных данных перестают быть независимыми и поэтому невозможно выделить воздействие каждой объясняющей переменной в отдельности на зависимую переменную. Продемонстрируем это на про­стом примере.

Пусть исследуется зависимость себестоимости от объема производст­ва и введенных в действие основных фондов. Следует ожидать, что объ­ем производства зависит также от основных фондов. Если мы обе пере­менные выберем в качестве объясняющих, то, очевидно, коэффициенты регрессии не будут точно отражать зависимость себестоимости от обоих факторов, так как основные фонды оказывают дополнительное влияние на себестоимость через объем производства.

Каковы последствия мультиколлинеарности в регрессионном и кор­реляционном анализе? Прежде чем ответить на этот вопрос, рассмотрим формы ее возникновения. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) форме. Функцио­нальная форма мультиколлинеарности возникает, когда по крайней мере одна из объясняющих переменных связана с другими объясняю­щими переменными линейным функциональным соотношением. Линей­ный коэффициент корреляции между этими двумя переменными в та­ком случае равен + 1 или -1.

Пусть следует построить уравнение регрессии в виде . При этом известно, что переменные х2 и х1 связаны линейным соотношением . В этом случае можно показать, что опреде­литель матрицы (X' X) равен нулю, т.е. ранг матрицы X меньше т+1, и матрица (Х'Х) вырожденная. Это приводит к нарушению предпосылки и к тому, что система нормальных уравнений не имеет однозначного решения, если по крайней мере одна из объясняющих переменных может быть представлена в виде линейной комбинации остальных.

Однако на практике функциональная форма мультиколлинеарности встречается довольно редко. Значительно чаще мультиколлинеар­ность проявляется в стохастической форме. Она имеет место, когда по крайней мере между двумя объясняющими переменными существует более или менее сильная корреляция. Система нормальных уравнений тогда хотя и имеет решение (так как определитель матрицы Х'Х отли­чен от нуля и матрица Х'Х невырожденная), но обнаруживаются не­обычайно большие стандартные ошибки. Под стохастической формой мультиколлинеарности может скрываться функциональная из-за на­кладывающихся на нее ошибок наблюдения, измерения или специфика­ции модели, когда нелинейная регрессия рассматривается как линей­ная или учитываются не все переменные. Чем сильнее корреляция меж­ду объясняющими переменными, тем меньше определитель матрицы Х'Х. Это приводит к серьезному понижению точности оценки парамет­ров регрессии, искажению оценок дисперсии остатков, дисперсии коэф­фициентов регрессии и ковариации между ними. В этом случае говорят, что стандартная ошибка «взрывается». Следствием падения точности является ненадежность коэффициентов регрессии и отчасти неприемле­мость их использования для интерпретации как меры воздействия соот­ветствующей объясняющей переменной на зависимую переменную. Оценки коэффициентов становятся очень чувствительны к выборочным наблюдениям. Небольшое увеличение объема выборки может привести к очень сильным сдвигам в значениях оценок. Кроме того, стандарт­ные ошибки входят в формулы критериев значимости. Поэтому приме­нение самих критериев становится также ненадежным. Из сказанного ясно, что исследователь должен пытаться установить стохастическую мультиколлинеарность и по возможности устранить ее.

Причина возникновения мультиколлинеарности в экономических явлениях — многообразие объективно существующих соотношений между объясняющими переменными. Это касается регрессии, постро­енной как на результатах одновременных обследований, так и по дан­ным, полученным из временных рядов. В общем случае во временных рядах имеют дело с трендом, который, во-первых, не требует обязатель­ной для регрессии независимости отдельных наблюдений, а во-вторых, в определенной степени автоматически приводит к регрессии с другими объясняющими переменными, если они обладают такой же тенденцией. Кроме того, следует отметить, что для тех переменных, которые нахо­дятся в объективной связи, ошибка прогноза при мультиколлинеарно­сти объясняющих переменных в общем относительно мала, если на время упреждения не изменяются все прочие условия.

Теперь перейдем к вопросам установления функциональной и сто­хастической мультиколлинеарности. Функциональную мультиколли­неарность установить легко, так как получающаяся система нормаль­ных уравнений не имеет однозначного решения. Стохастическую фор­му мультиколлинеарности мы можем обнаружить с помощью следую­щих показателей.

Для измерения стохастической мультиколлинеарности можно использовать коэффициент множественной детерминации. В разделе 4.6 мы показали, что при отсутствии корреляции между объясняющими переменными, т. е. при отсутствии мультиколлинеарности, коэффици­ент множественной детерминации равен сумме соответствующих коэф­фициентов парной детерминации:

(1.1)

где у — зависимая переменная, a xk — объясняющая, k = 1, .., т. При наличии мультиколлинеарности соотношение (9.1) не соблюдается. Поэтому в качестве меры мультиколлинеарности можно предложить разность M1:

(1.2)

Чем меньше эта разность, тем меньше мультиколлинеарность.

Другой показатель разработан А. Е. Хорлом *, он основан на использовании для измерения мультиколлинеарности числителя фор­мулы коэффициента множественной детерминации. В предположении множественной регрессии числитель коэффициента детерминации можно представить следующим образом:

является числителем формулы коэффициента парной корреляции между переменными Xj и хк. При отсутствии коллинеарности между этими переменными он равен нулю. Поэтому в качестве общего показателя мультиколлинеарности можно использовать разность М2:

(1.5)

Если значение M2 мало, то считаем, что мультиколлинеарность тоже незначительна.

В качестве показателя мультиколлинеарности можно также вос­пользоваться выражением (9.2), разделив его на Ву.12...m:

(1.6)

Чем больше M3, тем интенсивнее мультиколлинеарность.

Известен также показатель мультиколлинеарности, являющий­ся производным от (1.5). Разделив правую и левую части выражения (1.5) на , получим

(1.7)

Величина М4 заключена в границах . Чем больше M4 приближается к 1, тем сильнее мультиколлинеарность. Показатели M1, М2, М3 и М4 являются весьма приближенными. Их недостаток заключается в том, что неизвестны их распределения и поэтому нельзя установить их критические значения. Кроме того, с помощью этих по­казателей нельзя определить, какие из переменных «ответственны» за мультиколлинеарность. Теперь рассмотрим методы исключения или уменьшения мультиколлинеарности. Часто довольно трудно решить, какие из набора линейно связанных объясняющих переменных исклю­чить, а какие наиболее полно раскрывают природу и физическую сущ­ность явления и поэтому должны быть учтены в корреляционном и рег­рессионном анализе. В области экономики эти вопросы должны ре­шаться прежде всего исходя из логически-профессиональных сообра­жений. Итак, разработаны следующие методы уменьшения мультикол­линеарности:

а) Исключение переменных

б) Линейное преобразование переменных

в) Исключение тренда

г) Использование предварительной информации

д) Пошаговая регрессия

е) Метод главных компонент

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]