- •Глава 2. Модели множественной регрессии
- •2.1. Постановка задачи и основные понятия
- •2.2. Множественный корреляционный анализ
- •2.3. Классическая линейная множественная регрессия
- •Пример 2.1.
- •2.4. Показатели качества уравнения множественной регрессии
- •2.5. Прогнозирование на основе регрессии
- •2.6. Нелинейные модели множественной регрессии
- •2.7. Проблема гетероскедастичности
- •2.8. Проблема автокорреляции
- •2.9. Обобщенный метод наименьших квадратов
- •2.10. Проблема мультиколлинеарности
- •Пример 2.4.
- •2.11. Фиктивные переменные в регрессионных моделях
- •Контрольные задания
Пример 2.4.
Изучается полезность y потребления двух видов товаров, объемы которых обозначим x1 и x2. В результате исследований были получены следующие данные:
x1 |
17,1 |
18,65 |
17,09 |
19,28 |
23,24 |
28,11 |
30,29 |
x2 |
3,96 |
5,48 |
4,37 |
4,51 |
4,88 |
6,37 |
8,96 |
y |
62,8 |
65,0 |
63,9 |
67,5 |
71,3 |
76,6 |
86,3 |
При построении соответствующей линейной регрессионной модели у по х1 и х2 с использованием функции ЛИНЕЙН получим следующие результаты:
1,782159 |
1,023863 |
38,18631 |
0,851268 |
0,271572 |
2,93344 |
0,973546 |
1,685543 |
#Н/Д |
73,60372 |
4 |
#Н/Д |
418,2244 |
11,36422 |
#Н/Д |
Таким образом, оцененное уравнение регрессии имеет вид:
Одновременно анализируя матрицу парных корреляций между переменными,
|
y |
x1 |
x3 |
y |
1 |
|
|
x1 |
0,97188 |
1 |
|
x2 |
0,93784 |
0,88262 |
1 |
можно заметить, что коэффициент корреляции между переменными x1 и x2 достаточно велик. Это свидетельствует о наличии мультиколлинеарности модели.
Последствием мультиколлинеарности (и очередным подтверждением ее наличия) является то, что коэффициент регрессионного уравнения оказывается незначимым. Для него значение , а критическое значение критерия Стьюдента для соответствующего числа степеней свободы и уровня значимости =0,05 равно 2,77. При =0,01 незначимым оказывается и коэффициент .
После исключения переменной x2 из уравнения все коэффициенты ( и ) будут значимыми. Помимо упомянутых недостатков перехода к упрощенному регрессионному уравнению происходит также снижение общего качества модели (значение R2 уменьшается от 0,97 до 0,94).
2.11. Фиктивные переменные в регрессионных моделях
В регрессионных моделях в качестве объясняющих переменных часто приходится использовать не только количественные, но и качественные переменные. Например, спрос на некоторый товар может определяться ценой данного товара, ценой на заменители данного товара, ценой дополняющих товаров, доходом потребителей и т. д. (эти показатели определяются количественно). Но спрос может также зависеть от вкусов потребителей, их ожиданий, национальных и религиозных особенностей и т.д. Эти показатели представить в численном виде нельзя. Возникает проблема отражения в модели влияния таких переменных на исследуемую величину.
Часто в моделях влияние качественного фактора выражается в виде фиктивной (искусственной переменной), которая отражает два противоположных состояния качественного фактора. Например, "фактор действует" - "фактор не действует", "курс валюты фиксированный" - "курс валюты плавающий", "сезон летний" - "сезон зимний" и т. д. В этом случае фиктивная переменная может выражаться в двоичной форме:
Переменная Ф называется фиктивной (искусственной, двоичной, «манекеном») переменной.
Таким образом, кроме моделей содержащих только количественные объясняющие переменные (обозначаемые х), в регрессионном анализе рассматриваются также модели, содержащие и качественные переменные (обозначаемые Ф).
Рассматриваются несколько типов моделей, содержащих качественные переменные.
1) ANOVA - модели (модели дисперсионного анализа).
Так называются регрессионные модели, содержащие лишь качественные объясняющие переменные. Например, пусть исследуется зависимость уровня заработной платы (у) от уровня образования. Вводится фиктивная переменная:
Тогда зависимость можно выразить моделью парной регрессии:
Коэффициент а0 определяет среднюю заработную плату при отсутствии высшего образования. Коэффициент указывает, на какую величину отличаются средние заработные платы при наличии и при отсутствии высшего образования у претендентов. Проверяя статистическую значимость коэффициента с помощью t-статистики, можно определить влияет или нет наличие высшего образования на начальную заработную плату.
ANOVA-модели в экономике крайне редки. Гораздо чаще встречаются модели, содержащие как качественные, так и количественные признаки.
2) ANCOVA-модели (модели ковариационного анализа).
Здесь объясняющие переменные, входящие в модель, носят как качественный, так и количественный характер.
а) простейшие ANCOVA-модели содержат фиктивную переменную с двумя альтернативами. Например, пусть у- заработная плата сотрудника фирмы, х - стаж сотрудника, Ф - пол сотрудника. Фиктивная переменная имеет вид:
Тогда ожидаемое значение заработной платы сотрудников при х - годах трудового стажа будет:
.
При этом отдельно для мужчин имеем уравнение:
,
а для женщин - уравнение:
.
б) модели ANCOVA при наличии у качественных переменных более двух альтернатив.
В данном случае имеет место следующее общее правило:
Если качественная переменная имеет k альтернативных значений, то при моделировании используются только (k-1)-фиктивных переменных.
Рассмотрим пример. Пусть исследуется зависимость стоимости квартиры от жилой площади и этажа, на котором расположена квартира. При этом "этажность" подразделяется на три альтернативы: первый этаж дома - последний этаж дома - средний этаж. Введем в рассмотрение две фиктивные переменные:
переменная х определяет жилую площадь, у - стоимость квартиры.
Тогда модель будет выглядеть следующим образом:
.
Далее определяются оценки параметров регрессии , , , .
Если построенная модель окажется качественной, то образуются следующие зависимости стоимости квартиры от ее жилой площади:
- оценка стоимости квартир, расположенных на первых этажах домов,
- оценка стоимости квартир, расположенных на последних этажах домов,
- оценка стоимости квартир, расположенных на средних этажах домов.