Ovsyannikova_M_M_Ekonometrika
.pdfРис. 43
Рис. 44
41
Рис. 45
8.2. Сделаем проверку по тесту Бреуша.
Откроем новый лист, назовем его АВТОКОР БРЕУШ. Скопируем с листа ЛИНЕЙНАЯ данные по переменной х и у.
Построим столбцы уˆ и еt , et −1 . С помощью метода МНК (таблица 5 х 2) построим регрессию между столбцами еt , et −1 . Т.е. в запрашиваемый диапазон переменной у введем значения столбца еt, а в запрашиваемый диапазон переменной х введем данные столбца et −1 . Причем вводим, начиная
только со второго значения (рис. 46).
Уравнение et = ρet −1 + vt для теста Бреуша по нашим вычислениям выглядит следующим образом: et = −0, 28et −1 + 0,41 . Проверим значимость коэффициента ρ.
Для этого составим статистический критерий: tтабл = 2,23.
Так как tфакт < tтабл, то коэффициент ρ незначим, и, следовательно, между рядами еt , et −1 нет
связи, т.е. автокорреляция отсутствует. Этот результат совпал с тестом Дарбина– Уостона. Аналогично можно проверить по тесту Бреуша показательную, степенную и гиперболические
функции. Также по этому тесту можно проверять автокорреляцию более высоких порядков.
42
Рис. 46
43
Раздел 5 МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ (МРА)
Методические указания
Множественная регрессия – уравнение связи |
с |
несколькими независимыми переменными: |
y = f (x1, x2 , ..., xk ) , где у – зависимая переменная; x1 |
, |
x2 , ..., xk – независимые переменные. |
Для построения уравнения множественной регрессии чаще используются следующие функции: а) линейная y = α + β1x1 + β2 x2 + ... + βn xn + ε ;
б) степенная y = α x1β1 × x2β2 ×...× xnβn ×ε ; в) показательная y = aβ1x1 +...+βn xn +ε .
Можно использовать и другие функции, приводимые к линейному виду.
Для оценки параметров уравнения множественной регрессии применяют уже известный нам метод МНК. Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:
|
∑ y = na + b1∑ x1 + b2 ∑ x2 + ... + bk ∑ xk |
|
∑ yx1 = a∑ x1 + b1∑ x12 + b2 ∑ x1x2 + + bk ∑ x1xk |
|
...................................................................................
∑ yxk = a∑ xk + b1∑ x1xk + b2 ∑ x2 xk + ... + bk ∑ xk 2
Эта система из n + 1 уравнений с n + 1 неизвестными. Для ее решения может быть применен метод определителей (Крамера):
|
|
|
а = |
Da |
, b = |
Db1 |
, b = |
Db2 |
, …, |
b = |
Dbk |
, |
|||
|
|
|
|
D |
D |
|
|||||||||
|
|
|
|
D |
1 |
2 |
|
k |
D |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
n |
∑ x1 |
∑ x2 |
... |
∑ xk |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
||||||||
|
∑ x1 |
∑ x1x1 |
∑ x2 x1 |
... |
∑ xk x1 |
|
|
|
|
|
|
|
|
||
где D = |
∑ x2 |
∑ x1x2 |
∑ x2 x2 |
... |
∑ xk x2 |
|
; |
|
|
|
|
|
|||
|
...... ......... ......... ... .......... |
|
|
|
|
|
|
|
|
||||||
|
∑ xk |
∑ x1xk |
∑ x2 xk |
... |
∑ xk xk |
|
|
|
|
|
|
|
|
Da, Db1, ..., Dbn - частные определители, которые получаются путем замены соответствующего
столбца матрицы системы данными левой части системы.
В частности, для двух объясняющих переменных х1 и х2 оценки a, b1, b2 находят по формулам:
a = |
|
|
- b1 |
x1 - b2 |
|
2 |
||
y |
x |
|||||||
|
|
|
Cov(xi , y) ×Var(x j ) - Cov(x j , y) ×Cov(x1, x2 ) |
|||||
|
= |
|
||||||
bi |
|
|
|
|
|
|
|
|
|
|
|
|
Var(x1) ×Var(x2 ) - Cov2 (x1, x2 ) |
||||
|
|
|
|
|
|
где если i = 1, тогда j = 2 , и наоборот.
Или найти оценки коэффициентов уравнения регрессии можно с помощью матричной алгебры, для этого вводят следующие обозначения:
Y = ( y1, y2 ,...yn )Т – матрица-столбец n× 1 значений зависимой переменной в n наблюдениях;
1 |
x11 |
x21 |
... |
xk1 |
|
|
|
1 |
x12 |
x22 |
... |
xk 2 |
|
|
|
Х = |
1 |
x |
x |
... |
x |
|
– матрица n× (k + 1) значений объясняющих переменных; |
|
|
13 |
23 |
|
k 3 |
|
|
... ... ... |
... |
... |
|
|
|||
|
1 |
x1n |
x2n |
... |
|
|
|
|
xkn |
|
44
α |
|
|
|
||
|
β |
|
– |
матрица-столбец (k + 1) × 1 параметров; |
|
β = |
|
1 |
|||
.. |
|
|
|
||
|
βk |
|
|
||
ε1 |
|
|
|
||
ε |
|
|
– |
матрица-столбец (n + 1) ×1 остатков. |
|
ε = |
|
2 |
|
||
.. |
|
|
|
||
εn |
|
|
|
Тогда в матричной форме эконометрическая модель задачи множественной регрессии примет
вид: Y = X β + ε , |
а оценкой этой модели будет уравнение: |
Y = XB + E , где В = (a, b1, b2, …, bk)T, |
||||||
E = (e1, e2, …, en), и матрицу В находят из следующего равенства: В = (XTX)–1 XTY. |
||||||||
Стандартные ошибки коэффициентов bi находят по формулам: |
|
|||||||
|
|
c.o.(b ) = |
|
ET E |
× ( X T X )−1 |
, |
||
|
|
|
|
|||||
|
|
i |
n - k -1 |
|
i+1,i+1 |
|
||
где [( X T X )−1 ] |
|
|
|
|
||||
– |
диагональный элемент аii матрицы (ХТХ)–1 . |
|
|
|||||
|
i,i |
|
|
|
|
|
|
|
Для оценки статистической значимости коэффициентов регрессии рассчитываются t– критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их зна-
чений с величиной случайной ошибки: tфакт (bi ) = |
bi |
|
|
|
, tфакт |
(a) = |
|
a |
|
|
. |
|
|
|
||||||||||||||
c.o.(bi ) |
|
c.o.(a) |
|
|
|
|
||||||||||||||||||||||
|
Если tфакт > tтабл, то гипотеза Н0 о случайной природе оцениваемых параметров отклоняется, и |
|||||||||||||||||||||||||||
признается их статистическая значимость, и наоборот. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
Для расчета доверительного интервала определяем предельную ошибку |
для каждого показа- |
||||||||||||||||||||||||||
теля: D |
a |
= t |
табл |
×с.о.(а) , D |
b |
= t |
табл |
× с.о.(b ) . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
γ a = a ± Da , |
γ b |
Формулы для |
расчета |
доверительных |
интервалов имеют следующий |
вид: |
|||||||||||||||||||||||
= bi ± Db . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
i |
|
i |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Прогнозное |
значение |
yp |
определяется |
путем |
|
|
|
подстановки в |
уравнение |
регрессии |
|||||||||||||||||
ˆ |
= a + b1x1 + ... + bk xk |
соответствующего прогнозного значения Xp = (1, x1p, x2p, …, x |
T |
. Здесь второй |
||||||||||||||||||||||||
y |
kp) |
|||||||||||||||||||||||||||
индекс р означает первую букву слова «прогноз». |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
Вычисляется средняя стандартная ошибка прогноза c.o.( yˆ p ) : |
|
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
ET E |
|
T |
T |
−1 |
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
ˆ |
|
|
|
|
|
(1 + X p |
( X X ) X p ) |
|
|
|
|
||||||||
|
|
|
|
|
|
|
|
c.o.( y p ) = |
-1 |
|
|
|
|
|||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
n - k |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
истроится доверительный интервал прогноза:
γyˆ p = yˆ p ± Dˆy p ,
где Dyˆ p = tтабл ×с.о.( yˆ p ) .
Данная процедура очень трудоемка, поэтому найти оценки, а также сразу их стандартные ошибки, коэффициент детерминации и доверительные интервалы и значимость всего уравнения в целом можно с помощью ППП Excel, Mathcad. Как это сделать, рассмотрим в примерах.
На практике часто бывает необходимо сравнение влияния на зависимую переменную различных объясняющих переменных, когда последние выражаются в различных единицах. В этом случае используют стандартизированные коэффициенты регрессии и коэффициенты эластичности:
|
|
|
|
|
|
|
|
|
|
|
|
= b |
|
xi |
. |
||
Э |
|
|||||||
|
|
|
||||||
|
|
yx |
i |
|
|
|
||
|
|
y |
||||||
|
|
i |
|
|
||||
|
|
|
|
|
|
|
|
45
Тесноту совместного влияния факторов на результат оценивает коэффициент детерминации:
R2YX ...Xk |
= 1 - |
RSS |
= R2 |
= |
Var( yˆ ) |
, или R2 |
= 1- |
Var(e) |
. |
|
|
|
|||||||
1 |
|
TSS |
Var( y) |
Var( y) |
|||||
|
|
|
|
|
|
|
|
|
Значение коэффициента детерминации лежит в пределах от 0 до 1 и должно быть больше или равно максимальному парному коэффициенту корреляции: R2 yx1...xn ³ ryxi (i = 1...n).
При добавлении объясняющей переменной к уравнению регрессии коэффициент детерминации R2 никогда не уменьшается, а обычно увеличивается, поэтому вводят скорректированный коэффи-
циент детерминации |
ˆ |
2 |
, обеспечивающий компенсацию для такого автоматического сдвига вверх |
|||||
R |
|
|||||||
путем наложения «штрафа» за увеличение числа объясняющих переменных: |
||||||||
|
|
|
ˆ 2 |
|
n -1 |
2 |
|
|
|
|
|
R |
= 1- |
n - k -1 |
(1 - R |
|
) , |
где k – число объясняющих переменных.
В МРА может случиться так, что коррелирующими окажутся не только х и у, но и x1, x2 или x2 , x3 и т.д. В связи с этим возникает необходимость исследовать частную корреляцию между пере-
менными при исключении влияния одной или нескольких переменных.
Частные коэффициенты корреляции, измеряющие влияние на у фактора xi при неизменном уровне других факторов, можно определить по формуле:
|
|
|
|
|
|
|
|
|||
ryxi ×x1x2 ...xi −1xi +1...xp = |
1- |
|
1 - R2 yx x ...x ...x |
p |
|
|
||||
|
1 |
2 |
i |
|
|
, |
||||
1- R2 yx x ...x |
x |
...x |
|
|||||||
|
|
|
1 2 |
i −1 |
i +1 |
|
|
p |
где Ryx2 1x2 ...xp – коэффициент детерминации всего комплекса k факторов с результатом,
Ryx2 1x2 ...xi −1xi +1...xp – коэффициент детерминации, но без введения в модель фактора xi.
Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, ryx1×x2 – коэффициент корреляции первого порядка. Коэффициенты
частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по формуле:
r |
×x x ...x |
|
= ryxi ×x1x2 ...xp −1 |
- ryxp ×x1x2 ...xp −1 × rxi xp ×x1x2 ...xp −1 . |
||||||
yx |
p |
|
|
|
|
|
) |
|
|
|
i |
1 2 |
2 |
|
2 |
|
|
|
|||
|
|
|
|
×x1x2 ...xp −1 |
|
|
||||
|
|
|
|
(1 - ryxp |
×x1x2 ...xp −1 )×(1- rxi xp |
|
|
Или частную корреляцию можно считать по рекуррентной формуле, для которой сначала составляется корреляционная матрица:
1 |
r12 |
... |
r1 p |
|
|
|
1 |
... |
|
|
|
r21 |
r2 p |
|
|||
qp = |
|
... |
|
|
, |
.... .... |
.... |
|
|||
r |
r |
... |
1 |
|
|
p1 |
p2 |
|
|
|
|
где р = 1 + k, т.е. количество всех переменных, участвующих в задаче. Обычно за i = 1 принимают переменную у, за i = 2 переменную х1 и т.д., т. е. коэффициент корреляции r12 – это коэффициент корреляции между переменными у и х1.
Тогда частный коэффициент корреляции вычисляется так:
rij×1,2,... p\ij |
= - |
|
qij |
|
|
, |
|
|
|
|
|||
qii q jj |
|
|||||
|
|
|
|
|
|
|
где qij, qii , q jj – алгебраические дополнения элементов rij , |
rii , rjj в корреляционной матрице. |
В частности, для трех переменных (одной зависимой и двух объясняющих) имеем:
|
1 |
r12 |
r13 |
|
q |
= r |
1 |
r |
. |
3 |
21 |
|
23 |
|
|
|
r32 |
1 |
|
|
r31 |
|
46
q11 = 1 − r32r23 |
q12 = −(r21 − r31r23) |
q13 = r21r32 − r31 |
rij |
− rik rjk |
|
|
|
||
Тогда q22 |
= 1− r31r13 |
q21 = −(r12 − r13r32) |
q23 = −(r32 − r31rr12) и rij×k = |
|
|
|
. |
||
|
|
|
|
|
|||||
(1− r |
2 )(1− r |
2 ) |
|||||||
q33 |
= 1− r21r12 |
q32 = −(r23 − r21r13) |
q31 = r13 − r12r23 |
ik |
jk |
||||
|
|
|
|
|
Решение типовых задач
Задача 9. Добавив новую переменную Х2 в задачу 1 (из раздела «Парный регрессионный анализ»), которая равна среднему числу посетителей в каждом магазине в день:
1)cоставить уравнение МРА и проверить эффективность (рациональность) введения этой новой переменной, исследовав модель по таким критериям, как коэффициент детерминации, значимость уравнения, наличие гетероскедастичности;
2)посчитать прогноз (доверительный интервал) среднегодового товарооборота для нового строящегося магазина площадью 1 тыс. м2 и предполагаемым средним числом посетителей в день, равным 110 % от среднего числа посетителей остальных магазинов.
№ магазина |
Годовой товарооборот, |
Торговая площадь, |
Среднее число посетителей в |
млн. руб. (Y) |
тыс. м2 (X1) |
день, тыс. чел. (X2) |
|
1 |
19,76 |
0,24 |
8,25 |
2 |
38,09 |
0,31 |
10,24 |
3 |
40,95 |
0,55 |
9,31 |
4 |
41,08 |
0,48 |
11,01 |
5 |
56,29 |
0,78 |
8,54 |
6 |
68,51 |
0,98 |
7,51 |
7 |
75,01 |
0,94 |
12,36 |
8 |
89,05 |
1,21 |
10,81 |
9 |
91,13 |
1,29 |
9,89 |
10 |
91,26 |
1,12 |
13,72 |
11 |
99,84 |
1,29 |
12,27 |
12 |
108,55 |
1,49 |
13,92 |
Решение
Откроем новый лист и назовем его МРА (множественный регрессионный анализ). Скопируем с листа ЛИНЕЙНАЯ данные столбцов х и y. Переменную х теперь переименуем в переменную х1. Новую переменную – численность посетителей в магазине – обозначим как переменную х2 и введем ее в новый третий столбец
(рис. 47).
Для нахождения коэффициентов регрессии используем пакет анализа данных. Для этого в главном меню выбираем:
–для EXCEL 2003: Сервис→ Анализ данных→ Регрессия.
Щелкните по ОК.
–для EXCEL 2007: Данные→ Анализ данных→ Регрессия.
Щелкните по ОК В появившемся окне Регрессия (рис. 48) в строку Входной
интервал Y вводим значения столбца со значениями переменной у, в строку Входной интервал Х вводим значения столбцов Х1 и Х2 как один массив. Напротив окна Метки ставится галочка, если значения вводились с названиями переменных. Если в уравнении предполагается наличие свободного члена, то окно Константа – ноль оставляем без галочки. Если же нужно составить уравнение регрессии без свободного члена (часто такие уравнения нужны в задачах на устранение гетероскедастичности), то в данном окне
ставим галочку. Строку уровень надежности оставляем равным |
Рис. 47 |
95 %. В подокне Параметры вывода удобнее использовать Вы- |
|
47
ходной интервал, т.е. напротив этой строки ставим метку, а в саму строку вводятся данные только одной единственной ячейки, начиная с которой будут выводиться результаты. Например, ячейку А20. Также удобно будет поставить галочку напротив строки Остатки, тогда в итоговой таблице будут рассчитаны значения столбцов yˆ , e (рис. 49). Нажать ОК.
Рис. 48
Рис. 49
48
Как видим, с ячейки А20 выведена таблица Вывод итогов. Что она означает, можно вспомнить из раздела «Парный регрессионный анализ».
Итак, уравнение МРА имеет вид: yˆ = −10,82 + 61,66X1 + 2,27 X2 , R2 = 0,99 ,
ˆ 2 =
R 0,98 , Fфакт = 384,18.
Сравним полученные данные с результатами МРА. Для этого вспомним основные параметры моделей парного регрессионного анализа. Откроем лист ИТОГ и добавим в него данные по функции МРА.
Как видим, результаты сильно улучшились (вырос скорректированный коэффициент детерминации, уменьшилась сумма квадратов остатков, F- значимость выросла).
Проверим на гетероскедастичность функцию МРА. Это можно будет сделать по тесту Голдфельда– Кванта (при условии, что переменные х1 и х2 расположены в ранжированном порядке) или по тесту ранговой корреляции Спирмена (для каждой переменной в отдельности). В нашем примере переменные не ранжированы, поэтому тест Голдфельда– Кванта не подойдет.
Применим тест Спирмена для каждой переменной.
Построим новые столбцы yˆ , e, |e|, используя данные из таблицы ВЫВОД ИТОГОВ (с ячейки
А20), рис. 51.
Как видно из таблицы (рис. 51), tфакт < tтабл для каждой переменной. Следовательно, гетероскедастичность в данной модели МРА отсутствует.
Рис. 51
49
Рис. 52
Проверим наличие автокорреляции для множественной регрессии. Для этого применим тест Дарбина– Уотсона.
Откроем новый лист, назовем его АВТОКОР МРА. Скопируем в него с листа МРА данные столбцов: y, x1, x2, et. Построим новый столбец et– 1. Далее все проделаем по тесту Дарбина– Уотсона
(рис. 52).
Получим коэффициент Дарбина dфакт = 2,5.
Построим зоны для коэффициента d. Для этого по таблице Дарбина найдем границы для зон dн и dв. Эти числа будут на пересечении чисел k = 2 (так как в задаче уже две объясняющие перемен-
ные) и n = 12. Это числа dн = 0,95 и dв = 1,54.
Зона попадания d |
Наличие автокорреляции |
(0: 0,95) |
Положительная автокорреляция |
(0,95: 1,54) |
Зона неопределенности |
(1,54: 2,46) |
Отсутствие автокорреляции |
(2,46: 3,05) |
Зона неопределенности |
(3,05: 4) |
Отрицательная автокорреляция |
Наш коэффициент Дарбина попал в зону неопределенности, поэтому сказать о наличии автокорреляции по тесту Дарбина– Уотсона нельзя. Применим тест Бреуша.
Построим регрессию et = ρet −1 + vt . Для теста Бреуша по нашим вычислениям результат выглядит следующим образом: et = −0, 48et −1 + 0, 45 (рис. 53).
50