- •Отчет по статистической практике «Эконометрический анализ потребительского рынка Пермского края: импортная и отечественная составляющие»
- •Исходные данные
- •Парные коэффициенты корреляции.
- •Отразим изменения (в виде таблицы) при переходе от одной модели множественной регрессии к другой.
- •Для получившейся модели:
Парные коэффициенты корреляции.
Парный коэффициент корреляции характеризует тесноту линейной связи между случайными переменными Xi и Xj.
Свойства парного коэффициента корреляции:
Если ǀr*(xi,xj)ǀ>0,7, то наблюдается сильная линейная связь;
Если ǀr*(xi,xj)ǀ<0,3, то наблюдается слабая линейная связь;
Если ǀr*(xi,xj)ǀ=1, то данные представляют собой совокупность точек, которые можно расположить на одной прямой;
Если ǀr*(xi,xj)ǀ=0, то линейная связь отсутствует;
Если r*(xi,xj) положительный, то связь прямая; если r*(xi,xj) отрицателен, то связь обратная.
Матрица парных коэффициентов корреляции:
|
Y |
X1 |
X2 |
X3 |
X4 |
Y |
1 |
0,891782 |
0,938132 |
0,994269 |
0,982774 |
X1 |
0,891782 |
1 |
0,754656 |
0,9014 |
0,8121 |
X2 |
0,938132 |
0,754656 |
1 |
0,901898 |
0,970956 |
X3 |
0,994269 |
0,9014 |
0,901898 |
1 |
0,966341 |
X4 |
0,982774 |
0,8121 |
0,970956 |
0,966341 |
1 |
Находим определитель матрицы парных коэффициентов: ǀQǀ = 4,4E-07
Из матрицы парных коэффициентов видно, что наиболее тесная связь наблюдается между переменной Y и переменными Х1, X2, X3, и X4 то есть все показатели влияют на объем розничной торговли. Но наибольшее влияние на объем розничной торговли оказывает объем платных услуг, оказанных населению. Наименьшее – сельское хозяйство. Зависимость между переменной Y и переменными Х1, X2, X3, и X4 прямая, это означает, что с их ростом объем розничной торговли увеличивается. Увеличение объема платных услуг населению ведет к увеличению объема розничной торговли. Наибольшее влияние на объем розничной торговли оказывает объем платных услуг, оказанных населению. Наименьшее – сельское хозяйство.
Проверим парные коэффициенты корреляции на значимость:
Находим табличное значение с помощью распределения Стьюдента с (n-m) степенями свободы, (с вероятностью 95%): Ктаб = 2,306004
Находим вычисленное значение:
Квыч |
Y |
X1 |
X2 |
X3 |
X4 |
Y |
|
5,574672 |
7,662736 |
26,3041 |
15,04084 |
X1 |
5,574672 |
|
3,253195 |
5,888251 |
3,936412 |
X2 |
7,662736 |
3,253195 |
|
5,905685 |
11,47822 |
X3 |
26,3041 |
5,888251 |
5,905685 |
|
10,62424 |
X4 |
15,04084 |
3,936412 |
11,47822 |
10,62424 |
|
Если ǀКвычǀ>Ктаб, то коэффициент значим. В таблице выделены все значимые коэффициенты. Таким образом, у нас нет незначимых коэффициентов.
Множественный коэффициент корреляции. (Он изменяется в пределах от 0 до 1)
где - определитель корреляционной матрицы; - алгебраическое дополнение -го элемента.
R(Y,Y)
1 |
0,75465587 |
0,9014 |
0,8121 |
0,754656 |
1 |
0,901898 |
0,970956 |
0,9014 |
0,90189817 |
1 |
0,966341 |
0,8121 |
0,97095556 |
0,966341 |
1 |
Множественный коэффициент корреляции Ryх= 0,99. Сильная взаимосвязь.
Множественный коэффициент корреляции считается значительным, т.е. имеет место статистическая зависимость между Y и остальными факторами X, если Ктаб < Квыч
Ктаб=5,19 |
(с вероятностью 95%) находим с помощью F-критерия Фишера c (k) и (n-k-1) степенями свободы.
Квыч = R2/(1-R2)*(n-k-1)/k= 771,4
Вывод: Ктаб < Квыч => На уровне значимости 5% можно утверждать, что множественный коэффициент корреляции значим, т.е. между Y и факторами X имеет место сильная статистическая зависимость. Т.е. такие показатели как сельское хозяйство, импорт, объем платных услуг населению и оборот оптовой торговли в значительной степени оказывают влияние объем розничной торговли.
Частный коэффициент корреляции - измеряет тесноту линейной связи между отдельным фактором и результатом при устранении воздействия прочих факторов модели.
r*(Xi;Xj•X1...Xk) = -Qij/√(Qii*Qjj)
Частные коэффициенты корреляции |
Квыч |
Z(r*) |
Zнижн |
Zверх |
|
r*(Y;X1•X2,Х3,X4)= |
0,52766552 |
1,756972 |
0,586904 |
-0,3931 |
1,566904 |
r*(Y;X2•X1,Х3,X4)= |
0,58091925 |
2,018632 |
0,663849 |
-0,31615 |
1,643849 |
r*(Y;X3•X1,Х2,X4)= |
0,88611452 |
5,40775 |
1,40354 |
0,42354 |
2,38354 |
r*(Y;X4•X1,X2,Х3)= |
0,33097804 |
0,992061 |
0,343926 |
-0,63607 |
1,323926 |
Проверим частные коэффициенты корреляции на значимость:
Находим табличное значение через критерий Стьюдента:
Ктаб=t1-α[St(n-k-2)] = 2,57
Находим вычисленное значение: Квыч= r* (Xi,Xj;*) * корень(n-k-2)/ корень (1-r2 (Xi, Xj;*)
Если |Квыч|≤Ктаб, то коэффициент незначим. В таблице выделен Квыч, значение которого превышает Ктаб. Следовательно, на уровне значимости 5% можно утверждать, что коэффициент Х3 значим.
Вывод: на уровне значимости 5% наиболее тесная взаимосвязь при фиксированном воздействии другой переменной наблюдается между показателями У и X1, Х2, X4. Т.е. при фиксированном влиянии другой переменной наиболее сильное влияние на объем розничной торговли будут оказывать сельское хозяйство, импорт и оборот оптовой торговли.
Рассмотрим линейную регрессионную модель с k = 4 объясняющими переменными: Y = b0+b1*X1+b2*X2+b3*X3+b4*X4+ε, где b0, b1, b2, b3, b4 – неизвестные параметры модели, которые найдем с помощью МНК – оценок.
ВЫВОД ИТОГОВ |
|
|
|
|
|
||||||
Регрессионная статистика |
|
|
|
|
|
||||||
Множественный R |
0,999190795 |
|
|
|
|
|
|||||
R-квадрат |
0,998382245 |
|
|
|
|
|
|||||
Нормированный R-квадрат |
0,997088041 |
|
|
|
|
|
|||||
Стандартная ошибка |
4977,612654 |
|
|
|
|
|
|||||
Наблюдения |
10 |
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
4 |
76453300308 |
19113325077 |
771,4256065 |
3,68E-07 |
Остаток |
5 |
123883138,7 |
24776627,73 |
|
|
Итого |
9 |
76577183446 |
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Y-пересечение |
-24377,61787 |
11828,38224 |
-2,060942687 |
0,094320011 |
Переменная X 1 |
1,621265425 |
1,167210984 |
1,389008026 |
0,223518481 |
Переменная X 2 |
2739,574893 |
1716,66719 |
1,595868383 |
0,171405077 |
Переменная X 3 |
2,457249717 |
0,574768095 |
4,275202015 |
0,007899516 |
Переменная X 4 |
0,064385051 |
0,082093068 |
0,784293392 |
0,468377991 |
ВЫВОД ОСТАТКА |
|
|
Наблюдение |
Предсказанное Y |
Остатки |
1 |
42580,47771 |
-2120,777708 |
2 |
55935,11646 |
-1710,216459 |
3 |
68321,46709 |
-177,4670943 |
4 |
80929,75978 |
2866,34022 |
5 |
99853,50963 |
1295,790365 |
6 |
134036,7088 |
-3800,408765 |
7 |
177692,8814 |
337,7185727 |
8 |
211948,4888 |
8458,211173 |
9 |
278940,457 |
-680,0570151 |
10 |
294665,0333 |
-4469,133289 |
Построим уравнение регрессии:
Y=1,621265425*X1+2739,574893*X2+2,457249717*X3+0,064385051*X4-24377,61787
Проверим регрессионную модель на значимость:
R2 = 0,998382245, то на 99,8% цены на новые автомобили описаны с помощью факторов Х1, Х2, Х3, Х4 (сельское хозяйство, импорт, оказание платных услуг населению и оборот оптовой торговли). В модели не учтены около 0,2 % факторов, которые также влияют на оборот розничной торговли.
Применяется критерий Фишера:
К выч = R2 * (n-m) / (1 - R2 )* (m-1) =771,4256065
Ктаб = Х1-α[F(m-1; n-m)] ← находим с помощью F-критерия Фишера
Ктаб=3,48 |
(на уровне значимости 95%).
Т.к. Квыч > Ктаб, то данная модель значима.
Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.
Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(5) = X0.975(5) = 2,57
Таким образом, для первого параметра |Квыч. | =1,389008026< Ктабл. Следовательно, первый параметр незначим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметры модели. В результате, еще 2 параметра будут незначимыми, а именно, Х2 и Х4. Исходя из этого исключим из модели параметр с наименьшей t-статистикой, а именно Х4 – оборот оптовой торговли
В итоге, оборот оптовой торговли не влияет на оборот розничной торговли.
Проанализируем влияние других факторов: сельское хозяйство, импорт, объем платных услуг населению.
Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметр b3 значим, а параметры b1, b2, b4 незначимы. Из модели нужно убрать один фактор b4 – оборот оптовой торговли, т.к. у него Квыч. меньше всего (т.е. объем платных услуг населению влияет на оборот розничной торговли).
Рассмотрим линейную регрессионную модель с k = 3 объясняющими переменными:
Y = b2*X2+b3*X3+b4*X4+ b0, где b0, b2, b3, b4 – неизвестные параметры модели, которые найдем с помощью МНК – оценок.
ВЫВОД ИТОГОВ |
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
|
||||||||
Множественный R |
0,999091 |
|
|
|
|
|
|
|||||||
R-квадрат |
0,998183 |
|
|
|
|
|
|
|||||||
Нормированный R-квадрат |
0,997275 |
|
|
|
|
|
|
|||||||
Стандартная ошибка |
4815,317 |
|
|
|
|
|
|
|||||||
Наблюдения |
10 |
|
|
|
|
|
|
|||||||
Дисперсионный анализ |
|
|
|
|||||||||||
|
df |
SS |
MS |
F |
Значимость F |
|||||||||
Регрессия |
3 |
7,64E+10 |
25479353268 |
1098,85076 |
1,31E-08 |
|||||||||
Остаток |
6 |
1,39E+08 |
23187273,65 |
|
|
|||||||||
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
|
|||||||||
Y-пересечение |
-30283 |
8824,891 |
-3,431540946 |
0,013944799 |
|
|||||||||
X1 |
1,081437 |
0,911933 |
1,185872542 |
0,280501372 |
|
|||||||||
X2 |
3958,087 |
706,3556 |
5,603533427 |
0,001376385 |
|
|||||||||
X3 |
2,859877 |
0,250062 |
11,43665368 |
2,68132E-05 |
|
ВЫВОД ОСТАТКА |
|
|
|
|
|
Наблюдение |
Предсказанное Y |
Остатки |
1 |
42068,51 |
-1608,81 |
2 |
55188,41 |
-963,513 |
3 |
69458,33 |
-1314,33 |
4 |
81968,85 |
1827,252 |
5 |
99705,97 |
1443,329 |
6 |
132357,6 |
-2121,34 |
7 |
179714,8 |
-1684,22 |
8 |
211108,1 |
9298,611 |
9 |
277325,1 |
935,2506 |
10 |
296008,1 |
-5812,22 |
Построим уравнение регрессии:
Y=1,081437*X1+3958,087*X2+2,859877*X3-30283
Проверим регрессионную модель на значимость:
R2 = 0,998183, то на 99,82% оборот розничной торговли описаны с помощью факторов Х1, Х2, Х3 ( сельское хозяйство, импорт, объем платных услуг населению). В модели не учтены около 0,18 % факторов, которые также влияют на оборот розничной торговли.
Применяется критерий Фишера:
К выч = R2 * (n-m) / (1 - R2 )* (m-1) = 1098,85
Ктаб = Х1-?[F(m-1; n-m)] < находим с помощью F-критерия Фишера
Ктаб= 3.708 (на уровне значимости 95%).
Т.к. Квыч > Ктаб, то данная модель значима.
Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.
Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(6) = X0.975(6) = 2,45. Таким образом, для первого параметра |Квыч. | =5,6 > Ктабл. Следовательно, второй параметр значим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметры модели. В результате, все остальные параметры модели, кроме первого, будут значимыми.
Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметры b2, b3 значимы, а параметр b1 незначим.
Рассмотрим линейную регрессионную модель с k = 2 объясняющими переменными:
Y = b2*X2+b3*X3 + b0, где b0, b2, b3– неизвестные параметры модели, которые найдем с помощью МНК – оценок.
ВЫВОД ИТОГОВ |
|
|
|
Регрессионная статистика |
|
Множественный R |
0,998878 |
R-квадрат |
0,997757 |
Нормированный R-квадрат |
0,997117 |
Стандартная ошибка |
4953,091 |
Наблюдения |
10 |
Дисперсионный анализ |
|
|
|
||
|
df |
SS |
MS |
F |
Значимость F |
Регрессия |
2 |
7,64E+10 |
3,82E+10 |
1557,191 |
5,34E-10 |
Остаток |
7 |
1,72E+08 |
24533108 |
|
|
Итого |
9 |
7,66E+10 |
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Y-пересечение |
-21191,1 |
4495,267 |
-4,7141 |
0,002172 |
X2 |
3696,912 |
690,3457 |
5,355161 |
0,001058 |
X3 |
3,090883 |
0,161281 |
19,16456 |
2,62E-07 |
ВЫВОД ОСТАТКА |
|
|
|
|
|
Наблюдение |
Предсказанное Y |
Остатки |
1 |
42521,3 |
-2061,6 |
2 |
53461,46 |
763,4434 |
3 |
70180,64 |
-2036,64 |
4 |
84189,2 |
-393,1 |
5 |
101659,7 |
-510,447 |
6 |
131248,7 |
-1012,4 |
7 |
175787,4 |
2243,166 |
8 |
210420,3 |
9986,445 |
9 |
277737,5 |
522,9039 |
10 |
297697,7 |
-7501,76 |
Y=3696,912*X2+3,090883*X3-21191,1
Проверим регрессионную модель на значимость:
R2 = 0,997757, то на 99,76% оборот розничной торговли описаны с помощью факторов Х2, Х3 (импорт, объем платных услуг населению). В модели не учтены около 0,24 % факторов, которые также влияют на оборот розничной торговли.
Применяется критерий Фишера:
К выч = R2 * (n-m) / (1 - R2 )* (m-1) = 1557,19
Ктаб = Х1-?[F(m-1; n-m)] < находим с помощью F-критерия Фишера
Ктаб=4,1 |
(на уровне значимости 95%).
Т.к. Квыч > Ктаб, то данная модель значима.
Вывод: на уровне значимости 5% можно утверждать, что данная модель значима.
Проверим на значимость параметры модели с помощью критерия Стьюдента на уровне значимости 0,05. Ктабл. = St0.95(7) = X0.975(7) = 2,36. Таким образом, для первого параметра |Квыч. | =5,4 > Ктабл. Следовательно, второй параметр значим. Аналогичным образом по имеющимся данным оцениваем оставшиеся параметр модели. В результате, все параметры модели будут значимыми.
Вывод: На уровне значимости 5% можно утверждать, что модель значима. Так же на уровне значимости 5% можно утверждать, что параметры b2, b3 значимы.