Компьютерный практикум по статистике
.pdfВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
|
Множественный R |
0,86043 |
|
|
|
|
|
R-квадрат |
0,74034 |
|
|
|
|
|
Нормированный |
0,71212 |
|
|
|
|
|
R-квадрат |
|
|
|
|
|
|
Стандартная ошибка |
4,38278 |
|
|
|
|
|
Наблюдения |
52 |
|
|
|
|
|
|
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
|
|
|
df |
SS |
MS |
F |
Значимость F |
|
Регрессия |
5 |
2519,3760 |
503,87520 |
26,23148 |
1,99E–12 |
|
Остаток |
46 |
883,6045 |
19,20879 |
|
|
|
Итого |
51 |
3402,9810 |
|
|
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
|
|
ошибка |
|
|
|
|
Y-пересечение |
62,29155 |
7,31952 |
8,51034 |
5,29E-11 |
47,55813 |
77,02498 |
x(1) |
–3,374930 |
1,86564 |
–1,80899 |
0,07699 |
–7,13027 |
0,38041 |
x(2) |
0,000375 |
0,00013 |
2,87452 |
0,00611 |
0,00011 |
0,00064 |
x(3) |
0,000215 |
0,00070 |
0,30707 |
0,76018 |
–0,00119 |
0,00162 |
x(4) |
0,087983 |
0,05802 |
1,51644 |
0,13625 |
–0,02880 |
0,20477 |
x(5) |
0,192832 |
0,31039 |
0,62125 |
0,53750 |
–0,43195 |
0,81762 |
|
|
|
|
|
|
|
ВЫВОД ОСТАТКА |
|
|
|
|
|
|
|
|
|
|
|
|
|
Наблюдение |
Предсказанное Y |
Остатки |
|
|
|
|
1 |
73,88634 |
0,11366 |
|
|
|
|
2 |
75,16983 |
–2,16983 |
|
|
|
|
3 |
66,33689 |
1,66311 |
|
|
|
|
4 |
56,50543 |
–3,50543 |
|
|
|
|
5 |
69,61122 |
–3,61122 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рис. 3.5.5. Результаты работы программы «Регрессия»
В таблице «Регрессионная статистика» (рис. 3.5.5) приведены:
∙оценка коэффициента множественной линейной детерминации
ˆ |
|
(1) |
|
(2) |
|
(m) |
) = 0,74 |
2 |
(Y | x |
, x |
,…, x |
||||
R |
|
|
|
(R-квадрат) — судя по наблюдениям, 74% вариации продолжительности
жизни мужчины обусловлено линейным влиянием на нее среднего числа детей в семье, величины ВВП на душу населения, плотности населения, процента грамотных и рождаемости;
∙оценка коэффициента множественной линейной корреляции
ˆ |
(1) |
, X |
(2) |
,…, X |
(m) |
) = 0,86 |
R(Y | X |
|
|
|
(Множественный R) — такова, судя по наблюдениям, степень линейной зависимости Y от X(1), X (2), … , X(m);
∙оценка нормированного коэффициента линейной детерминации
Rɶ2(Y | x(1), x(2),…, x(m)) = 0,71,
(Нормированный R-квадрат) — в отличие от коэффициента ˆ2 , который
R
при включении в имеющуюся линейную регрессионную модель дополнительного регрессора всегда увеличивается, нормированный коэф-
61
фициент детерминации Rɶ2 может и увеличиваться, и уменьшаться; чем больше Rɶ2 , тем более адекватно уравнение регрессии,
·стандартная ошибка регрессии sELR = 4,38 (стандартная ошибка).
Студенту рекомендуется самостоятельно привести формулы расчета
всех показателей, приведенных в таблице «Регрессионная статистика» 4. а) В таблице «Дисперсионный анализ» (в результатах работы про-
граммы «Регрессия» на рис. 3.5.5) в столбце «df» приводятся количества степеней свободы m = 5, n – m = 46, n – 1 = 51 соответственно случайных величин
n |
ˆ |
|
2 |
n |
ˆ |
|
2 |
n |
|
2 |
|
|
|
|
|
- Yi |
) , SSитог |
=∑(Yi - Y) , |
|||||
SSрегр =∑(Yi |
- Y) , |
SSост =∑(Yi |
|||||||||
i=1 |
|
|
|
|
i=1 |
|
|
|
i=1 |
|
|
значения которых, равные соответственно 2519,38, 883,60 и 3402,98, приводятся в столбце «SS»; а в столбце «MS» приведены значения величин
MSрегр = SSрегр / m, MSост = SSост / (n – m – 1),
равные соответственно 503,88 и 19,21. Нетрудно убедиться в том, что
|
|
ˆˆ |
|
|
ˆ |
( |
ˆ) |
|
|
||||||
|
|
2 |
2 |
, а SSост |
|
2 |
1- R |
2 |
|
. |
|
||||
|
SSрегр = nsYR |
= nsY |
|
|
|
||||||||||
Проверка гипотезы H0: a1 = a2 = ××× = am = 0 производится на основе ана- |
|||||||||||||||
лиза статистики |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
SSрегр /m |
|
|
|
|
ˆ |
|
|
|
|||
|
MSрегр |
|
|
|
|
|
|
|
|
2 |
/m |
|
|||
F − − = |
= |
|
|
= |
|
|
R |
, |
|||||||
|
|
|
|
|
|
|
ˆ |
|
|
|
|
||||
m; n m 1 |
MSост |
|
SSост /(n - m -1) |
|
|
|
2 |
)/(n - m -1) |
|
||||||
|
|
|
(1- R |
|
имеющей (в предположении справедливости H0) распределение Фишера — Снедекора с m и (n – m – 1) степенями свободы. В данном случае наблюдаемое значение статистики F5; 46 равно 26,23, что больше критической точ-
ки f0,05; 5; 46 = 2,4, поэтому гипотеза H0 отвергается на 5%-ном уровне значимости [для расчета критической точки fα; m; n−m−1 в Microsoft Excel можно вос-
пользоваться функцией fα; k1;k2 = FРАСПОБР(<a>; <k1>; <k2>)].
Гипотезу H0 можно проверить и так: если значимость F (рассчитанный уровень значимости гипотезы H0) оказывается больше принятого уровня значимости a (в данном случае a = 0,05), то гипотезу H0 принимают (и гово-
рят, что уравнение регрессии статистически незначимо, не адекватно), а если значимость F оказывается меньше a, гипотезу H0 отвергают (уравнение значимо, адекватно). Для данной модели значимость F равна 2×10–13 — урав-
нение значимо.
Наблюдаемое значение статистики Fα; m; n−m−1 и рассчитанный уровень
значимости гипотезы H0 приводятся в таблице «Дисперсионный анализ»
(столбцы «F» и «Значимость F»).
б) Проверим теперь гипотезы H0(j) : aj =0 при альтернативах
H1(j) : aj ¹0, j= 1, 2, 3, 4, 5 .
В выделенной таблице (в результатах работы программы «Регрессия» — рис. 3.5.5) в столбце «t-статистика» приводятся значения статистики
62
T(j) |
=ˆa /s |
, которая при выполнении гипотезы H(j) |
имеет распределе- |
|
n−m−1 |
j |
ˆaj |
0 |
|
ние Стьюдента с (n – m – 1) степенью свободы. Область отклонения гипоте-
зы H(j) |
|
(на уровне значимости α) такова: |
T(j) |
> t |
α; n−m−1 |
. |
|
|
|
|
|||||||
|
0 |
|
|
|
|
|
|
n−m−1 |
|
|
|
|
|
|
|||
|
В задаче значение статистики T(1) |
равно –1,81, статистики T(2) |
— 2,87, |
||||||||||||||
|
|
|
|
|
|
46 |
|
|
|
|
|
|
|
|
46 |
|
|
статистики T(3) |
— 0,31, статистики T(4) |
— 1,52, статистики T(5) |
— 0,62. Так |
||||||||||||||
|
|
|
|
46 |
|
46 |
|
|
|
|
|
|
|
46 |
|
|
|
как критическая точка t |
= 2,0, то только гипотеза H(2) : a =0 отвергается |
||||||||||||||||
|
|
|
|
|
0,05; 46 |
|
|
|
|
|
|
0 |
|
2 |
|
|
|
(оценка |
ˆa параметра a |
значима), |
а гипотезы |
|
H(1) : a =0, H(3) : a =0, |
||||||||||||
|
|
|
|
2 |
2 |
|
|
|
|
|
|
|
0 |
1 |
0 |
3 |
|
H(4) |
: a |
4 |
=0, H(5) |
: a =0 не отвергаются (оценки ˆˆˆˆa , a , a , a |
параметров a , a , |
||||||||||||
0 |
|
|
0 |
5 |
|
|
|
1 |
3 |
4 |
|
5 |
|
|
1 |
3 |
a4, a5 незначимы).
В той же таблице в столбце «P-значение» приводятся рассчитанные уровни значимости гипотез H0(j) — это вероятности pj = 2P{Tn(−j)m−1 >|t(j) |}
(гипотезу H0(j) отвергают при альтернативе H1(j) , если pj < α).
Так как p1 = 0,076, p2 = 0,006, p3 = 0,760, p4 = 0,136, p5 = 0,538, то только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(3) :a3 =0, H0(4) : a4 =0 , H0(5) : a5 =0 не отвергаются.
Эти же гипотезы можно проверить при помощи интервальных оценок параметров уравнения регрессии. Все в той же таблице в столбцах «Нижние 95%» и «Верхние 95%» приводятся нижние и верхние границы интервальных оценок
параметров a1, a2, a3, a4, a5.
Поскольку только в интервал (0,0001; 0,0006) не попадает нуль, то только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(3) : a3 =0, H0(4) : a4 =0, H0(5) : a5 =0 не отвергаются.
Результаты, полученные в п. 4 и далее в п. 5, систематизированы в табл. 3.5.2. (Студент должен приложить к работе распечатки результатов всех расчетов, полученных с помощью компьютерных программ.)
5. Таким образом, в построенном уравнении регрессии большинство коэффициентов оказались незначимы, и такое уравнение нельзя считать приемлемым.
∙Исключим из уравнения регрессор x(3), при котором коэффициент не-
значим, а соответствующая этому коэффициенту абсолютная величи-
на значения статистики T46(3) , равного 0,31, является наименьшей (рас-
считанный уровень значимости p3 = 0,760 является наибольшим).
Оценка линейной функции регрессии будет такой:
ˆy |
=ˆa +ˆa x(1) |
+ˆa x(2) |
+ˆa x(4) |
+ˆa x(5) |
= |
x |
0 1 |
1 |
1 |
1 |
|
= 62,93 − 3,52x(1) + 0,000383x(2) + 0,082x(4) + 0,206x(5) .
стандартная ошибка sELR = 4,34, средняя относительная ошибка аппроксимации δ ≈ 4,6%, оценка коэффициента множественной линейной
корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.
63
64
|
|
|
|
|
|
|
|
|
|
Т а б л и ц а 3.5.2 |
|
Шаг |
Уравнение, интервальные оценки коэффициентов, |
|
2 |
ɶ |
2 |
s |
|
δ |
F |
f |
|
|
ˆ |
|
ELR |
||||||||
|
наблюдаемые значения статистики T, P-значения |
R |
|
R |
|
|
|
|
0,05; m; n−m−1 |
||
|
|
|
|
|
|
|
|
|
|
|
|
ˆy |
= |
62,29 − 3,37x(1) + 0,000375x(2) + 0,000215x(3) + 0,088x(4) + 0,193x(5) |
|
|
|
|
|
|
||||||
1 |
x |
|
(47,56;77,02) (−7,13;0,38) (0,000112;0,000637) (−0,001193;0,001623) |
(−0,029;0,205) |
(−0,432;0,818) |
0,74 |
0,71 |
4,38 |
4,5% |
26,23 |
2,417 |
||||
|
|
||||||||||||||
|
(t0,05; 46 =2,013) |
|
|
−1,81 |
2,87 |
0,31 |
1,51 |
0,62 |
|
|
|
|
|
|
|
|
|
|
|
|
0,076 |
0,006 |
0,760 |
0,136 |
0,538 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
ˆy |
= |
62,92 − 3,52x(1) + 0,000383x(2) + 0,082x(4) + 0,206x(5) |
|
|
|
|
|
|
|
|||||
2 |
|
x |
|
(48,95;76,91) |
(−7,11;0,078) |
(0,000128;0,000638) |
(−0,026;0,191) |
(−0,407;0,818) |
|
0,74 |
0,72 |
4,34 |
4,6% |
33,41 |
2,570 |
|
|
|
|
||||||||||||
|
(t0,05; 47 |
=2,011) |
|
|
−1,97 |
3,02 |
1,51 |
0,676 |
|
|
|
|
|
|
|
|
|
|
|
|
0,055 |
0,004 |
0,136 |
0,502 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
ˆy |
= |
64,88 − 2,42x(1) |
+ 0,000328x(2) + 0,079x(4) |
|
|
|
|
|
|
|
|
|||
3 |
|
x |
|
(52,24;77,52) |
(−3,86; −0,96) |
(0,000133; 0,000524) |
(−0,029;0,187) |
|
|
0,74 |
0,72 |
4,32 |
4,6% |
44,90 |
2,798 |
|
|
|
|
|
|||||||||||
|
(t0,05; 48 |
=2,011) |
|
|
−3,35 |
3,38 |
1,47 |
|
|
|
|
|
|
|
|
|
|
|
|
|
0,002 |
0,001 |
0,146 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
ˆy |
= |
73,68 − 3,22x(1) |
+ 0,000349x(2) |
|
|
|
|
|
|
|
|
|
||
4 |
|
x |
|
(69,59;77,77) |
(−4,18; −2,27) |
(0,000153;0,000544) |
|
|
|
0,73 |
0,71 |
4,37 |
4,8% |
64,70 |
3,187 |
|
|
|
|
|
|
||||||||||
|
(t0,05; 49 |
=2,009) |
|
|
−6,77 |
3,58 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,000000015 |
0,00079 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
-коэффици оценки »),intervals Confidence дисперсионные и детерминации ентов .»)fit Model(« таблицы |
вывести нужно программы работы Regression(« модели параметров оценки -доверитель их »),Estimates Coefficients: Coefficients: Regression(« интервалы ные |
меню »…Linear | Regression« меню пункт -необхо окне появившемся В .»Statistics« признак результативный указать димо признаки факторные »),Dependent(« алгоритм выбрать и »)Independent(s)(« регрессоров исключения пошагового -вызывае окне, В .»)Backward Method:(« -не »,…Statistics« кнопки нажатием мом результатах в что указать, обходимо |
исходные ввести нужно этого Для .SPSS выбрать и SPSS лист рабочий в данные |
.табл получения Для .Замечание -над »Регрессия« программы вместо 2.5.3 пакета »данных Анализ« стройки воспользоваться можно Excel Microsoft пакета »Regression Linear« программой |
Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.
Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не
отвергаются.
·Теперь исключим из уравнения регрессор x(5), при котором коэффици-
ент незначим, а соответствующая этому коэффициенту абсолютная величина значения статистики T46(3) , равного 0,68, является наимень-
шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-
шим). Оценка линейной функции регрессии будет такой:
ˆ ˆ ˆ (1) |
ˆ (2) |
ˆ (4) |
= 64,88 - 2,42x |
(1) |
+ 0,000328x |
(2) |
+ 0,079x |
(4) |
, |
yx = a0 + a1x |
+ a1x |
+ a1x |
|
|
|
стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной
корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.
Гипотеза H0 о том, что все параметры при регрессорах одновре-
менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня значимости a = 0,05.
|
Так как p = 0,002, |
p = 0,001, |
p = 0,146, гипотезы |
H(1) |
: a =0, |
|
|
1 |
2 |
|
4 |
0 |
1 |
H(2) |
: a =0 отвергаются, а гипотеза H(4) |
: a =0 не отвергается. |
|
|
||
0 |
2 |
|
0 |
4 |
|
|
Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.
Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не
отвергаются.
·Теперь исключим из уравнения регрессор x(5), при котором коэффици-
ент незначим, а соответствующая этому коэффициенту абсолютная величина значения статистики T46(3) , равного 0,68, является наимень-
шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-
шим). Оценка линейной функции регрессии будет такой:
ˆ ˆ ˆ (1) |
ˆ (2) |
ˆ |
(4) |
= 64,88 - 2,42x |
(1) |
+ 0,000328x |
(2) |
+ 0,079x |
(4) |
, |
|
yx = a0 + a1x |
+ a1x |
+ a1x |
|
|
|
|
|||||
стандартная ошибка sELR = 4,32, |
средняя относительная ошибка ап- |
проксимации d » 4,6%, оценка коэффициента множественной линейной
корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.
65
Гипотеза H0 о том, что все параметры при регрессорах одновре-
менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня зна-
чимости a = 0,05. |
|
|
|
: a =0, |
|
|
Так как p = 0,002, |
p = 0,001, |
p = 0,146, гипотезы |
H(1) |
|
|
1 |
2 |
4 |
0 |
1 |
H(2) |
: a =0 отвергаются, а гипотеза H(4) : a =0 не отвергается. |
|
|
||
0 |
2 |
0 |
4 |
|
|
Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.
Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не
отвергаются.
·Теперь исключим из уравнения регрессор x(5), при котором коэффици-
ент незначим, а соответствующая этому коэффициенту абсолютная величина значения статистики T46(3) , равного 0,68, является наимень-
шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-
шим). Оценка линейной функции регрессии будет такой:
ˆ ˆ ˆ (1) |
ˆ (2) |
ˆ (4) |
= 64,88 - 2,42x |
(1) |
+ 0,000328x |
(2) |
+ 0,079x |
(4) |
, |
yx = a0 + a1x |
+ a1x |
+ a1x |
|
|
|
стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной
корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.
Гипотеза H0 о том, что все параметры при регрессорах одновре-
менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня значимости a = 0,05.
|
Так как p = 0,002, |
p = 0,001, |
p = 0,146, гипотезы |
H(1) |
: a =0, |
|
|
1 |
2 |
|
4 |
0 |
1 |
H(2) |
: a =0 отвергаются, а гипотеза H(4) |
: a =0 не отвергается. |
|
|
||
0 |
2 |
|
0 |
4 |
|
|
Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.
Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не
отвергаются.
·Теперь исключим из уравнения регрессор x(5), при котором коэффици-
ент незначим, а соответствующая этому коэффициенту абсолютная величина значения статистики T46(3) , равного 0,68, является наимень-
шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-
шим). Оценка линейной функции регрессии будет такой:
ˆ ˆ ˆ (1) |
ˆ (2) |
ˆ (4) |
= 64,88 - 2,42x |
(1) |
+ 0,000328x |
(2) |
+ 0,079x |
(4) |
, |
yx = a0 + a1x |
+ a1x |
+ a1x |
|
|
|
66
стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной
корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.
Гипотеза H0 о том, что все параметры при регрессорах одновре-
менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня зна-
чимости a = 0,05. |
|
|
|
: a =0, |
|
|
Так как p = 0,002, |
p = 0,001, |
p = 0,146, гипотезы |
H(1) |
|
|
1 |
2 |
4 |
0 |
1 |
H(2) |
: a =0 отвергаются, а гипотеза H(4) : a =0 не отвергается. |
|
|
||
0 |
2 |
0 |
4 |
|
|
Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.
Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не
отвергаются.
·Теперь исключим из уравнения регрессор x(5), при котором коэффици-
ент незначим, а соответствующая этому коэффициенту абсолютная
величина значения статистики T46(3) , равного 0,68, является наимень-
шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-
шим). Оценка линейной функции регрессии будет такой:
ˆ ˆ ˆ (1) |
ˆ (2) |
ˆ (4) |
= 64,88 - 2,42x |
(1) |
+ 0,000328x |
(2) |
+ 0,079x |
(4) |
, |
yx = a0 + a1x |
+ a1x |
+ a1x |
|
|
|
стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной
корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.
Гипотеза H0 о том, что все параметры при регрессорах одновре-
менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня значимости a = 0,05.
|
Так |
как p = 0,002, |
p = 0,001, |
p = 0,146, гипотезы |
H(1) |
: a =0, |
|
|
1 |
2 |
4 |
0 |
1 |
H(2) |
: a =0 |
отвергаются, а гипотеза H(4) : a =0 не отвергается. |
|
|
||
0 |
2 |
|
0 |
4 |
|
|
Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.
Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не
отвергаются.
·Теперь исключим из уравнения регрессор x(5), при котором коэффици-
ент незначим, а соответствующая этому коэффициенту абсолютная
67
величина значения статистики T46(3) , равного 0,68, является наимень-
шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-
шим). Оценка линейной функции регрессии будет такой:
ˆ ˆ ˆ (1) |
ˆ (2) |
ˆ (4) |
= 64,88 - 2,42x |
(1) |
+ 0,000328x |
(2) |
+ 0,079x |
(4) |
, |
yx = a0 + a1x |
+ a1x |
+ a1x |
|
|
|
стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной
корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.
Гипотеза H0 о том, что все параметры при регрессорах одновре-
менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня значимости a = 0,05.
Так как p = 0,002, |
p = 0,001, |
p = 0,146, гипотезы |
H(1) |
: a =0, |
1 |
2 |
4 |
0 |
1 |
H0(2) : a2 =0 отвергаются, а гипотеза H0(4) : a4 =0 не отвергается.
·Исключим регрессор x(4), при котором коэффициент незначим, оценка
линейной функции регрессии будет такой:
ˆ ˆ ˆ (1) |
ˆ |
(2) |
= 73,68 - 3,22x |
(1) |
+ 0,000349x |
(2) |
. |
|
yx = a0 + a1x |
+ a1x |
|
|
|
||||
стандартная ошибка sELR = 4,37, |
средняя относительная ошибка ап- |
проксимации d » 4,8%, оценка коэффициента множественной линейной
корреляции равна 0,85, оценка коэффициента множественной линейной детерминации равна 0,73, оценка нормированного коэффициента множественной линейной детерминации равна 0,71.
Гипотеза H0 о том, что все параметры при регрессорах одновре-
менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 1,8×10–14) оказалась меньше принятого уровня значимости a = 0,05.
Так как p1 = 1,5×10–8, p2 = 7,9×10–4, гипотезы H0(1) : a1=0, H0(2) : a2 =0 от-
вергаются.
Замечание. Для получения табл. 3.5.2 вместо программы «Регрессия» надстройки «Анализ данных» пакета Microsoft Excel можно воспользоваться программой «Linear Regression» пакета SPSS. Для этого нужно ввести исходные данные в рабочий лист SPSS и выбрать пункт меню «Regression | Linear…» меню «Statistics». В появившемся окне необходимо указать результативный признак Y («Dependent»), факторные признаки x(1), x(2), x(3), x(4), x(5) («Independent(s)») и выбрать алгоритм пошагового исключения регрессоров («Method: Backward»). В окне, вызываемом нажатием кнопки «Statistics…», необходимо указать, что в результатах работы программы нужно вывести оценки параметров модели («Regression Coefficients: Estimates»), их доверительные интервалы («Regression Coefficients: Confidence intervals»), оценки коэффициентов детерминации и дисперсионные таблицы («Model fit»).
6. Наилучшим уравнением является полученное на четвертом шаге (см. табл. 3.5.2), поскольку и само уравнение, и все его коэффициенты значимы. Обратим внимание на то, что в это уравнение оказались включены факторы X(1) и X(2), линейная связь между которыми, судя по наблюдениям, невелика: ˆ| r(X(1); X(2)) |= 0,576. Судя по этому уравнению:
68
а) более 70% дисперсии продолжительности жизни мужчины (Y) связано с линейным влиянием среднего числа детей в семье x(1) и ВВП на
|
(2) |
ˆ |
= 0,73 ); |
душу населения x |
|
(так как R |
б) рассчитанное по уравнению число ˆyi — это точечная оценка гене-
рального среднего значения продолжительности жизни мужчины при условии, что значения факторных признаков (среднего числа детей в семье x(1) и ВВП на душу населения x(2)) зафиксированы на каких-то уровнях, а именно
x(1) = xi(1), x(2) = x(2)i . Например, точечная оценка генерального среднего зна-
чения продолжительности жизни мужчины при значениях регрессоров на первом объекте (в Австралии) равна
ˆy = 73,68 - 3,22×1,9 + 0,000349×16 848 = 73,43,
1
а реальная продолжительность жизни мужчины в Австралии равна y1 = 74,
остаток y −ˆy = 0,57. В тех странах, в которых остатки y |
i |
−ˆy |
положитель- |
1 1 |
i |
|
ны, продолжительность жизни мужчины выше среднего уровня, а в тех странах, где остатки отрицательны — ниже среднего уровня. Так, например,
в Австралии y −ˆy = 0,57 |
, а в Австрии y −ˆy = −2,25. |
||
1 |
1 |
2 |
2 |
Студенту предлагается самостоятельно построить 95%-ную интервальную оценку генеральной средней продолжительности жизни мужчины при
x(1) = x1(1), x(2) = x1(2) ;
в) увеличение среднего числа детей в семье x(1) на единицу [при не-
изменном значении x(2)] сопровождается наибольшим изменением средней
продолжительности жизни мужчины (уменьшением на 3,22 года); увеличение x(1) на единицу сопровождается и наибольшим максимально возможным
с 95%-ной вероятностью изменением результативного признака (уменьшением средней продолжительности жизни мужчины на 4,18 года), так как 95%-ные интервальные оценки параметров a1 и a2 таковы: (–4,18; –2,27) и
(0,000153; 0,000544);
г) анализ коэффициентов эластичности
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ˆx(1) |
|
2,83 |
|
ˆx(2) |
|
8421,9 |
|
|||||||
ЭY|x(1) |
= a1 |
|
|
|
= -3.22× |
|
= -0,135, ЭY|x(2) |
= a2 |
|
|
|
= 0,000349× |
|
= 0,044 |
|
|
|
|
67,48 |
|
|
|
67,48 |
||||||||
y |
y |
||||||||||||||
|
|
|
|
|
|
|
показывает, что увеличение среднего числа детей в семье x(1) на 1% (при неизменном значении x(2) сопровождается наибольшим процентным измене-
нием средней продолжительности жизни мужчины — ее уменьшением на 0,135%; увеличение среднего числа детей x(1) на 1% сопровождается и наи-
большим максимально возможным с 95%-ной вероятностью процентному изменением средней продолжительности жизни мужчины — ее уменьшением на -4,18× 67,482,83 = 0,175%.
69
3.6. К о м п о н е н т н ы й и ф а к т о р н ы й а н а л и з
1. В м о д е л и к о м п о н е н т н о г о а н а л и з а предполагается, что каждый признак X(j) (j = 1, 2, 3, 4, 5) формируется как линейная комбинация т а к о г о ж е ч и с л а латентных факторов — компонент F(1), F(2), F(3), F(4), F(5), влиянием которых объясняется суммарная дисперсия признаков
X(1), X(2), X(3), X(4), X(5):
X(j) = a |
F(1) |
+ a |
j2 |
F(2) |
+ a |
j3 |
F(3) |
+ a |
j4 |
F(4) |
+ a |
j5 |
F(5) |
; i = 1, 2,…,52; j = 1, 2, 3, 4,5. |
i |
j1 i |
|
i |
|
i |
|
i |
|
i |
|
К компонентам F(1), F(2), F(3), F(4), F(5) предъявляются следующие требования:
∙они должны быть некоррелированы между собой;
∙они должны выделяться таким образом, чтобы влиянием первой компоненты объяснялось максимальная доля суммарной дисперсии всех признаков, влиянием второй компоненты — максимальная доля оставшейся суммарной дисперсии и т. д.
Для реализации компонентного анализа воспользуемся пакетом PASW
Statistics. Откроем в окне ввода данных PASW Statistics сохраненную при выполнении п. 1 работы 5 матрицу значений признаков Y, X(1), X(2), X(3), X(4), X(5).
Обратимся (с помощью выбора пункта «Снижение размерности | Факторный анализ…» меню «Анализ») к программе «Факторный анализ»
для компонентного анализа признаков X(1), X(2), X(3), X(4), X(5) (рис. 3.6.1, а), выберем в окне «Факторный анализ: Выделение факторов», вызываемом нажатием кнопки «Извлечение…», метод главных компонент и зададим фиксированное число факторов, равное пяти (рис. 3.6.1, б).
Поскольку исходные признаки разнородны по содержательному смыслу и имеют разные единицы измерения, компонентный анализ будем проводить с использованием матрицы корреляций (а не ковариаций) матрицы; укажем это в окне «Факторный анализ: Выделение факторов» (см. рис. 3.6.1, б).
Установим флажок «Сохранить как переменные» в окне «Факторный анализ: Значения факторов», вызываемом нажатием кнопки «Значения факторов…» — тогда значения пяти компонент на 52 объектах автоматически
добавятся в виде переменных к исходным данным; установим также флажок «Вывести матрицу значений коэффициентов факторов», который позво-
ляет получить в результате работы программы матрицу нагрузок компонент на исходные признаки (рис. 3.6.1, в).
2. а) Обратимся к числовым результатам работы программы (рис. 3.6.2). На основе анализа таблицы «Полная объясненная дисперсия»
можно сделать вывод о том, что вклад первой компоненты в суммарную дисперсию признаков X(1), X(2), X(3), X(4), X(5) составляет 65,23%, второй компо-
ненты — 20,49%, третьей — 10,21%, и т. д., при этом общий вклад первых двух компонент в суммарную дисперсию равен 85,72%. График зависимости доли суммарной дисперсии исходных признаков, объясненной первыми k компонентами, от k представлен на рис. 3.6.3.
70