Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Компьютерный практикум по статистике

.pdf
Скачиваний:
160
Добавлен:
01.04.2015
Размер:
2.27 Mб
Скачать

ВЫВОД ИТОГОВ

 

 

 

 

 

 

 

 

 

 

 

 

 

Регрессионная статистика

 

 

 

 

 

Множественный R

0,86043

 

 

 

 

 

R-квадрат

0,74034

 

 

 

 

 

Нормированный

0,71212

 

 

 

 

 

R-квадрат

 

 

 

 

 

 

Стандартная ошибка

4,38278

 

 

 

 

 

Наблюдения

52

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

df

SS

MS

F

Значимость F

 

Регрессия

5

2519,3760

503,87520

26,23148

1,99E–12

 

Остаток

46

883,6045

19,20879

 

 

 

Итого

51

3402,9810

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициенты

Стандартная

t-статистика

P-Значение

Нижние 95%

Верхние 95%

 

 

ошибка

 

 

 

 

Y-пересечение

62,29155

7,31952

8,51034

5,29E-11

47,55813

77,02498

x(1)

–3,374930

1,86564

–1,80899

0,07699

–7,13027

0,38041

x(2)

0,000375

0,00013

2,87452

0,00611

0,00011

0,00064

x(3)

0,000215

0,00070

0,30707

0,76018

–0,00119

0,00162

x(4)

0,087983

0,05802

1,51644

0,13625

–0,02880

0,20477

x(5)

0,192832

0,31039

0,62125

0,53750

–0,43195

0,81762

 

 

 

 

 

 

 

ВЫВОД ОСТАТКА

 

 

 

 

 

 

 

 

 

 

 

 

 

Наблюдение

Предсказанное Y

Остатки

 

 

 

 

1

73,88634

0,11366

 

 

 

 

2

75,16983

–2,16983

 

 

 

 

3

66,33689

1,66311

 

 

 

 

4

56,50543

–3,50543

 

 

 

 

5

69,61122

–3,61122

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 3.5.5. Результаты работы программы «Регрессия»

В таблице «Регрессионная статистика» (рис. 3.5.5) приведены:

оценка коэффициента множественной линейной детерминации

ˆ

 

(1)

 

(2)

 

(m)

) = 0,74

2

(Y | x

, x

,…, x

R

 

 

 

(R-квадрат) — судя по наблюдениям, 74% вариации продолжительности

жизни мужчины обусловлено линейным влиянием на нее среднего числа детей в семье, величины ВВП на душу населения, плотности населения, процента грамотных и рождаемости;

оценка коэффициента множественной линейной корреляции

ˆ

(1)

, X

(2)

,…, X

(m)

) = 0,86

R(Y | X

 

 

 

(Множественный R) — такова, судя по наблюдениям, степень линейной зависимости Y от X(1), X (2), , X(m);

оценка нормированного коэффициента линейной детерминации

Rɶ2(Y | x(1), x(2),…, x(m)) = 0,71,

(Нормированный R-квадрат) — в отличие от коэффициента ˆ2 , который

R

при включении в имеющуюся линейную регрессионную модель дополнительного регрессора всегда увеличивается, нормированный коэф-

61

фициент детерминации Rɶ2 может и увеличиваться, и уменьшаться; чем больше Rɶ2 , тем более адекватно уравнение регрессии,

·стандартная ошибка регрессии sELR = 4,38 (стандартная ошибка).

Студенту рекомендуется самостоятельно привести формулы расчета

всех показателей, приведенных в таблице «Регрессионная статистика» 4. а) В таблице «Дисперсионный анализ» (в результатах работы про-

граммы «Регрессия» на рис. 3.5.5) в столбце «df» приводятся количества степеней свободы m = 5, n m = 46, n – 1 = 51 соответственно случайных величин

n

ˆ

 

2

n

ˆ

 

2

n

 

2

 

 

 

 

- Yi

) , SSитог

=(Yi - Y) ,

SSрегр =∑(Yi

- Y) ,

SSост =∑(Yi

i=1

 

 

 

 

i=1

 

 

 

i=1

 

 

значения которых, равные соответственно 2519,38, 883,60 и 3402,98, приводятся в столбце «SS»; а в столбце «MS» приведены значения величин

MSрегр = SSрегр / m, MSост = SSост / (n m – 1),

равные соответственно 503,88 и 19,21. Нетрудно убедиться в том, что

 

 

ˆˆ

 

 

ˆ

(

ˆ)

 

 

 

 

2

2

, а SSост

 

2

1- R

2

 

.

 

 

SSрегр = nsYR

= nsY

 

 

 

Проверка гипотезы H0: a1 = a2 = ××× = am = 0 производится на основе ана-

лиза статистики

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SSрегр /m

 

 

 

 

ˆ

 

 

 

 

MSрегр

 

 

 

 

 

 

 

 

2

/m

 

F − − =

=

 

 

=

 

 

R

,

 

 

 

 

 

 

 

ˆ

 

 

 

 

m; n m 1

MSост

 

SSост /(n - m -1)

 

 

 

2

)/(n - m -1)

 

 

 

 

(1- R

 

имеющей (в предположении справедливости H0) распределение Фишера — Снедекора с m и (n m – 1) степенями свободы. В данном случае наблюдаемое значение статистики F5; 46 равно 26,23, что больше критической точ-

ки f0,05; 5; 46 = 2,4, поэтому гипотеза H0 отвергается на 5%-ном уровне значимости [для расчета критической точки fα; m; nm1 в Microsoft Excel можно вос-

пользоваться функцией fα; k1;k2 = FРАСПОБР(<a>; <k1>; <k2>)].

Гипотезу H0 можно проверить и так: если значимость F (рассчитанный уровень значимости гипотезы H0) оказывается больше принятого уровня значимости a (в данном случае a = 0,05), то гипотезу H0 принимают (и гово-

рят, что уравнение регрессии статистически незначимо, не адекватно), а если значимость F оказывается меньше a, гипотезу H0 отвергают (уравнение значимо, адекватно). Для данной модели значимость F равна 2×10–13 — урав-

нение значимо.

Наблюдаемое значение статистики Fα; m; nm1 и рассчитанный уровень

значимости гипотезы H0 приводятся в таблице «Дисперсионный анализ»

(столбцы «F» и «Значимость F»).

б) Проверим теперь гипотезы H0(j) : aj =0 при альтернативах

H1(j) : aj ¹0, j= 1, 2, 3, 4, 5 .

В выделенной таблице (в результатах работы программы «Регрессия» — рис. 3.5.5) в столбце «t-статистика» приводятся значения статистики

62

T(j)

=ˆa /s

, которая при выполнении гипотезы H(j)

имеет распределе-

nm1

j

ˆaj

0

 

ние Стьюдента с (n m – 1) степенью свободы. Область отклонения гипоте-

зы H(j)

 

(на уровне значимости α) такова:

T(j)

> t

α; nm1

.

 

 

 

 

 

0

 

 

 

 

 

 

nm1

 

 

 

 

 

 

 

В задаче значение статистики T(1)

равно –1,81, статистики T(2)

— 2,87,

 

 

 

 

 

 

46

 

 

 

 

 

 

 

 

46

 

 

статистики T(3)

— 0,31, статистики T(4)

— 1,52, статистики T(5)

— 0,62. Так

 

 

 

 

46

 

46

 

 

 

 

 

 

 

46

 

 

 

как критическая точка t

= 2,0, то только гипотеза H(2) : a =0 отвергается

 

 

 

 

 

0,05; 46

 

 

 

 

 

 

0

 

2

 

 

 

(оценка

ˆa параметра a

значима),

а гипотезы

 

H(1) : a =0, H(3) : a =0,

 

 

 

 

2

2

 

 

 

 

 

 

 

0

1

0

3

 

H(4)

: a

4

=0, H(5)

: a =0 не отвергаются (оценки ˆˆˆˆa , a , a , a

параметров a , a ,

0

 

 

0

5

 

 

 

1

3

4

 

5

 

 

1

3

a4, a5 незначимы).

В той же таблице в столбце «P-значение» приводятся рассчитанные уровни значимости гипотез H0(j) — это вероятности pj = 2P{Tn(j)m1 >|t(j) |}

(гипотезу H0(j) отвергают при альтернативе H1(j) , если pj < α).

Так как p1 = 0,076, p2 = 0,006, p3 = 0,760, p4 = 0,136, p5 = 0,538, то только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(3) :a3 =0, H0(4) : a4 =0 , H0(5) : a5 =0 не отвергаются.

Эти же гипотезы можно проверить при помощи интервальных оценок параметров уравнения регрессии. Все в той же таблице в столбцах «Нижние 95%» и «Верхние 95%» приводятся нижние и верхние границы интервальных оценок

параметров a1, a2, a3, a4, a5.

Поскольку только в интервал (0,0001; 0,0006) не попадает нуль, то только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(3) : a3 =0, H0(4) : a4 =0, H0(5) : a5 =0 не отвергаются.

Результаты, полученные в п. 4 и далее в п. 5, систематизированы в табл. 3.5.2. (Студент должен приложить к работе распечатки результатов всех расчетов, полученных с помощью компьютерных программ.)

5. Таким образом, в построенном уравнении регрессии большинство коэффициентов оказались незначимы, и такое уравнение нельзя считать приемлемым.

Исключим из уравнения регрессор x(3), при котором коэффициент не-

значим, а соответствующая этому коэффициенту абсолютная величи-

на значения статистики T46(3) , равного 0,31, является наименьшей (рас-

считанный уровень значимости p3 = 0,760 является наибольшим).

Оценка линейной функции регрессии будет такой:

ˆy

=ˆa +ˆa x(1)

+ˆa x(2)

+ˆa x(4)

+ˆa x(5)

=

x

0 1

1

1

1

 

= 62,93 3,52x(1) + 0,000383x(2) + 0,082x(4) + 0,206x(5) .

стандартная ошибка sELR = 4,34, средняя относительная ошибка аппроксимации δ ≈ 4,6%, оценка коэффициента множественной линейной

корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.

63

64

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а 3.5.2

Шаг

Уравнение, интервальные оценки коэффициентов,

 

2

ɶ

2

s

 

δ

F

f

 

 

ˆ

 

ELR

 

наблюдаемые значения статистики T, P-значения

R

 

R

 

 

 

 

0,05; m; nm1

 

 

 

 

 

 

 

 

 

 

 

 

ˆy

=

62,29 3,37x(1) + 0,000375x(2) + 0,000215x(3) + 0,088x(4) + 0,193x(5)

 

 

 

 

 

 

1

x

 

(47,56;77,02) (7,13;0,38) (0,000112;0,000637) (0,001193;0,001623)

(0,029;0,205)

(0,432;0,818)

0,74

0,71

4,38

4,5%

26,23

2,417

 

 

 

(t0,05; 46 =2,013)

 

 

1,81

2,87

0,31

1,51

0,62

 

 

 

 

 

 

 

 

 

 

 

0,076

0,006

0,760

0,136

0,538

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆy

=

62,92 3,52x(1) + 0,000383x(2) + 0,082x(4) + 0,206x(5)

 

 

 

 

 

 

 

2

 

x

 

(48,95;76,91)

(7,11;0,078)

(0,000128;0,000638)

(0,026;0,191)

(0,407;0,818)

 

0,74

0,72

4,34

4,6%

33,41

2,570

 

 

 

 

 

(t0,05; 47

=2,011)

 

 

1,97

3,02

1,51

0,676

 

 

 

 

 

 

 

 

 

 

 

 

0,055

0,004

0,136

0,502

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆy

=

64,88 2,42x(1)

+ 0,000328x(2) + 0,079x(4)

 

 

 

 

 

 

 

 

3

 

x

 

(52,24;77,52)

(3,86; 0,96)

(0,000133; 0,000524)

(0,029;0,187)

 

 

0,74

0,72

4,32

4,6%

44,90

2,798

 

 

 

 

 

 

(t0,05; 48

=2,011)

 

 

3,35

3,38

1,47

 

 

 

 

 

 

 

 

 

 

 

 

 

0,002

0,001

0,146

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆy

=

73,68 3,22x(1)

+ 0,000349x(2)

 

 

 

 

 

 

 

 

 

4

 

x

 

(69,59;77,77)

(4,18; 2,27)

(0,000153;0,000544)

 

 

 

0,73

0,71

4,37

4,8%

64,70

3,187

 

 

 

 

 

 

 

(t0,05; 49

=2,009)

 

 

6,77

3,58

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,000000015

0,00079

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-коэффици оценки »),intervals Confidence дисперсионные и детерминации ентов .»)fit Model(« таблицы

вывести нужно программы работы Regression(« модели параметров оценки -доверитель их »),Estimates Coefficients: Coefficients: Regression(« интервалы ные

меню »…Linear | Regression« меню пункт -необхо окне появившемся В .»Statistics« признак результативный указать димо признаки факторные »),Dependent(« алгоритм выбрать и »)Independent(s)(« регрессоров исключения пошагового -вызывае окне, В .»)Backward Method:-не »,…Statistics« кнопки нажатием мом результатах в что указать, обходимо

исходные ввести нужно этого Для .SPSS выбрать и SPSS лист рабочий в данные

.табл получения Для .Замечание -над »Регрессия« программы вместо 2.5.3 пакета »данных Анализ« стройки воспользоваться можно Excel Microsoft пакета »Regression Linear« программой

Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

ент незначим, а соответствующая этому коэффициенту абсолютная величина значения статистики T46(3) , равного 0,68, является наимень-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)

ˆ (2)

ˆ (4)

= 64,88 - 2,42x

(1)

+ 0,000328x

(2)

+ 0,079x

(4)

,

yx = a0 + a1x

+ a1x

+ a1x

 

 

 

стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной

корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня значимости a = 0,05.

 

Так как p = 0,002,

p = 0,001,

p = 0,146, гипотезы

H(1)

: a =0,

 

1

2

 

4

0

1

H(2)

: a =0 отвергаются, а гипотеза H(4)

: a =0 не отвергается.

 

 

0

2

 

0

4

 

 

Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

ент незначим, а соответствующая этому коэффициенту абсолютная величина значения статистики T46(3) , равного 0,68, является наимень-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)

ˆ (2)

ˆ

(4)

= 64,88 - 2,42x

(1)

+ 0,000328x

(2)

+ 0,079x

(4)

,

yx = a0 + a1x

+ a1x

+ a1x

 

 

 

 

стандартная ошибка sELR = 4,32,

средняя относительная ошибка ап-

проксимации d » 4,6%, оценка коэффициента множественной линейной

корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.

65

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня зна-

чимости a = 0,05.

 

 

 

: a =0,

 

Так как p = 0,002,

p = 0,001,

p = 0,146, гипотезы

H(1)

 

1

2

4

0

1

H(2)

: a =0 отвергаются, а гипотеза H(4) : a =0 не отвергается.

 

 

0

2

0

4

 

 

Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

ент незначим, а соответствующая этому коэффициенту абсолютная величина значения статистики T46(3) , равного 0,68, является наимень-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)

ˆ (2)

ˆ (4)

= 64,88 - 2,42x

(1)

+ 0,000328x

(2)

+ 0,079x

(4)

,

yx = a0 + a1x

+ a1x

+ a1x

 

 

 

стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной

корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня значимости a = 0,05.

 

Так как p = 0,002,

p = 0,001,

p = 0,146, гипотезы

H(1)

: a =0,

 

1

2

 

4

0

1

H(2)

: a =0 отвергаются, а гипотеза H(4)

: a =0 не отвергается.

 

 

0

2

 

0

4

 

 

Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

ент незначим, а соответствующая этому коэффициенту абсолютная величина значения статистики T46(3) , равного 0,68, является наимень-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)

ˆ (2)

ˆ (4)

= 64,88 - 2,42x

(1)

+ 0,000328x

(2)

+ 0,079x

(4)

,

yx = a0 + a1x

+ a1x

+ a1x

 

 

 

66

стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной

корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня зна-

чимости a = 0,05.

 

 

 

: a =0,

 

Так как p = 0,002,

p = 0,001,

p = 0,146, гипотезы

H(1)

 

1

2

4

0

1

H(2)

: a =0 отвергаются, а гипотеза H(4) : a =0 не отвергается.

 

 

0

2

0

4

 

 

Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

ент незначим, а соответствующая этому коэффициенту абсолютная

величина значения статистики T46(3) , равного 0,68, является наимень-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)

ˆ (2)

ˆ (4)

= 64,88 - 2,42x

(1)

+ 0,000328x

(2)

+ 0,079x

(4)

,

yx = a0 + a1x

+ a1x

+ a1x

 

 

 

стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной

корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня значимости a = 0,05.

 

Так

как p = 0,002,

p = 0,001,

p = 0,146, гипотезы

H(1)

: a =0,

 

 

1

2

4

0

1

H(2)

: a =0

отвергаются, а гипотеза H(4) : a =0 не отвергается.

 

 

0

2

 

0

4

 

 

Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

ент незначим, а соответствующая этому коэффициенту абсолютная

67

величина значения статистики T46(3) , равного 0,68, является наимень-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)

ˆ (2)

ˆ (4)

= 64,88 - 2,42x

(1)

+ 0,000328x

(2)

+ 0,079x

(4)

,

yx = a0 + a1x

+ a1x

+ a1x

 

 

 

стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной

корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня значимости a = 0,05.

Так как p = 0,002,

p = 0,001,

p = 0,146, гипотезы

H(1)

: a =0,

1

2

4

0

1

H0(2) : a2 =0 отвергаются, а гипотеза H0(4) : a4 =0 не отвергается.

·Исключим регрессор x(4), при котором коэффициент незначим, оценка

линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)

ˆ

(2)

= 73,68 - 3,22x

(1)

+ 0,000349x

(2)

.

yx = a0 + a1x

+ a1x

 

 

 

стандартная ошибка sELR = 4,37,

средняя относительная ошибка ап-

проксимации d » 4,8%, оценка коэффициента множественной линейной

корреляции равна 0,85, оценка коэффициента множественной линейной детерминации равна 0,73, оценка нормированного коэффициента множественной линейной детерминации равна 0,71.

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 1,8×10–14) оказалась меньше принятого уровня значимости a = 0,05.

Так как p1 = 1,5×10–8, p2 = 7,9×10–4, гипотезы H0(1) : a1=0, H0(2) : a2 =0 от-

вергаются.

Замечание. Для получения табл. 3.5.2 вместо программы «Регрессия» надстройки «Анализ данных» пакета Microsoft Excel можно воспользоваться программой «Linear Regression» пакета SPSS. Для этого нужно ввести исходные данные в рабочий лист SPSS и выбрать пункт меню «Regression | Linear…» меню «Statistics». В появившемся окне необходимо указать результативный признак Y Dependent»), факторные признаки x(1), x(2), x(3), x(4), x(5) Independent(s)») и выбрать алгоритм пошагового исключения регрессоров («Method: Backward»). В окне, вызываемом нажатием кнопки «Statistics…», необходимо указать, что в результатах работы программы нужно вывести оценки параметров модели («Regression Coefficients: Estimates»), их доверительные интервалы («Regression Coefficients: Confidence intervals»), оценки коэффициентов детерминации и дисперсионные таблицы («Model fit»).

6. Наилучшим уравнением является полученное на четвертом шаге (см. табл. 3.5.2), поскольку и само уравнение, и все его коэффициенты значимы. Обратим внимание на то, что в это уравнение оказались включены факторы X(1) и X(2), линейная связь между которыми, судя по наблюдениям, невелика: ˆ| r(X(1); X(2)) |= 0,576. Судя по этому уравнению:

68

а) более 70% дисперсии продолжительности жизни мужчины (Y) связано с линейным влиянием среднего числа детей в семье x(1) и ВВП на

 

(2)

ˆ

= 0,73 );

душу населения x

 

(так как R

б) рассчитанное по уравнению число ˆyi — это точечная оценка гене-

рального среднего значения продолжительности жизни мужчины при условии, что значения факторных признаков (среднего числа детей в семье x(1) и ВВП на душу населения x(2)) зафиксированы на каких-то уровнях, а именно

x(1) = xi(1), x(2) = x(2)i . Например, точечная оценка генерального среднего зна-

чения продолжительности жизни мужчины при значениях регрессоров на первом объекте (в Австралии) равна

ˆy = 73,68 - 3,22×1,9 + 0,000349×16 848 = 73,43,

1

а реальная продолжительность жизни мужчины в Австралии равна y1 = 74,

остаток y ˆy = 0,57. В тех странах, в которых остатки y

i

ˆy

положитель-

1 1

i

 

ны, продолжительность жизни мужчины выше среднего уровня, а в тех странах, где остатки отрицательны — ниже среднего уровня. Так, например,

в Австралии y ˆy = 0,57

, а в Австрии y ˆy = −2,25.

1

1

2

2

Студенту предлагается самостоятельно построить 95%-ную интервальную оценку генеральной средней продолжительности жизни мужчины при

x(1) = x1(1), x(2) = x1(2) ;

в) увеличение среднего числа детей в семье x(1) на единицу [при не-

изменном значении x(2)] сопровождается наибольшим изменением средней

продолжительности жизни мужчины (уменьшением на 3,22 года); увеличение x(1) на единицу сопровождается и наибольшим максимально возможным

с 95%-ной вероятностью изменением результативного признака (уменьшением средней продолжительности жизни мужчины на 4,18 года), так как 95%-ные интервальные оценки параметров a1 и a2 таковы: (–4,18; –2,27) и

(0,000153; 0,000544);

г) анализ коэффициентов эластичности

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆx(1)

 

2,83

 

ˆx(2)

 

8421,9

 

ЭY|x(1)

= a1

 

 

 

= -3.22×

 

= -0,135, ЭY|x(2)

= a2

 

 

 

= 0,000349×

 

= 0,044

 

 

 

67,48

 

 

 

67,48

y

y

 

 

 

 

 

 

 

показывает, что увеличение среднего числа детей в семье x(1) на 1% (при неизменном значении x(2) сопровождается наибольшим процентным измене-

нием средней продолжительности жизни мужчины — ее уменьшением на 0,135%; увеличение среднего числа детей x(1) на 1% сопровождается и наи-

большим максимально возможным с 95%-ной вероятностью процентному изменением средней продолжительности жизни мужчины — ее уменьшением на -4,18× 67,482,83 = 0,175%.

69

3.6. К о м п о н е н т н ы й и ф а к т о р н ы й а н а л и з

1. В м о д е л и к о м п о н е н т н о г о а н а л и з а предполагается, что каждый признак X(j) (j = 1, 2, 3, 4, 5) формируется как линейная комбинация т а к о г о ж е ч и с л а латентных факторов — компонент F(1), F(2), F(3), F(4), F(5), влиянием которых объясняется суммарная дисперсия признаков

X(1), X(2), X(3), X(4), X(5):

X(j) = a

F(1)

+ a

j2

F(2)

+ a

j3

F(3)

+ a

j4

F(4)

+ a

j5

F(5)

; i = 1, 2,…,52; j = 1, 2, 3, 4,5.

i

j1 i

 

i

 

i

 

i

 

i

 

К компонентам F(1), F(2), F(3), F(4), F(5) предъявляются следующие требования:

они должны быть некоррелированы между собой;

они должны выделяться таким образом, чтобы влиянием первой компоненты объяснялось максимальная доля суммарной дисперсии всех признаков, влиянием второй компоненты — максимальная доля оставшейся суммарной дисперсии и т. д.

Для реализации компонентного анализа воспользуемся пакетом PASW

Statistics. Откроем в окне ввода данных PASW Statistics сохраненную при выполнении п. 1 работы 5 матрицу значений признаков Y, X(1), X(2), X(3), X(4), X(5).

Обратимся (с помощью выбора пункта «Снижение размерности | Факторный анализ…» меню «Анализ») к программе «Факторный анализ»

для компонентного анализа признаков X(1), X(2), X(3), X(4), X(5) (рис. 3.6.1, а), выберем в окне «Факторный анализ: Выделение факторов», вызываемом нажатием кнопки «Извлечение…», метод главных компонент и зададим фиксированное число факторов, равное пяти (рис. 3.6.1, б).

Поскольку исходные признаки разнородны по содержательному смыслу и имеют разные единицы измерения, компонентный анализ будем проводить с использованием матрицы корреляций (а не ковариаций) матрицы; укажем это в окне «Факторный анализ: Выделение факторов» (см. рис. 3.6.1, б).

Установим флажок «Сохранить как переменные» в окне «Факторный анализ: Значения факторов», вызываемом нажатием кнопки «Значения факторов…» — тогда значения пяти компонент на 52 объектах автоматически

добавятся в виде переменных к исходным данным; установим также флажок «Вывести матрицу значений коэффициентов факторов», который позво-

ляет получить в результате работы программы матрицу нагрузок компонент на исходные признаки (рис. 3.6.1, в).

2. а) Обратимся к числовым результатам работы программы (рис. 3.6.2). На основе анализа таблицы «Полная объясненная дисперсия»

можно сделать вывод о том, что вклад первой компоненты в суммарную дисперсию признаков X(1), X(2), X(3), X(4), X(5) составляет 65,23%, второй компо-

ненты — 20,49%, третьей — 10,21%, и т. д., при этом общий вклад первых двух компонент в суммарную дисперсию равен 85,72%. График зависимости доли суммарной дисперсии исходных признаков, объясненной первыми k компонентами, от k представлен на рис. 3.6.3.

70