Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Компьютерный практикум по статистике

.pdf
Скачиваний:
160
Добавлен:
01.04.2015
Размер:
2.27 Mб
Скачать

i = 1, 2, …, n. Функция yx = M(Y | X) = a0 + a1x называется линейной функцией регрессии.

Рассчитаем оценки ˆˆa , a и s параметров модели линейной регрессии.

0 1 ELR

Для этого воспользуемся программой «Регрессия», выбрав соответствующий пункт меню надстройки «Анализ данных» Microsoft Excel.

В окне ввода исходных данных программы «Регрессия» (рис. 3.4.8) укажем входные интервалы результативного признака Y (B1:B61) и факторного признака x (A1:A61). Установим флажок «Метки» (указав, что в первой строке находятся названия переменных), очистим флажок «Константа — ноль» (чтобы в уравнении присутствовал свободный член a0), уровень надежности (1 – α) указывать не будем (по умолчанию он равен 95%). Укажем, что результаты работы программы необходимо вывести на новый рабочий лист.

Рис. 3.4.8. Окно ввода данных программы «Регрессия»

Результаты работы программы «Регрессия» представлены на рис. 3.4.9. Модуль оценки коэффициента корреляции ˆr(X,Y) = 0,72 выведен в результатах работы программы «Регрессия» (рис. 3.4.8) в таблице «Регрессионная статистика» под заголовком «Множественный R»; коэффициент л и - н е й н о й детерминации ˆr2(X,Y) = 0,52 выведен под заголовком «R-квадрат».

Оценки ˆa

= 0,30,ˆa = 0,14 параметров a

0

и a

1

содержатся в результатах

0

1

 

 

работы программы «Регрессия» (рис. 3.4.9)

в

в ы д е л е н н о й т а б л и ц е

в столбце «Коэффициенты» под заголовками «Y-пересечение» и «X» соответ-

ственно. Таким образом, оценка линейной функции регрессии такова:

ˆy =ˆa +ˆa x = 0,30 + 0,14x . График этой функции построен на рис. 3.4.4.

x 0 1

Оценка среднего квадратичного отклонения σELR, равная

51

MSрегр

 

 

n

ˆ

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

∑(Yi

- Yi

)

 

 

 

 

 

 

 

 

 

 

 

 

=

 

=

 

SS

=

 

2,78

= 0,22

 

sELR

i=1

 

 

 

 

 

ост

 

 

,

 

n - 2

 

 

n - 2

58

 

 

 

 

 

 

 

 

 

 

 

 

 

называется стандартной ошибкой регрессии и приводится в результатах работы программы «Регрессия» в таблице «Регрессионная статистика» под заголовком «Стандартная ошибка» (рис. 3.4.9).

ВЫВОД ИТОГОВ

Регрессионная статистика

 

 

 

 

 

Множественный R

0,72

 

 

 

 

 

R-квадрат

0,52

 

 

 

 

 

Нормированный

0,52

 

 

 

 

 

R-квадрат

 

 

 

 

 

 

Стандартная

0,22

 

 

 

 

 

ошибка

 

 

 

 

 

 

Наблюдения

60

 

 

 

 

 

 

 

 

 

 

 

 

Дисперсионный анализ

 

 

 

 

 

 

df

SS

MS

F

Значимость F

 

Регрессия

1

2,97

2,97

62,03

1E-10

 

Остаток

58

2,78

0,05

 

 

 

Итого

59

5,74

 

 

 

 

 

 

 

 

 

 

 

 

Коэффициенты

Стандартная

t-статистика

P-значение

Нижние 95%

Верхние 95%

 

 

ошибка

 

 

 

 

Y-пересечение

0,295264

0,053630

5,505555

8,76E–07

0,187917

0,402617

X

0,137312

0,017434

7,875949

1E–10

0,102413

0,172210

Рис. 3.4.9. Результаты работы программы «Регрессия»

в) Проверка гипотезы H0: a1 = 0 (о незначимости парного линейного уравнения регрессии) при альтернативе H1: a1 ¹ 0 производится на основе

анализа статистики

F1; n2 = MSост /(n - 2) ,

имеющей (в предположении справедливости H0) распределение Фишера — Снедекора с одной и n – 2 = 58 степенями свободы. Значения величин

 

 

 

 

 

 

 

 

 

 

 

 

 

n

ˆ2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

SSрегр

n

ˆ

 

 

 

 

 

 

SS

 

(Yi - Yi )

 

 

 

2

 

 

 

 

i=1

 

 

 

 

 

 

 

 

ост

 

 

MSрегр

=

1

= (Yi

- Y)

и

MSост

=

n - 2

=

n

- 2

 

 

i=1

 

 

 

 

 

 

 

 

приводятся в результатах работы программы «Регрессия» в столбце «MS» в строках «Регрессия» и «Остаток» соответственно (рис. 3.4.9).

Нетрудно убедиться в том, что

SSрегр = nˆˆs2 r2, SSост = nˆs2 (1-ˆr2 ),

Y Y

а статистика

52

MSрегр

 

SSрегр

 

2

 

=

=

ˆr

 

 

 

.

MSост

SSост /(n - 2)

(1-ˆr2 )/(n - 2)

В данном случае наблюдаемое значение статистики MSрегр MSост , рав-

ное 62,03 [в результатах работы программы (рис. 3.4.9) оно приводится в таблице «Дисперсионный анализ» в столбце «F»], оказалось больше, чем критическая точка f0,05; 1; 58 = 4,0 [в Microsoft Excel значение fα;k1;k2 можно получить с помощью функции fα;k1;k2 = FРАСПОБР(<a>; <k1>; <k2>)], поэтому

есть основания отвергнуть гипотезу H0 на 5%-ном уровне значимости. Гипотезу H0 можно проверить и так: если значимость F [приведенная в ре-

зультатах работы программы «Регрессия» (рис. 3.4.9) в таблице «Дисперсионный анализ»)] оказывается не меньше принятого уровня значимости a (в данном случае a = 0,05), гипотезу H0 принимают, а если значимость F оказывается меньше a, гипотезу H0 отвергают. В данном случае есть основания отвергнуть

гипотезу H , поскольку значимость F равна 1E-10 =10–10 = 0,0000000001.

·

0

ˆ=

 

Значение коэффициента

0,14 показывает, что увеличение расхо-

a1

дов на рекламу на 1 тыс. ден. ед. сопровождается увеличением объема продаж в среднем на 0,14 млн. ден. ед.

·Интервальная оценка параметра a1, соответствующая надежности g,

такова:

ˆ

 

 

sELR

 

 

ˆ

 

 

 

sELR

 

 

 

 

a1

- t1−γ; n2

 

 

 

 

 

< a1

< a1

+ t1−γ; n2

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

(xi -

 

)2

 

 

 

 

 

(xi -

 

)2

 

 

 

 

 

 

 

x

 

 

 

 

 

x

 

 

 

 

 

 

 

i=1

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

В данной задаче t1−γ; n2 = t0,05;58

= 2,0, s2X = 2,669,

(xi -

 

)2 = (n -1)s2X =

x

i=1

= 59 × 2,669 = 157,46, sELR = 0,22 [s2X = 2,669 в Microsoft Excel можно рассчи-

тать с помощью формулы ДИСП(<ряд x>)], поэтому при g = 0,95 интервальная оценка параметра a1 принимает вид

0,14 - 2,0×

0,22

 

< a1 < 0,14 + 2,0×

0,22

 

 

 

 

 

157,46

157,46

 

 

 

или, окончательно,

0,10 < a1 < 0,17,

т. е. с вероятностью 0,95 можно ожидать, что каждая тысяча ден. ед., дополнительно вложенная в рекламу, приведет к увеличению объема продаж в среднем от 0,10 млн. ден. ед. до 0,17 млн. ден. ед.

Интервальная оценка параметра a0, соответствующая надежности g, такова:

53

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

n

 

 

ˆ

sELR xi2

 

 

ˆ

 

 

 

sELR

xi2

 

 

 

 

i=1

 

 

 

 

 

 

 

i=1

 

 

 

a0 - t1−γ; n2

 

 

 

 

 

 

 

 

< a0

< a0 + t1−γ; n2

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

n(xi

-

 

)2

 

 

 

 

 

 

n(xi -

 

 

 

)2

 

 

 

 

 

 

x

 

 

 

 

x

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

В рассматриваемой

задаче ˆa0 = 0,29, t1−γ; n2 = t0,05;58 = 2,0, sX2 = 2,669 ,

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xi -

 

)2 =157,46,

xi2 = 567,76 , sELR = 0,22, поэтому при g = 0,95 интер-

x

i=1

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

вальная оценка параметра a0 принимает вид

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,29 - 2,0

0,22 567,76

 

< a0

< 0,29 + 2,0

0,22 567,76

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

60×157,46

 

60×157,46

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или, окончательно,

0,19 < a0 < 0,40.

Интервальные оценки параметров a0 и a1, соответствующие надежности g = 0,95, приведены в результатах работы программы «Регрессия» (рис. 3.3.9): нижние границы интервалов приводятся в столбце «Нижние 95%», а верхние границы интервалов — в столбце «Верхние 95%».

· Точечным прогнозом генерального среднего M(Y | x¢)

объема продаж

при расходах на рекламу, равных x, будет величина ˆy = 0,30 + 0,14x;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

в условиях примера точечные прогнозы генеральных средних M(Y | x¢)

при

= 0,725

; 2,075; 3,425;

4,775; 6,125

таковы:

0,395; 0,580; 0,766;

x

0,951; 1,136.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Интервальная оценка генерального среднего M(Y | x¢) , соответст-

вующая надежности g, задается формулой

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

2

 

 

 

 

 

1

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆy t

s

 

 

+

(x

x)

< M(Y|x) <ˆy + t

s

+

(x

x)

.

 

n

 

 

 

 

 

 

 

n

 

x

1−γ; n2 ELR

 

 

n

 

 

 

 

 

 

x

1−γ; n2

ELR

n

 

 

 

 

 

 

 

 

 

 

 

 

(xj

 

)2

 

 

 

 

 

(xj

 

)2

 

 

 

 

 

 

 

x

 

 

 

 

x

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

В условиях задачи при g = 0,95

0,308 < M(Y x¢ = 0,725) < 0,482, 0,521< M(Y x¢ = 2,075) < 0,640, 0,702 < M(Y x¢ = 3,425) < 0,829, 0,857 < M(Y x¢ = 4,775) <1,045, 1,001< M(Y x¢ = 6,125) <1,271,

эти интервальные оценки изображены на рис. 3.4.4.

Интервальный прогноз объема продаж при расходах на рекламу, равных x, соответствующий надежности g, задается формулой

54

 

 

 

 

 

1

 

 

 

2

 

 

 

 

 

 

1

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆy t

s

1+

+

(x

x)

 

 

< Y|x′ <ˆy + t

s

1+

+

(x

x)

.

 

n

 

 

 

 

 

 

n

 

x

1−γ; n2

ELR

 

 

n

 

 

 

 

 

 

x

1−γ; n2

ELR

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

(xj

 

)2

 

 

 

 

 

 

(xj

 

)2

 

 

 

 

 

 

 

x

 

 

x

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

В условиях данной задачи при γ = 0,95 0,052 < Y x′ = 0,725 < 0,841,

0,138 < Y x′ = 2,075 < 1,022,

0,323 < Y x′ = 3,425 < 1,208,

0,503 < Y x′ = 4,775 < 1,399,

0,678 < Y x′ = 6,125 < 1,595.

эти интервальные оценки изображены на рис. 3.4.4.

Расчет интервальных оценок для M(Y | x) и Y | xв Microsoft Excel

проиллюстрирован рис. 3.4.10.

г) Проверим на 5%-ном уровне значимости гипотезу H0 о линейности функции регрессии Y на x. Для этого рассчитаем значение статистики

Fν−2; n−ν =

(SSитог

SSрегр

SSост )/(ν − 2)

,

 

SSост /(n − ν)

 

которая в предположении справедливости гипотезы H0 имеет распределение Фишера — Снедекора с ν – 2 = 3 и n ν = 55 степенями свободы. Здесь SSрегр приводится в результатах работы программы «Регрессия» в столбце

«SS» в строке «Регрессия» (рис. 3.3.9), а SSитог и SSост — в результатах работы программы «Однофакторный дисперсионный анализ» (табл. 3.3.2).

В условиях задачи наблюдаемое значение этой статистики равно (5,74 2,97 2,51)/(5 2) = 1,9 ,

2,51/(60 5)

и оно меньше критической точки f0,05; 3; 55 = 2,8, поэтому гипотеза H0 о линейности функции регрессии Y на x не отвергается.

Нетрудно убедиться в том, что названная статистика тождественна статистике

2

2

 

ˆ(ρ (Y | X)

ˆr (X,Y))/(ν − 2)

.

2

 

(1ˆρ (Y | X))/(n − ν)

 

3.5.М н о ж е с т в е н н ы й л и н е й н ы й

ре г р е с с и о н н ы й а н а л и з

Изучается линейная (в среднем) зависимость результативного признака Y — ожидаемой продолжительности жизни мужчины (в годах) от пяти факторных признаков — регрессоров x(1) — среднего числа детей в семье, x(2) — ВВП на душу населения (в долл. США по покупательной способности валют), x(3) — плотности населения (в чел. на кв. км), x(4) — процента грамотных и x(5) — рождаемости на 1000 чел. (см. табл. 3.5.1).

55

1.

М о д е л ь м н о ж е с т в е н н о г о л и н е й н о г о р е г р е с с и -

о н н о г о

 

а н а л и з а признака Y записывается следующим образом:

Y = a + a x(1)

+ a x(2)

+ a x(3)

+ a

x(4)

+ a x(5)

+ ε

; i = 1, 2,…, 52,

 

i

0 1 i

2 i

3 i

4

i

5 i

i

 

где случайные величины εi (случайные эффекты влияния на результатив-

ный признак неконтролируемых факторов) независимы и имеют одинаковое нормальное распределение εi = N(0;σELR ), или, иначе, наблюдения Yi

независимы и имеют нормальное распределение

Yi = N (MYi = a0 + a1xi(1) + a2x(2)i + a3xi(3) + a4xi(4) + a5xi(5);σYi = σELR ) .

Функция

yx = M(Y x(1),x(2),x(3),x(4),x(5) ) = a0 + a1x(1) + a2x(2) + a3x(3) + a4x(4) + a5x(5)

называется линейной функцией множественной регрессии.

56

 

 

A

B

C

 

D

 

E

 

 

 

 

 

 

F

 

 

 

 

 

 

 

 

G

 

 

 

 

 

 

 

 

 

 

 

 

 

H

 

 

I

 

 

 

 

 

 

J

 

 

 

 

 

 

 

 

 

 

 

 

 

K

L

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

X

Y

a0=

0,295264

 

 

 

 

 

=

=СРЗНАЧ(A2:A61)

 

 

 

 

 

 

 

 

(xi

 

 

)2

=

=(СЧЁТ(A2:A61)–1)*F2

sELR=

 

 

 

 

 

 

 

 

 

 

 

 

0,218773

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

0,725

0,13

a1=

0,137312

 

 

sX2 =

=ДИСП(A2:A61)

 

 

 

 

 

 

 

 

 

 

 

t0,05; 58=

=СТЬЮДРАСПОБР(0,05;58)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

0,725

0,13

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,725

0,13

x

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

′ −

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нижняя

 

Верхняя

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нижняя

Верхняя

 

 

 

yx

 

 

 

 

 

 

(x

 

 

 

 

 

 

 

 

 

 

′ −

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

′ −

 

2

 

 

 

 

 

 

 

 

yx

 

 

 

 

 

 

x)

 

 

 

1

 

 

 

x)

 

 

 

 

 

 

 

1

 

 

 

(x

x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t1−γ; n2sELR

+

 

(x

 

граница

 

граница

t1−γ; n2sELR

1+

+

 

 

 

граница

граница

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

(xj

 

 

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

n

(xj

 

 

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

)

 

)

 

 

x

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

M(Y|x

 

M(Y|x

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

( Y|x )

( Y|x

 

 

5

0,725

0,13

0,725

 

0,334

=$D$1+$D$2*C5=(C5–$F$1)^2

=$H$2*$J$1*КОРЕНЬ(1/60+F5/$H$

1)=E5–G5

 

 

=E5+G5

 

=$H$2*$J$1*КОРЕНЬ(1+1/60+F5/$H$1)

=E5–J5

=E5+J5

 

 

 

6

0,725

0,13

2,075

 

0,640

=$D$1+$D$2*C6=(C6–$F$1)^2

=$H$2*$J$1*КОРЕНЬ(1/60+F6/$H$

1)=E6–G6

 

 

=E6+G6

 

=$H$2*$J$1*КОРЕНЬ(1+1/60+F6/$H$1)

=E6–J6

=E6+J6

 

 

 

7

0,725

0,13

3,425

 

0,679

=$D$1+$D$2*C7=(C7–$F$1)^2

=$H$2*$J$1*КОРЕНЬ(1/60+F7/$H$

1)=E7–G7

 

 

=E7+G7

 

=$H$2*$J$1*КОРЕНЬ(1+1/60+F7/$H$1)

=E7–J7

=E7+J7

 

 

 

8

0,725

0,39

4,775

 

1,021

=$D$1+$D$2*C8=(C8–$F$1)^2

=$H$2*$J$1*КОРЕНЬ(1/60+F8/$H$

1)=E8–G8

 

 

=E8+G8

 

=$H$2*$J$1*КОРЕНЬ(1+1/60+F8/$H$1)

=E8–J8

=E8+J8

 

 

 

9

0,725

0,39

6,125

 

1,066

=$D$1+$D$2*C9=(C9–$F$1)^2

=$H$2*$J$1*КОРЕНЬ(1/60+F9/$H$

1)=E9–G9

 

 

=E9+G9

 

=$H$2*$J$1*КОРЕНЬ(1+1/60+F9/$H$1)

=E9–J9

=E9+J9

 

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а) формулы Microsoft Excel

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

B

C

 

 

D

E

 

 

 

 

 

 

F

 

 

 

 

 

 

 

 

G

 

 

 

 

 

 

 

 

 

 

 

 

 

H

 

 

I

 

 

 

 

 

 

J

 

 

 

 

 

 

 

 

 

 

 

 

 

K

L

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

X

Y

a0=

0,295264

 

 

 

 

=

 

 

2,615

 

 

 

 

 

 

 

 

(xi

 

 

 

 

)2

=

 

 

157,46

sELR=

 

 

 

 

 

 

 

 

 

 

 

 

0,218773

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

0,725

0,13

a1=

0,137312

 

s2X =

 

 

2,669

 

 

 

 

 

 

 

 

 

 

 

 

t0,05; 58=

 

 

2,00

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

0,725

0,13

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,725

0,13

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

′ −

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нижняя

 

Верхняя

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нижняя

Верхняя

 

 

 

 

 

yx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

′ −

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

′ −

 

2

 

 

 

 

 

x

 

yx

 

 

 

 

 

(x

x)

 

 

 

 

1

 

 

x)

 

 

 

 

 

 

 

 

1

 

 

(x

x)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

s

 

+

 

(x

 

граница

 

граница

t

s

1+

+

 

 

граница

граница

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1−γ; n2

ELR

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

1−γ; n2

ELR

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(xj

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

(xj

 

)2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

M(Y|x )

 

M(Y|x )

 

 

 

 

 

 

 

 

 

 

j=1

 

 

 

 

 

 

 

 

 

 

 

( Y|x )

( Y|x )

 

 

5

0,725

0,13

0,725

0,334

 

0,395

 

 

3,5721

 

 

 

 

 

 

 

 

 

0,086872

 

 

0,308

0,482

 

 

 

 

 

 

 

 

 

 

 

 

0,446456

–0,052

0,841

 

 

6

0,725

0,13

2,075

0,640

 

0,580

 

 

0,2916

 

 

 

 

 

 

 

 

 

0,059594

 

 

0,521

0,640

 

 

 

 

 

 

 

 

 

 

 

 

0,441959

0,138

1,022

 

 

7

0,725

0,13

3,425

0,679

 

0,766

 

 

0,6561

 

 

 

 

 

 

 

 

 

0,063209

 

 

0,702

0,829

 

 

 

 

 

 

 

 

 

 

 

 

0,442460

0,323

1,208

 

 

8

0,725

0,39

4,775

1,021

 

0,951

 

 

4,6656

 

 

 

 

 

 

 

 

 

0,094226

 

 

0,857

1,045

 

 

 

 

 

 

 

 

 

 

 

 

0,447945

0,503

1,399

 

 

9

0,725

0,39

6,125

1,066

 

1,136

 

 

12,3201

 

 

 

 

 

 

 

 

 

0,134911

 

 

1,001

1,271

 

 

 

 

 

 

 

 

 

 

 

 

0,458232

0,678

1,595

 

 

10

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

б) результаты расчетов

Рис. 3.4.10. Расчет доверительных интервалов для M( Y | x′) и Y | x

57

Т а б л и ц а 3.5.1

Страна

Y

x(1)

x(2)

x(3)

x(4)

x(5)

п / п

 

 

 

 

 

 

 

1

Австралия

74

1,90

16 848

2,3100

15

 

 

 

 

 

 

 

 

2

Австрия

73

1,50

18 396

94,0

99

12

3

Аргентина

68

2,80

3408

12,0

95

20

4

Бангладеш

53

4,70

202

800,0

35

35

 

 

 

 

 

 

 

 

5

Беларусь

66

1,88

6500

50,0

99

13

6

Бельгия

73

1,70

17 912

329,0

99

12

7

Бразилия

57

2,70

2354

18,0

81

21

8

Буркина-Фасо

47

6,94

357

36,0

18

47

 

 

 

 

 

 

 

 

9

Великобритания

74

1,83

15 974

237,0

99

13

10

Вьетнам

63

3,33

230

218,0

88

27

11

Гаити

43

5,94

383

231,0

53

40

12

Германия

73

1,47

17 539

227,0

99

11

 

 

 

 

 

 

 

 

13

Гондурас

65

4,90

1030

46,0

73

35

14

Гонконг

75

1,40

14 641

5494,0

77

13

15

Египет

60

3,77

748

57,0

48

29

16

Замбия

44

6,68

573

11,0

73

46

17

Индия

58

4,48

275

283,0

52

29

18

Ирландия

73

1,99

12 170

51,0

98

14

19

Испания

74

1,40

13 047

77,0

95

11

 

 

 

 

 

 

 

 

20

Италия

74

1,30

17 500

188,0

97

11

 

 

 

 

 

 

 

 

21

Канада

74

1,80

19 904

2,8

97

14

22

Китай

67

1,84

377

124,0

78

21

23

Колумбия

69

2,47

1538

31,0

87

24

 

 

 

 

 

 

 

 

24

Коста-Рика

76

3,10

2031

64,0

93

26

25

Куба

74

1,90

1382

99,0

94

17

26

Малайзия

66

3,51

2995

58,0

78

29

 

 

 

 

 

 

 

 

Страна

Y

x(1)

x(2)

x(3)

x(4)

x(5)

п / п

 

 

 

 

 

 

 

27

Марокко

66

3,83

1062

63,0

50

29

 

 

 

 

 

 

 

 

28

Мексика

69

3,20

3604

46,0

87

28

29

Нидерданды

75

1,58

17 245

366,0

99

13

30

Новая Зеландия

73

2,03

14 381

13,0

99

16

 

 

 

 

 

 

 

 

31

Норвегия

74

2,00

17 755

11,0

99

13

32

ОАЭ

70

4,50

14 193

32,0

68

28

33

Польша

69

1,94

4429

123,0

99

14

34

Португалия

71

1,50

9000

108,0

85

12

 

 

 

 

 

 

 

 

35

Россия

64

1,83

6680

8,8

99

13

36

Саудовская Аравия

66

6,67

6651

7,7

62

38

37

Северная Корея

67

2,40

1000

189,0

99

24

38

Сингапур

73

1,88

14 990

4456,0

88

16

 

 

 

 

 

 

 

 

39

США

73

2,06

23 474

26,0

97

15

40

Таиланд

65

2,10

1800

115,0

93

19

41

Турция

69

3,21

3721

79,0

81

26

42

Украина

65

1,82

2340

87,0

97

12

43

Филиппины

63

3,35

867

221,0

90

27

44

Финляндия

72

1,80

15 877

39,0

100

13

45

Франция

74

1,80

18 944

105,0

99

13

 

 

 

 

 

 

 

 

46

Чили

71

2,50

2591

18,0

93

23

 

 

 

 

 

 

 

 

47

Швейцария

75

1,60

22 384

170,0

99

12

48

Швеция

75

2,10

16 900

19,0

99

14

49

Эфиопия

51

6,81

122

47,0

24

45

 

 

 

 

 

 

 

 

50

ЮАР

62

4,37

3128

35,0

76

34

51

Южная Корея

68

1,65

6627

447,0

96

16

52

Япония

76

1,55

19 860

330,0

99

11

 

 

 

 

 

 

 

 

2.Введем исходные данные в рабочий лист Microsoft Excel (рис. 3.5.1).

 

A

B

C

D

E

F

G

1

Страна

Y

x(1)

x(2)

x(3)

x(4)

x(5)

2

Австралия

74

1,9

16 848

2,3

100

15

3

Австрия

73

1,5

18 396

94

99

12

4

Аргентина

68

2,8

3408

12

95

20

5

Бангладеш

53

4,7

202

800

35

35

6

Беларусь

66

1,9

6500

50

99

13

7

Бельгия

73

1,7

17 912

329

99

12

8

Бразилия

57

2,7

2354

18

81

21

9

Буркина-Фасо

47

6,9

357

36

18

47

10

Великобритания

74

1,8

15 974

237

99

13

11

 

 

 

 

 

 

 

Рис. 3.5.1. Числовые данные для программ «Корреляция» и «Регрессия»

Для расчета матрицы оценок коэффициентов парной корреляции воспользуемся программой «Корреляция». Для этого выберем соответствующий пункт меню надстройки «Анализ данных». В появившемся окне ввода данных (рис. 3.5.2) укажем входной интервал B1:G53, в который мы ввели исходные

данные (с заголовками столбцов — названиями признаков, поэтому отметим флажок «Метки в первой строке»). Укажем, что данные сгруппированы по

58

столбцам, а результаты работы необходимо вывести на новый рабочий лист. Результаты работы программы «Корреляция» представлены на рис. 3.5.3.

Рис. 3.5.2. Окно ввода данных программы «Корреляция»

 

Y

x(1)

x(2)

x(3)

x(4)

x(5)

Y

1

 

 

 

 

 

x(1)

–0,808

1

 

 

 

 

x(2)

0,684

–0,576

1

 

 

 

x(3)

0,145

–0,163

0,164

1

 

 

x(4)

0,754

–0,833

0,544

–0,041

1

 

x(5)

–0,817

0,966

–0,691

–0,142

–0,826

1

Рис. 3.5.3. Результаты работы программы «Корреляция»

В результате работы программы «Корреляция» рассчитана матрица оце-

нок коэффициентов парной корреляции [ввиду симметричности этой матрицы

ˆ(r ) в результатах работы программы «Корреляция» приводится только часть

ij

матрицы — не выше главной диагонали]. Жирным шрифтом выделены коэффициенты корреляции, оценки которых по модулю превосходят 0,7.

На основе анализа матрицы оценок коэффициентов парной корреляции можно сделать следующие выводы. Судя по наблюдениям, наиболее сильна линейная связь результативного признака Y (ожидаемой продолжительности жизни мужчины) с факторным признаком X(1) (средним числом детей в семье), с X(4) (процентом грамотных) и с X(5) (рождаемостью), поскольку модули оценок

соответствующих коэффициентов парной корреляции достаточно велики: ˆ| r(Y;X(1) )|= 0,808 , ˆ| r(Y;X(4) )|= 0,754 и ˆ| r(Y;X(5) )|= 0,817. Линейная связь Y с X(2) также достаточно сильна: ˆ| r ( Y; X(2) ) |= 0,684; связь Y с X(3) выражена слабее.

Достаточно сильна линейная связь между каждой парой регрессоров X(1), X(4) и X(5) (X(1) — среднее число детей в семье, X(4) — процент грамотных, X(5) — рождаемость): ˆ| r(X(1); X(4)) |= 0,833, ˆ| r(X(1); X(5)) |= 0,966, ˆ| r(X(4); X(5)) |= 0,826 —

это может свидетельствовать о коллинеарности регрессоров X(1) и X(4), X(1) и X(5) , X(4) и X(5). Малые абсолютные значения оценок коэффициентов корре-

ляции между остальными регрессорами говорят об относительно слабой линейной связи между ними.

59

3. Рассчитаем оценки ˆˆˆˆˆˆa , a ,a , a ,a , a

и s параметров модели ли-

0

1

2

3

4

5

ELR

нейной регрессии. Для этого воспользуемся программой «Регрессия», выбрав соответствующий пункт меню надстройки «Анализ данных» Microsoft Excel.

В окне ввода исходных данных программы «Регрессия» (рис. 3.5.4) укажем входные интервалы результативного признака Y (B1:B53) и факторных признаков x(1), x(2), x(3), x(4), x(5) (С1:G53). Установим флажок «Метки» (указав,

что в первой строке находятся названия переменных), очистим флажок «Константа — ноль» (чтобы в уравнении присутствовал свободный член a0), уровень надежности (1 – α) указывать не будем (по умолчанию он равен 95%). Укажем, что результаты работы программы необходимо вывести на новый рабочий лист. Укажем также, что необходимо вывести остатки.

Рис. 3.5.4. Окно ввода данных программы «Регрессия»

Результаты работы программы «Регрессия» представлены на рис. 3.5.5.

Оценки

ˆa

= 62,29,ˆa = −3,37,ˆa

= 0,000375,ˆa

= 0,000215,ˆa = 0,088,ˆa = 0,193

 

0

1

2

3

4

5

параметров a0, a1, a2, a3, a4, a5 содержатся в результатах работы программы «Регрессия» (рис. 3.5.5) в выделенной таблице в столбце «Коэффициенты» под заголовками «Y-пересечение», «x(1)», «x(2)», «x(3)», «x(4)», «x(5)» соответ-

ственно. Таким образом, оценка линейной функции регрессии такова:

ˆy

=ˆa +ˆa x(1)

+ˆa x(2)

+ˆa x(3)

+ˆa x(4)

+ˆa x(5)

=

x

0

1

1

1

1

1

 

=62,29 3,37x(1) + 0,000375x(2) + 0,000215x(3) + 0,088x(4) + 0,193x(5) .

Втаблице «Вывод остатка», фрагмент которой приведен на рис. 3.5.5, содержится предсказанное Y — это ˆyi , рассчитанные по построенному

уравнению регрессии, и остатки — это разности (yi ˆyi ) . Зная эти остатки,

можно рассчитать среднюю относительную ошибку аппроксимации (в про-

 

1

n

| y

i

ˆy

|

 

центах): δ =

 

 

i

 

. В условиях примера δ ≈ 0,045 = 4,5%.

 

 

 

 

 

 

n i=1

 

 

yi

 

 

60