Компьютерный практикум по статистике

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Забайкальский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Так как p = 0,002,

p = 0,001,

p = 0,146, гипотезы

: a =0 отвергаются, а гипотеза H(4)

: a =0 не отвергается.

.pdf

Скачиваний:

160

Добавлен:

01.04.2015

Размер:

2.27 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 67 / 147 8 9 10 11 12 13 14 > Следующая >>>

ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,86043
R-квадрат	0,74034
Нормированный	0,71212
R-квадрат
Стандартная ошибка	4,38278
Наблюдения	52

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия	5	2519,3760	503,87520	26,23148	1,99E–12
Остаток	46	883,6045	19,20879
Итого	51	3402,9810

	Коэффициенты	Стандартная	t-статистика	P-Значение	Нижние 95%	Верхние 95%
		ошибка
Y-пересечение	62,29155	7,31952	8,51034	5,29E-11	47,55813	77,02498
x(1)	–3,374930	1,86564	–1,80899	0,07699	–7,13027	0,38041
x(2)	0,000375	0,00013	2,87452	0,00611	0,00011	0,00064
x(3)	0,000215	0,00070	0,30707	0,76018	–0,00119	0,00162
x(4)	0,087983	0,05802	1,51644	0,13625	–0,02880	0,20477
x(5)	0,192832	0,31039	0,62125	0,53750	–0,43195	0,81762

ВЫВОД ОСТАТКА

Наблюдение	Предсказанное Y	Остатки
1	73,88634	0,11366
2	75,16983	–2,16983
3	66,33689	1,66311
4	56,50543	–3,50543
5	69,61122	–3,61122

Рис. 3.5.5. Результаты работы программы «Регрессия»

В таблице «Регрессионная статистика» (рис. 3.5.5) приведены:

∙оценка коэффициента множественной линейной детерминации

ˆ		(1)		(2)		(m)	) = 0,74
2	(Y \| x		, x		,…, x
R

(R-квадрат) — судя по наблюдениям, 74% вариации продолжительности

жизни мужчины обусловлено линейным влиянием на нее среднего числа детей в семье, величины ВВП на душу населения, плотности населения, процента грамотных и рождаемости;

∙оценка коэффициента множественной линейной корреляции

ˆ	(1)	, X	(2)	,…, X	(m)	) = 0,86
R(Y \| X		, X		,…, X		) = 0,86

(Множественный R) — такова, судя по наблюдениям, степень линейной зависимости Y от X(1), X (2), … , X(m);

∙оценка нормированного коэффициента линейной детерминации

Rɶ2(Y | x(1), x(2),…, x(m)) = 0,71,

(Нормированный R-квадрат) — в отличие от коэффициента ˆ2 , который

при включении в имеющуюся линейную регрессионную модель дополнительного регрессора всегда увеличивается, нормированный коэф-

фициент детерминации Rɶ2 может и увеличиваться, и уменьшаться; чем больше Rɶ2 , тем более адекватно уравнение регрессии,

·стандартная ошибка регрессии sELR = 4,38 (стандартная ошибка).

Студенту рекомендуется самостоятельно привести формулы расчета

всех показателей, приведенных в таблице «Регрессионная статистика» 4. а) В таблице «Дисперсионный анализ» (в результатах работы про-

граммы «Регрессия» на рис. 3.5.5) в столбце «df» приводятся количества степеней свободы m = 5, n – m = 46, n – 1 = 51 соответственно случайных величин

n	ˆ		2	n	ˆ		2	n	2
	ˆ				ˆ	- Yi	) , SSитог	=∑(Yi - Y) ,
SSрегр =∑(Yi		- Y) ,		SSост =∑(Yi		- Yi	) , SSитог	=∑(Yi - Y) ,
i=1				i=1				i=1

значения которых, равные соответственно 2519,38, 883,60 и 3402,98, приводятся в столбце «SS»; а в столбце «MS» приведены значения величин

MSрегр = SSрегр / m, MSост = SSост / (n – m – 1),

равные соответственно 503,88 и 19,21. Нетрудно убедиться в том, что

ˆˆ

(

ˆ)

, а SSост

1- R

SSрегр = nsYR

= nsY

Проверка гипотезы H0: a1 = a2 = ××× = am = 0 производится на основе ана-

лиза статистики

SSрегр /m

MSрегр

F − − =

m; n m 1

MSост

SSост /(n - m -1)

)/(n - m -1)

(1- R

имеющей (в предположении справедливости H0) распределение Фишера — Снедекора с m и (n – m – 1) степенями свободы. В данном случае наблюдаемое значение статистики F5; 46 равно 26,23, что больше критической точ-

ки f0,05; 5; 46 = 2,4, поэтому гипотеза H0 отвергается на 5%-ном уровне значимости [для расчета критической точки fα; m; n−m−1 в Microsoft Excel можно вос-

пользоваться функцией fα; k1;k2 = FРАСПОБР(<a>; <k1>; <k2>)].

Гипотезу H0 можно проверить и так: если значимость F (рассчитанный уровень значимости гипотезы H0) оказывается больше принятого уровня значимости a (в данном случае a = 0,05), то гипотезу H0 принимают (и гово-

рят, что уравнение регрессии статистически незначимо, не адекватно), а если значимость F оказывается меньше a, гипотезу H0 отвергают (уравнение значимо, адекватно). Для данной модели значимость F равна 2×10–13 — урав-

нение значимо.

Наблюдаемое значение статистики Fα; m; n−m−1 и рассчитанный уровень

значимости гипотезы H0 приводятся в таблице «Дисперсионный анализ»

(столбцы «F» и «Значимость F»).

б) Проверим теперь гипотезы H0(j) : aj =0 при альтернативах

H1(j) : aj ¹0, j= 1, 2, 3, 4, 5 .

В выделенной таблице (в результатах работы программы «Регрессия» — рис. 3.5.5) в столбце «t-статистика» приводятся значения статистики

T(j)	=ˆa /s		, которая при выполнении гипотезы H(j)	имеет распределе-
n−m−1	j	ˆaj	0

ние Стьюдента с (n – m – 1) степенью свободы. Область отклонения гипоте-

зы H(j)				(на уровне значимости α) такова:				T(j)	> t	α; n−m−1			.
	0							n−m−1		α; n−m−1
	В задаче значение статистики T(1)						равно –1,81, статистики T(2)									— 2,87,
						46									46
статистики T(3)					— 0,31, статистики T(4)		— 1,52, статистики T(5)								— 0,62. Так
				46		46								46
как критическая точка t						= 2,0, то только гипотеза H(2) : a =0 отвергается
					0,05; 46							0		2
(оценка				ˆa параметра a		значима),	а гипотезы					H(1) : a =0, H(3) : a =0,
				2	2								0	1	0	3
H(4)	: a	4	=0, H(5)		: a =0 не отвергаются (оценки ˆˆˆˆa , a , a , a									параметров a , a ,
0		4		0	5				1	3	4		5			1	3

a4, a5 незначимы).

В той же таблице в столбце «P-значение» приводятся рассчитанные уровни значимости гипотез H0(j) — это вероятности pj = 2P{Tn(−j)m−1 >|t(j) |}

(гипотезу H0(j) отвергают при альтернативе H1(j) , если pj < α).

Так как p1 = 0,076, p2 = 0,006, p3 = 0,760, p4 = 0,136, p5 = 0,538, то только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(3) :a3 =0, H0(4) : a4 =0 , H0(5) : a5 =0 не отвергаются.

Эти же гипотезы можно проверить при помощи интервальных оценок параметров уравнения регрессии. Все в той же таблице в столбцах «Нижние 95%» и «Верхние 95%» приводятся нижние и верхние границы интервальных оценок

параметров a1, a2, a3, a4, a5.

Поскольку только в интервал (0,0001; 0,0006) не попадает нуль, то только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(3) : a3 =0, H0(4) : a4 =0, H0(5) : a5 =0 не отвергаются.

Результаты, полученные в п. 4 и далее в п. 5, систематизированы в табл. 3.5.2. (Студент должен приложить к работе распечатки результатов всех расчетов, полученных с помощью компьютерных программ.)

5. Таким образом, в построенном уравнении регрессии большинство коэффициентов оказались незначимы, и такое уравнение нельзя считать приемлемым.

∙Исключим из уравнения регрессор x(3), при котором коэффициент не-

значим, а соответствующая этому коэффициенту абсолютная величи-

на значения статистики T46(3) , равного 0,31, является наименьшей (рас-

считанный уровень значимости p3 = 0,760 является наибольшим).

Оценка линейной функции регрессии будет такой:

ˆy	=ˆa +ˆa x(1)	+ˆa x(2)	+ˆa x(4)	+ˆa x(5)	=
x	0 1	1	1	1

= 62,93 − 3,52x(1) + 0,000383x(2) + 0,082x(4) + 0,206x(5) .

стандартная ошибка sELR = 4,34, средняя относительная ошибка аппроксимации δ ≈ 4,6%, оценка коэффициента множественной линейной

корреляции равна 0,86, оценка коэффициента множественной линейной детерминации равна 0,74, оценка нормированного коэффициента множественной линейной детерминации равна 0,72.

										Т а б л и ц а 3.5.2
Шаг	Уравнение, интервальные оценки коэффициентов,		2	ɶ	2	s		δ	F	f
Шаг		ˆ		ɶ		s	ELR	δ	F	f
	наблюдаемые значения статистики T, P-значения	R		R			ELR			0,05; m; n−m−1
	наблюдаемые значения статистики T, P-значения

	ˆy	=	62,29 − 3,37x(1) + 0,000375x(2) + 0,000215x(3) + 0,088x(4) + 0,193x(5)
1	x		(47,56;77,02) (−7,13;0,38) (0,000112;0,000637) (−0,001193;0,001623)					(−0,029;0,205)	(−0,432;0,818)	0,74	0,71	4,38	4,5%	26,23	2,417
1								(−0,029;0,205)	(−0,432;0,818)	0,74	0,71	4,38	4,5%	26,23	2,417
	(t0,05; 46 =2,013)				−1,81	2,87	0,31	1,51	0,62
					0,076	0,006	0,760	0,136	0,538

	ˆy		=	62,92 − 3,52x(1) + 0,000383x(2) + 0,082x(4) + 0,206x(5)
2		x		(48,95;76,91)	(−7,11;0,078)	(0,000128;0,000638)	(−0,026;0,191)	(−0,407;0,818)		0,74	0,72	4,34	4,6%	33,41	2,570
2				(48,95;76,91)	(−7,11;0,078)	(0,000128;0,000638)	(−0,026;0,191)	(−0,407;0,818)		0,74	0,72	4,34	4,6%	33,41	2,570
	(t0,05; 47	=2,011)			−1,97	3,02	1,51	0,676
					0,055	0,004	0,136	0,502

	ˆy		=	64,88 − 2,42x(1)		+ 0,000328x(2) + 0,079x(4)
3		x		(52,24;77,52)	(−3,86; −0,96)	(0,000133; 0,000524)	(−0,029;0,187)			0,74	0,72	4,32	4,6%	44,90	2,798
3				(52,24;77,52)	(−3,86; −0,96)	(0,000133; 0,000524)	(−0,029;0,187)			0,74	0,72	4,32	4,6%	44,90	2,798
	(t0,05; 48	=2,011)			−3,35	3,38	1,47
					0,002	0,001	0,146

	ˆy		=	73,68 − 3,22x(1)		+ 0,000349x(2)
4		x		(69,59;77,77)	(−4,18; −2,27)	(0,000153;0,000544)				0,73	0,71	4,37	4,8%	64,70	3,187
4				(69,59;77,77)	(−4,18; −2,27)	(0,000153;0,000544)				0,73	0,71	4,37	4,8%	64,70	3,187
	(t0,05; 49	=2,009)			−6,77	3,58
					0,000000015	0,00079

								-коэффици оценки »),intervals Confidence дисперсионные и детерминации ентов .»)fit Model(« таблицы	вывести нужно программы работы Regression(« модели параметров оценки -доверитель их »),Estimates Coefficients: Coefficients: Regression(« интервалы ные	меню »…Linear \| Regression« меню пункт -необхо окне появившемся В .»Statistics« признак результативный указать димо признаки факторные »),Dependent(« алгоритм выбрать и »)Independent(s)(« регрессоров исключения пошагового -вызывае окне, В .»)Backward Method:(« -не »,…Statistics« кнопки нажатием мом результатах в что указать, обходимо				исходные ввести нужно этого Для .SPSS выбрать и SPSS лист рабочий в данные	.табл получения Для .Замечание -над »Регрессия« программы вместо 2.5.3 пакета »данных Анализ« стройки воспользоваться можно Excel Microsoft пакета »Regression Linear« программой

Гипотеза H0 о том, что все параметры при регрессорах одновременно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 3,3×10–13) меньше принятого уровня значимости a = 0,05.

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

ент незначим, а соответствующая этому коэффициенту абсолютная величина значения статистики T46(3) , равного 0,68, является наимень-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)	ˆ (2)	ˆ (4)	= 64,88 - 2,42x	(1)	+ 0,000328x	(2)	+ 0,079x	(4)	,
yx = a0 + a1x	+ a1x	+ a1x	= 64,88 - 2,42x		+ 0,000328x		+ 0,079x		,

стандартная ошибка sELR = 4,32, средняя относительная ошибка аппроксимации d » 4,6%, оценка коэффициента множественной линейной

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня значимости a = 0,05.

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:


ˆ ˆ ˆ (1)	ˆ (2)	ˆ	(4)	= 64,88 - 2,42x		(1)	+ 0,000328x	(2)	+ 0,079x	(4)	,
yx = a0 + a1x	+ a1x	+ a1x		= 64,88 - 2,42x			+ 0,000328x		+ 0,079x		,
стандартная ошибка sELR = 4,32,					средняя относительная ошибка ап-

проксимации d » 4,6%, оценка коэффициента множественной линейной

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 5,7×10–14) меньше принятого уровня зна-

чимости a = 0,05.					: a =0,
	Так как p = 0,002,	p = 0,001,	p = 0,146, гипотезы	H(1)	: a =0,
	1	2	4	0	1
H(2)	: a =0 отвергаются, а гипотеза H(4) : a =0 не отвергается.
0	2	0	4

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)	ˆ (2)	ˆ (4)	= 64,88 - 2,42x	(1)	+ 0,000328x	(2)	+ 0,079x	(4)	,
yx = a0 + a1x	+ a1x	+ a1x	= 64,88 - 2,42x		+ 0,000328x		+ 0,079x		,

Гипотеза H0 о том, что все параметры при регрессорах одновре-

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)	ˆ (2)	ˆ (4)	= 64,88 - 2,42x	(1)	+ 0,000328x	(2)	+ 0,079x	(4)	,
yx = a0 + a1x	+ a1x	+ a1x	= 64,88 - 2,42x		+ 0,000328x		+ 0,079x		,

Гипотеза H0 о том, что все параметры при регрессорах одновре-

чимости a = 0,05.					: a =0,
	Так как p = 0,002,	p = 0,001,	p = 0,146, гипотезы	H(1)	: a =0,
	1	2	4	0	1
H(2)	: a =0 отвергаются, а гипотеза H(4) : a =0 не отвергается.
0	2	0	4

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

ент незначим, а соответствующая этому коэффициенту абсолютная

величина значения статистики T46(3) , равного 0,68, является наимень-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)	ˆ (2)	ˆ (4)	= 64,88 - 2,42x	(1)	+ 0,000328x	(2)	+ 0,079x	(4)	,
yx = a0 + a1x	+ a1x	+ a1x	= 64,88 - 2,42x		+ 0,000328x		+ 0,079x		,

Гипотеза H0 о том, что все параметры при регрессорах одновре-

	Так	как p = 0,002,	p = 0,001,	p = 0,146, гипотезы	H(1)	: a =0,
		1	2	4	0	1
H(2)	: a =0	отвергаются, а гипотеза H(4) : a =0 не отвергается.
0	2		0	4

Так как p1 = 0,055, p2 = 0,004, p4 = 0,136, p5 = 0,502, только гипотеза H0(2) : a2 =0 отвергается, а гипотезы H0(1) : a1=0, H0(4) : a4 =0, H0(5) : a5 =0 не

отвергаются.

·Теперь исключим из уравнения регрессор x(5), при котором коэффици-

ент незначим, а соответствующая этому коэффициенту абсолютная

величина значения статистики T46(3) , равного 0,68, является наимень-

шей (рассчитанный уровень значимости p3 = 0,502 является наиболь-

шим). Оценка линейной функции регрессии будет такой:

ˆ ˆ ˆ (1)	ˆ (2)	ˆ (4)	= 64,88 - 2,42x	(1)	+ 0,000328x	(2)	+ 0,079x	(4)	,
yx = a0 + a1x	+ a1x	+ a1x	= 64,88 - 2,42x		+ 0,000328x		+ 0,079x		,

Гипотеза H0 о том, что все параметры при регрессорах одновре-

Так как p = 0,002,	p = 0,001,	p = 0,146, гипотезы	H(1)	: a =0,
1	2	4	0	1

H0(2) : a2 =0 отвергаются, а гипотеза H0(4) : a4 =0 не отвергается.

·Исключим регрессор x(4), при котором коэффициент незначим, оценка

линейной функции регрессии будет такой:


ˆ ˆ ˆ (1)	ˆ	(2)	= 73,68 - 3,22x		(1)	+ 0,000349x	(2)	.
yx = a0 + a1x	+ a1x		= 73,68 - 3,22x			+ 0,000349x		.
стандартная ошибка sELR = 4,37,				средняя относительная ошибка ап-

проксимации d » 4,8%, оценка коэффициента множественной линейной

корреляции равна 0,85, оценка коэффициента множественной линейной детерминации равна 0,73, оценка нормированного коэффициента множественной линейной детерминации равна 0,71.

Гипотеза H0 о том, что все параметры при регрессорах одновре-

менно равны нулю, отвергается на 5%-ном уровне значимости, поскольку значимость F (равная 1,8×10–14) оказалась меньше принятого уровня значимости a = 0,05.

Так как p1 = 1,5×10–8, p2 = 7,9×10–4, гипотезы H0(1) : a1=0, H0(2) : a2 =0 от-

вергаются.

Замечание. Для получения табл. 3.5.2 вместо программы «Регрессия» надстройки «Анализ данных» пакета Microsoft Excel можно воспользоваться программой «Linear Regression» пакета SPSS. Для этого нужно ввести исходные данные в рабочий лист SPSS и выбрать пункт меню «Regression | Linear…» меню «Statistics». В появившемся окне необходимо указать результативный признак Y («Dependent»), факторные признаки x(1), x(2), x(3), x(4), x(5) («Independent(s)») и выбрать алгоритм пошагового исключения регрессоров («Method: Backward»). В окне, вызываемом нажатием кнопки «Statistics…», необходимо указать, что в результатах работы программы нужно вывести оценки параметров модели («Regression Coefficients: Estimates»), их доверительные интервалы («Regression Coefficients: Confidence intervals»), оценки коэффициентов детерминации и дисперсионные таблицы («Model fit»).

6. Наилучшим уравнением является полученное на четвертом шаге (см. табл. 3.5.2), поскольку и само уравнение, и все его коэффициенты значимы. Обратим внимание на то, что в это уравнение оказались включены факторы X(1) и X(2), линейная связь между которыми, судя по наблюдениям, невелика: ˆ| r(X(1); X(2)) |= 0,576. Судя по этому уравнению:

а) более 70% дисперсии продолжительности жизни мужчины (Y) связано с линейным влиянием среднего числа детей в семье x(1) и ВВП на

	(2)	ˆ	= 0,73 );
душу населения x		(так как R	= 0,73 );

б) рассчитанное по уравнению число ˆyi — это точечная оценка гене-

рального среднего значения продолжительности жизни мужчины при условии, что значения факторных признаков (среднего числа детей в семье x(1) и ВВП на душу населения x(2)) зафиксированы на каких-то уровнях, а именно

x(1) = xi(1), x(2) = x(2)i . Например, точечная оценка генерального среднего зна-

чения продолжительности жизни мужчины при значениях регрессоров на первом объекте (в Австралии) равна

ˆy = 73,68 - 3,22×1,9 + 0,000349×16 848 = 73,43,

а реальная продолжительность жизни мужчины в Австралии равна y1 = 74,

остаток y −ˆy = 0,57. В тех странах, в которых остатки y	i	−ˆy	положитель-
1 1	i	i

ны, продолжительность жизни мужчины выше среднего уровня, а в тех странах, где остатки отрицательны — ниже среднего уровня. Так, например,

в Австралии y −ˆy = 0,57		, а в Австрии y −ˆy = −2,25.
1	1	2	2

Студенту предлагается самостоятельно построить 95%-ную интервальную оценку генеральной средней продолжительности жизни мужчины при

x(1) = x1(1), x(2) = x1(2) ;

в) увеличение среднего числа детей в семье x(1) на единицу [при не-

изменном значении x(2)] сопровождается наибольшим изменением средней

продолжительности жизни мужчины (уменьшением на 3,22 года); увеличение x(1) на единицу сопровождается и наибольшим максимально возможным

с 95%-ной вероятностью изменением результативного признака (уменьшением средней продолжительности жизни мужчины на 4,18 года), так как 95%-ные интервальные оценки параметров a1 и a2 таковы: (–4,18; –2,27) и

(0,000153; 0,000544);

г) анализ коэффициентов эластичности

ˆx(1)

2,83

ˆx(2)

8421,9

ЭY|x(1)

= a1

= -3.22×

= -0,135, ЭY|x(2)

= a2

= 0,000349×

= 0,044

67,48

показывает, что увеличение среднего числа детей в семье x(1) на 1% (при неизменном значении x(2) сопровождается наибольшим процентным измене-

нием средней продолжительности жизни мужчины — ее уменьшением на 0,135%; увеличение среднего числа детей x(1) на 1% сопровождается и наи-

большим максимально возможным с 95%-ной вероятностью процентному изменением средней продолжительности жизни мужчины — ее уменьшением на -4,18× 67,482,83 = 0,175%.

3.6. К о м п о н е н т н ы й и ф а к т о р н ы й а н а л и з

1. В м о д е л и к о м п о н е н т н о г о а н а л и з а предполагается, что каждый признак X(j) (j = 1, 2, 3, 4, 5) формируется как линейная комбинация т а к о г о ж е ч и с л а латентных факторов — компонент F(1), F(2), F(3), F(4), F(5), влиянием которых объясняется суммарная дисперсия признаков

X(1), X(2), X(3), X(4), X(5):

X(j) = a

F(1)

+ a

F(2)

+ a

F(3)

+ a

F(4)

+ a

F(5)

; i = 1, 2,…,52; j = 1, 2, 3, 4,5.

j1 i

К компонентам F(1), F(2), F(3), F(4), F(5) предъявляются следующие требования:

∙они должны быть некоррелированы между собой;

∙они должны выделяться таким образом, чтобы влиянием первой компоненты объяснялось максимальная доля суммарной дисперсии всех признаков, влиянием второй компоненты — максимальная доля оставшейся суммарной дисперсии и т. д.

Для реализации компонентного анализа воспользуемся пакетом PASW

Statistics. Откроем в окне ввода данных PASW Statistics сохраненную при выполнении п. 1 работы 5 матрицу значений признаков Y, X(1), X(2), X(3), X(4), X(5).

Обратимся (с помощью выбора пункта «Снижение размерности | Факторный анализ…» меню «Анализ») к программе «Факторный анализ»

для компонентного анализа признаков X(1), X(2), X(3), X(4), X(5) (рис. 3.6.1, а), выберем в окне «Факторный анализ: Выделение факторов», вызываемом нажатием кнопки «Извлечение…», метод главных компонент и зададим фиксированное число факторов, равное пяти (рис. 3.6.1, б).

Поскольку исходные признаки разнородны по содержательному смыслу и имеют разные единицы измерения, компонентный анализ будем проводить с использованием матрицы корреляций (а не ковариаций) матрицы; укажем это в окне «Факторный анализ: Выделение факторов» (см. рис. 3.6.1, б).

Установим флажок «Сохранить как переменные» в окне «Факторный анализ: Значения факторов», вызываемом нажатием кнопки «Значения факторов…» — тогда значения пяти компонент на 52 объектах автоматически

добавятся в виде переменных к исходным данным; установим также флажок «Вывести матрицу значений коэффициентов факторов», который позво-

ляет получить в результате работы программы матрицу нагрузок компонент на исходные признаки (рис. 3.6.1, в).

2. а) Обратимся к числовым результатам работы программы (рис. 3.6.2). На основе анализа таблицы «Полная объясненная дисперсия»

можно сделать вывод о том, что вклад первой компоненты в суммарную дисперсию признаков X(1), X(2), X(3), X(4), X(5) составляет 65,23%, второй компо-

ненты — 20,49%, третьей — 10,21%, и т. д., при этом общий вклад первых двух компонент в суммарную дисперсию равен 85,72%. График зависимости доли суммарной дисперсии исходных признаков, объясненной первыми k компонентами, от k представлен на рис. 3.6.3.

<<< < Предыдущая 1 2 3 4 5 67 / 147 8 9 10 11 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
14.03.2016971.87 Кб329Книга.docx
#
14.03.201692.67 Кб18КОЛЛЕКТИВНОЕ ПЛАНИРОВАНИЕ.doc
#
20.11.201956.6 Кб6комерция сдача.docx
#
07.11.2018155.14 Кб8Коммутаторы.doc
#
14.03.20161.06 Mб74Компьютерные сети_ТЗИ_пособие.doc
#
01.04.20152.27 Mб160Компьютерный практикум по статистике.pdf
#
27.04.2019190.46 Кб43конечный результат курсовой.doc
#
20.09.201949.61 Кб1Конкурсное производство.docx
#
09.11.20194.36 Mб27Конспект лекций для СЭЗ авг 15 2003.doc
#
14.03.2016331.31 Кб19конспект по истории педагогике.docx
#
14.03.20162.25 Mб13Конституционное экзамен.doc