Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Харьковский национальный экономический университет им. С. Кузнеца

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

ТВиМС.Малярец.Егоршин 22.12.12

.pdf

Скачиваний:

Добавлен:

11.06.2015

Размер:

6.76 Mб

Скачать

☆

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 1617 / 3117 18 19 20 21 22 23 24 25 26 27 28 29 > Следующая >>>

В последней строке и последнем столбце таблицы вычислены средние

групповые Ui

и Vj.

Вычисляем параметры линейной модели.

Хс =

kiXi / n =3,734; (Х2)ср =

ki(Xi)2 / n = 16,188; (sX)2 =(Х2)ср – (Хср)2 = 2,247;

Yср= ljYj / n=2,825; (Y2)ср =

lj(Yj)2 / n =9,500; (sY)2 = (Y2)ср – (Yср)2 = 1,521;

(XY)cp =

mijXiYj / n = 9,130;

sXY = (XY)cp – Хср Yср = –1,417;

rXY = sXY / (sX sY) = –0,766;

(rXY)2 = 0,587;

b1 = rXY (sY / sX) = –0,630;

b0 = Yср – b1 Хср = 5,179.

Линейной моделью Yp = 5,179 – 0,630 X объясняется 58,7 % общей измен-

чивости

данных. Эта

модель значима, так

как

дисперсионное отношение

r 2

n 2

216,2

превышает табличное значение F0,01(1; 152) = 6,80.

1 rxy

Вычисляем индексы детерминации.

p = 7; Ucp = Ycp = 2,825; (U2)cp =

ki(Ui)2 / n = 8,948;

(sU)2 =(U2)ср – (Uср)2 = 0,969;

q = 6;

Vcp = Xcp = 3,734; (V2)cp =

lj(Vj)2 / n = 15,338;

(sV)2 = (V2)ср – (Vср)2 = 1,397;

0,969

1,397

0,637

;

0,622 .

y / x

sY2

1,521

x / y

sX2

2,247

Корреляционной зависимостью у / х объясняется 63,7 % общей изменчи-

вости данных (сопряженной зависимостью х / у объясняется 62,2	%). Корреля-
ционная зависимость значима, так как дисперсионное	отношение

		2	n p
F			n p

	1	2	p 1
		2	p 1

43,05 превышает табличное значение F0,01(6; 147) = 2,93.

Проверяем адекватность линейной								модели. Вычисляем дисперсионное
отношение FA	2 rXY2			n	p	4,06	и сравниваем его с табличными значениями
	1	2		p	2

F0,05(5; 147) = 2,28		и	F0,01(5; 147)				= 3,14.	Так	как вычисленное	значение
FA = 4,06 > F0,01 ,	систематической						ошибкой		пренебречь нельзя,	линейная

модель неадекватная, требуется найти более подходящую нелинейную форму связи.

На рис. 15.6а изображены графики эмпирической и теоретической регрессии, откуда видно, что, действительно, зависимость нелинейная, узлы эмпирической линии регрессии закономерно уклоняются от графика линейной регрессии.

161

а) б)

Рис. 15.6. Соответствие между эмпирической и теоретической регрессиями

(а – линейная модель Yp = 5,179 – 0,630 X; б – нелинейная модель

0,212

11,03 )

X 1

Для каждого узла (среднего группового) построены 95-процентные дове-

1 2

1,50

рительные интервалы шириною

НСР0,05

, где HCP

0,05

Крайние узлы на рис. 15.6а существенно уклоняются от линейной регрессии, ее график не пересекает крайних доверительных интервалов.

На рис. 15.6б построен график нелинейной зависимости Yp a b , ко-

X 1

торый пересекает доверительные интервалы для всех узлов эмпирической линии регрессии. Коэффициент детерминации возрос до R2 = 0,611; дисперсионное отношение FA = 2,12 понизилось и стало уже меньше табличного FA < F0,05 . Найденная нелинейная модель адекватная.

Таблицы сопряженности и коэффициенты контингенции

Если обе переменные качественные, измеренные в наиболее общей шкале имен, то таблицу частот mij совместного появления категорий (Xi , Yj) разных переменных называют таблицей сопряженности. В этой таблице Xi и Yj – имена категорий (не числа), поэтому никакие арифметические операции с ними невозможны. Как и для корреляционной таблицы, подсчитывается общая сумма частот n , а также суммы частот по столбцам ki и строкам lj таблицы.

Относительные частоты	k	i	,	l j	есть оценки вероятностей появления кате-
				n
	n

горий Xi и Yj . Проверяется гипотеза о независимости качественных переменных X, Y (нуль-гипотеза). Имеется возможность определить теоретические

162

частоты	~	совместного появления любой комбинации категорий (Xi , Yj), ко-
	mij

торые ожидаются при справедливости нуль-гипотезы. Действительно, при взаимной независимости категорий (Xi , Yj) вероятность совместного появления та-

l j

кой комбинации равна произведению их вероятностей

, откуда получаем

ki l j

ожидаемые частоты в виде

mij

Наблюдаемые и ожидаемые частоты сравниваем по критерию Пирсона:

mij

n n

mij

1 .

ki l j

mij

Табличные значения

находим для ЧСС = (р – 1)(q – 1), где р, q – чис-

ло категорий для X, Y.

Если окажется, что

, нуль-гипотеза отклоняется и делается вы-

0,01

вод о том, что переменные X, Y связаны между собой. Тогда появляется проблема оценки тесноты этой связи. Предложено несколько мер тесноты связи между качественными переменными, из которых мы рассмотрим две – коэффи-

циент контингенции Крамера C					и коэффициент контингенции Кендала
циент контингенции Крамера C				2	и коэффициент контингенции Кендала
				2
				max

	2
K			. При абсолютном совпадении наблюдаемых и ожидаемых частот
K	2		. При абсолютном совпадении наблюдаемых и ожидаемых частот
	2	n
	max	n
	max

статистика Пирсона 2 равна нулю и равны нулю оба коэффициента контингенции.

Максимальное значение	2	получается при наиболее тесной связи, ко-
	max

гда каждой категории одной переменной соответствует только одна категория другой переменной (функциональ-

ное соответствие).

Так как категории можно переставлять, при наиболее тесной связи таблица сопряженности приобретает блочно-диагональный вид (рис. 15.7). Пусть p > q (например, р = 4, q = 3). Вычисляем для этого случая статистику Пирсона:

	X1	X2	X3	X4	lj
Y1	m11	m12			m11+m12
Y2			m22		m22
Y3				m33	m33
ki	m11	m12	m22	m33	n

Рис. 15.7. Функциональная связь

между категориями

163

2 max

mij2

m112

m122

m222

m332

ki l j

m11

m12

m12 m11

m12

m22m22

m33m33

m11

m12

1 1 1 n 1 1 1 1 n 3 1 n q 1 .

m11 m12

m11

m12

Таким образом, коэффициент контингенции Крамера можно записать в виде:

где d = min{p, q}.

2	2
			,
2		n d 1	,
max

Коэффициент контингенции Кендала изменяется от 0 до

d 1

1 .

Скорректируем его: KK

Как правило, оказывается, что С

КК.

Пример. Рассмотрим корреляционную таблицу на рис.

15.5 размером

6 7 с числом наблюдений n = 154 и будем считать значения переменных X, Y именами различных категорий. Суммы частот по столбцам и строкам таблицы уже найдены.

												m2
	Ниже в таблице такого же размера (рис. 15.8) подсчитаны отношения											ij	.
													.
												ki l j

		X	X1	X2	X3		X4	X5	X6	X7
		Y	X1	X2	X3		X4	X5	X6	X7
		Y6	0,429	0	0		0	0	0	0
		Y5	0,044	0,154	0,022		0	0	0	0
		Y4	0,021	0,334	0,019		0,010	0	0,003	0
		Y3	0	0,035	0,293		0,116	0,011	0	0
		Y2	0	0	0,011		0,097	0,269	0,046	0,059
		Y1	0	0	0		0,034	0,112	0,136	0,030
			Рис. 15.8. Расчет статистики Пирсона
	Вычисляем		их	сумму		(2,29)		и	статистику		Пирсона
2 = 154 (2,29 – 1) = 198,7,				которую сравниваем с					табличным		значением
2	6 5 15,0 .
0,01	6 5 15,0 .
	Так как	2	2
	Так как		0,01 , делаем вывод о существовании значимой связи между

X и Y.

164

Коэффициенты контингенции Крамера, Кендала и скорректированный коэффициент КК равны соответственно:


	198,7				198,7
C		0,508	, K				0,751, KK K	6	0,822 .
	154 5			198,7		154		5

Сравним эти меры с коэффициентом корреляции | rXY | = 0,766 и с корреляционным отношением 0,637 0,798 .

Соответствие между скорректированным коэффициентом контингенции Кендала и корреляционным отношением – самой объективной мерой тесноты корреляционной связи между количественными переменными – очень хорошее

(КК ).

Коэффициент ранговой корреляции Спирмена

Если X, Y – порядковые переменные, то с ними не допустимы никакие арифметические операции, например, разность двух значений (xj – xi) ничего не означает, так как из сравнения xj > xi следует только, что одно значение больше другого, но неизвестно, на сколько больше.

Если переменные ранжированы, то их ранги являются номерами при расположении значений переменной в порядке возрастания какого-то признака. Так, из сравнения рангов x3 = 3 и x6 = 6 следует, что между элементами x3 и x6 есть еще два элемента с рангами x4 = 4 и x5 = 5.

Если несколько элементов неразличимы по данному признаку, то им всем присваивается средний ранг из их номеров по порядку. Такие группы переменных называются связками.

Спирмен вывел формулу для оценки тесноты связи между ранжированными переменными, причем при выводе не использовались никакие сомнительные арифметические операции. Формула эта достаточно простая при отсутствии связок, но усложняется при их наличии.

Кендал доказал, что коэффициент ранговой корреляции Спирмена численно равен коэффициенту парной корреляции Пирсона, если ранги считать числовыми значениями переменных.

Еще раз отметим, что вовсе не утверждается, что с рангами всегда можно поступать, как с обычными числами, но коэффициент ранговой корреляции можно рассчитывать обычным образом вручную или по готовым программам на компьютере.

165

Вывод формулы для коэффициента ранговой корреляции Спирмена

Пусть pk , qk – ранги двух показателей X и Y. Рассмотрим случай отсутствия связок (групп одинаковых рангов).

Наблюдения всегда можно отсортировать в порядке возрастания одной из переменных: pk = k = 1, 2, 3, … , n.

Ранги qk – те же числа, но в другом порядке.

Мерою тесноты связи между показателями X и Y может быть сумма квадратов разностей рангов:

	n	2 .
S	pk qk	2 .
k	1

Если ранги двух показателей совпадают pk = qk , то S = 0, и это соответствует наиболее тесной положительной связи.

Если порядок следования qk противоположен порядку следования pk , то S = Smax , что соответствует наиболее тесной отрицательной связи. Необходимо

найти величину Smax . Для этого случая имеем															pk + qk = n + 1,					pk = k,			qk = n + 1 –
k, pk – qk = 2k – (n + 1). Отсюда						следует:
Smax =		(2k – (n + 1))2 = 4									k2 – 4 (n + 1)							k + (n + 1)2 n.
Поскольку известны формулы для сумм и сумм квадратов последователь-
ных целых чисел:
n					n n	1			n	k 2			12		22	32			n2		n n 1		2n 1
k 1 2	3	...		n	n n	1		,										...			n n 1		2n 1	,
k 1 2	3	...		n	2			,										...				6		,
k 1					2				k 1													6
k 1									k 1
то окончательно получаем:
Smax		4	n n 1 2n 1				4 n			1		n n 1			n	1	2	n	n 1 n n 1			.
Smax		4		6			4 n			1			2		n	1		n	3			.
Вместо меры S вводим меру связи Спирмена:
									S						pk	qk	2
					1	2			S		1		6		pk	qk		,
					1	2			S max		1		6	n	1 n n 1			,
									S max					n	1 n n 1
которая равна	= 1	для S = 0 (для наиболее тесной положительной связи) и

= –1 для S = Smax (для наиболее тесной отрицательной связи).

Полученная формула существенно усложняется при наличии связок – групп неразличимых объектов, для которых принимаются одинаковые значения рангов, средних для каждой группы.

Пусть t – количество неразличимых объектов в связке для показателя X, а

– количество неразличимых объектов в связке для показателя Y.

166

Вычисляем поправки: A	t t 2	1	,	B		2		1		и скорректированный ко-
Вычисляем поправки: A	n n 2	1	,	B			n n 2	1		и скорректированный ко-
	n n 2	1					n n 2	1
					A		B

эффициент ранговой корреляции:	s					2			.

		1		A			1 B

Пример. Определим тесноту связи между уровнем механизации работ X и производительностью труда Y по 10-ти промышленным предприятиям.

На рис. 15.9 данные ранжированные, в рангах показателя Y имеется одна связка из двух объектов (два предприятия с одинаковой производительностью труда).

k	pk	qk	pk–qk	(pk–qk)2	(pk)2	(qk)2	pkqk
1	1	4	–3	9	1	16	4
2	2	1	1	1	4	1	2
3	3	2	1	1	9	4	6
4	4	3	1	1	16	9	12
5	5	7	–2	4	25	49	35
6	6	5	1	1	36	25	30
7	7	6	1	1	49	36	42
8	8	8,5	–0,5	0,25	64	72,25	68
9	9	8,5	0,5	0,25	81	72,25	76,5
10	10	10	0	0	100	100	100
Суммы	55	55	0	18,5	385	384,5	375,5
Рис. 15.9. Ранжированные данные уровня механизации
		и производительности труда

Вычисляем коэффициент ранговой корреляции Спирмена без поправки на


		2		18,5
связку:	1 6	pk qk	1 6	18,5		0,88788 .
связку:	1 6	n 1 n n 1	1 6	9 10 11		0,88788 .
Вычисляем поправку			B		1	1		1 2 3
Вычисляем поправку			B		n 1 n n 1		9 10 11
					n 1 n n 1		9 10 11

рованный коэффициент ранговой корреляции:

		A	B
				0,88788 0,00303
	2			0,88788 0,00303
s
s	1 A		1 B	1 0,00606
	1 A		1 B	1 0,00606

1	0,00606	и скорректи-
165

0,88754 .

Для сравнения вычисляем обычный коэффициент парной корреляции Пирсона. Все необходимые суммы подсчитаны в вышеприведенной таблице

(см. рис. 15.9).

167


s2p	p2		p2	38,5	5,52		8,25; sq2 q2 q 2			38,45 5,52 8,2;
						2			s pq	7,3
s pq		pq	pq	37,55	5,5	2	7,3; rpq		s pq	7,3	0,88754.
								s p sq
										8,25 8,2
										8,25 8,2
Полученные значения					s и rpq совпали со всеми десятичными знаками.

Покажем, что коэффициент ранговой корреляции Спирмена совпадает с обычным коэффициентом парной корреляции Пирсона, вычисленным по рангам = rpq . Так как pk = k, а qk – те же числа, но в другом порядке, то будут

равны

средние

n 1

дисперсии

s2p

sq2

q2 p2 ,

n 1 2n 1

n 1 2

Преобразуем выражение

S n s2p

sq2

2s pq

2n s2p

s pq

2ns2p 1 rpq .

1 rpq

Отсюда:

1 6

2ns p

1 1

rpq

rpq .

n n

12ns p

Итак, формально коэффициент ранговой корреляции Спирмена равняется обычному коэффициенту парной корреляции Пирсона, вычисленному по рангам pk , qk.

Вопросы для самопроверки

1.Какая разница между понятиями значимость корреляционной связи и значимость регрессионной модели?

2.Что такое коэффициент детерминации, каковы его свойства?

3.Как вычисляется корреляционное отношение? Каковы его свойства?

4.Как проверяется адекватность регрессионной модели?

5.Чем отличаются расчеты параметров модели по исходным и по сгруппированным данным?

6.Что такое коэффициент контингенции?

7.Как вычисляются коэффициенты контингенции Крамера и Кендала?

8.Как проверить значимость коэффициентов контингенции?

9.Что такое коэффициент ранговой корреляции Спирмена? Как его можно вычислить?

168

16. Линейный регрессионный анализ в стандартизованных переменных

Традиционно все формулы многомерного линейного регрессионного анализа записывают в стандартизованных переменных:

Y	y y	,	X i	xi xi	.

	s y			sx
				i

В этих переменных многие формулы принимают простейший вид, поэтому сложные вопросы анализа чаще всего обсуждаются именно в стандартизованных переменных.

Стандартизация позволяет выявить некоторые сомнительные значения данных, например выбросы, которые могут появиться в результате ошибок при переписывании и наборе данных. Кроме описок, опечаток, ошибок измерения, выбросы могут быть следствием принадлежности сомнительных данных до другой совокупности (например, когда в выборку включают данные о продукции другого предприятия за другой временной период, когда часть наблюдений измерена другим прибором с другой шкалой калибровки и т. д.). Конечно, такие данные следует удалить из выборки и изучать отдельно. Возможность выявления выбросов основана на правиле «3-х сигм», которое утверждает, что крайне редко встречаются случайные ошибки, превышающие по модулю утроенное стандартное отклонение. Обычно все значения стандартизованных переменных Y, Xi не выходят за пределы интервала (–3, 3), а если встречаются большие отклонения, то такие данные следует выделять и проверять. Чаще всего границы интервала вариации стандартизованных переменных оказываются близкими к

(–2, 2).

Сразу же отметим, что, несмотря на более простой вид формул регрессионного анализа в стандартизованных переменных, никакого сокращения объема вычислительной работы не будет, так как добавляются операции нормирования переменных, более сложного составления системы нормальных уравнений и обратного перехода к исходным переменным после завершения вычислений.

Итак, последовательно преобразуем уравнение регрессии y p b0 b1x1 b2 x2 ... bm xm e

к центрованной и стандартизованной формам:

y y

b1 x1

b2 x2

x2 ...

bm xm

e ;

y y

...

;

169

1 X1

2 X 2

...

m X m

y y

где обозначено

, X

i i

s y

i s y

s y

Внимание! Обычно коэффициенты регрессии bj и остатки модели ei рассматривают как оценки соответствующих генеральных значений j , i . Однако

теперь обозначения j ,	i используются как выборочные оценки (только в стан-
дартизованных переменных).
На стадии центрирования уже было использовано одно из уравнений
нормальной системы e	0 (или	0 ), поэтому в окончательной записи урав-

нения регрессии в стандартизованных переменных отсутствует свободный член

0 = 0.

Составляем остальные уравнения нормальной системы ( Xi

0 )

YX i

j X i X j

1, 2, ..., m ,

которую приводим к виду:

ryx

2rx x

...

m rx x

ryx

1rx

...

mrx

m ,

2 1

... ... ... ... ... ... ... ...

ryx

1rx

2rx

...

m 1

так как для стандартизованных переменных X i X j

rxi x j

, Xi Xi

rxi xi 1.

Формулу для расчета остаточной дисперсии получаем, преобразовывая

выражение:

j X jY

Y ,

где YY r

1, X

Y :

yx j

...

r .

1 yx

m yx

Отсюда получаем очень простую и легко запоминаемую формулу для

расчета коэффициента детерминации:

se2

...

r .

s2y

1 yx1

2 yx2

m yxm

170

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 1617 / 3117 18 19 20 21 22 23 24 25 26 27 28 29 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.11.20181.28 Mб31т4.doc
#
11.02.201543.75 Кб1таблицы.docx
#
03.09.201938.28 Кб1Тананян ипотека ИНДЗ.docx
#
11.02.2015128.51 Кб5ТВ і МС Бузько.doc
#
22.04.2019622.59 Кб10ТВ аккк.doc
#
11.06.20156.76 Mб10ТВиМС.Малярец.Егоршин 22.12.12.pdf
#
13.11.20192.56 Mб2текст лекций333333333.doc
#
22.07.201961.44 Кб0ТЕМА 8 СТИМУЛИРОВАНИЕ СБЫТА.doc
#
01.05.2019188.42 Кб6Тема 1. Макроэкономика как наука.doc
#
10.11.201978.85 Кб2Тема 1. Сущность и особенности МЭД.doc
#
10.07.2019154.76 Кб1Тема 1.docx