Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ТВиМС.Малярец.Егоршин 22.12.12

.pdf
Скачиваний:
10
Добавлен:
11.06.2015
Размер:
6.76 Mб
Скачать

 

В последней строке и последнем столбце таблицы вычислены средние

групповые Ui

и Vj.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычисляем параметры линейной модели.

 

 

 

 

 

 

Хс =

kiXi / n =3,734; (Х2)ср =

ki(Xi)2 / n = 16,188; (sX)2 =(Х2)ср – (Хср)2 = 2,247;

Yср= ljYj / n=2,825; (Y2)ср =

lj(Yj)2 / n =9,500; (sY)2 = (Y2)ср – (Yср)2 = 1,521;

 

 

 

(XY)cp =

 

mijXiYj / n = 9,130;

 

sXY = (XY)cp Хср Yср = –1,417;

 

 

 

rXY = sXY / (sX sY) = –0,766;

 

(rXY)2 = 0,587;

 

 

 

 

 

 

b1 = rXY (sY / sX) = –0,630;

b0 = Yср b1 Хср = 5,179.

 

Линейной моделью Yp = 5,179 – 0,630 X объясняется 58,7 % общей измен-

чивости

данных. Эта

модель значима, так

как

дисперсионное отношение

 

r 2

 

n 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Fp

xy

 

216,2

превышает табличное значение F0,01(1; 152) = 6,80.

2

1

 

 

1 rxy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вычисляем индексы детерминации.

 

 

 

 

 

 

 

 

 

 

 

p = 7; Ucp = Ycp = 2,825; (U2)cp =

 

ki(Ui)2 / n = 8,948;

 

 

 

 

 

 

 

 

 

 

(sU)2 =(U2)ср – (Uср)2 = 0,969;

 

 

 

 

 

 

q = 6;

Vcp = Xcp = 3,734; (V2)cp =

lj(Vj)2 / n = 15,338;

 

 

 

 

 

 

 

 

 

 

(sV)2 = (V2)ср – (Vср)2 = 1,397;

 

 

 

 

 

 

2

s2

0,969

 

 

2

 

s2

1,397

 

 

 

 

 

 

 

U

 

 

 

0,637

;

 

V

 

 

 

0,622 .

 

 

 

 

 

y / x

sY2

1,521

x / y

 

sX2

2,247

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Корреляционной зависимостью у / х объясняется 63,7 % общей изменчи-

вости данных (сопряженной зависимостью х / у объясняется 62,2

%). Корреля-

ционная зависимость значима, так как дисперсионное

отношение

 

 

 

2

 

n p

F

 

 

 

 

 

 

 

 

 

1

2

 

p 1

 

 

 

 

 

 

43,05 превышает табличное значение F0,01(6; 147) = 2,93.

Проверяем адекватность линейной

модели. Вычисляем дисперсионное

отношение FA

 

2 rXY2

 

n

p

4,06

и сравниваем его с табличными значениями

 

1

2

 

p

2

 

 

 

 

 

 

 

 

 

 

 

F0,05(5; 147) = 2,28

 

и

F0,01(5; 147)

= 3,14.

Так

как вычисленное

значение

FA = 4,06 > F0,01 ,

систематической

ошибкой

пренебречь нельзя,

линейная

модель неадекватная, требуется найти более подходящую нелинейную форму связи.

На рис. 15.6а изображены графики эмпирической и теоретической регрессии, откуда видно, что, действительно, зависимость нелинейная, узлы эмпирической линии регрессии закономерно уклоняются от графика линейной регрессии.

161

а) б)

Рис. 15.6. Соответствие между эмпирической и теоретической регрессиями

(а – линейная модель Yp = 5,179 – 0,630 X; б – нелинейная модель

Yp

0,212

11,03 )

 

 

 

 

 

 

 

 

 

 

 

 

 

X 1

 

 

 

 

 

 

 

 

 

 

 

Для каждого узла (среднего группового) построены 95-процентные дове-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ns

2

1 2

1,50

 

рительные интервалы шириною

НСР0,05

, где HCP

t

 

 

Y

 

 

 

 

 

.

0,05

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,05

 

 

df

 

 

ki

 

 

ki

 

 

 

 

 

 

 

 

 

 

 

 

Крайние узлы на рис. 15.6а существенно уклоняются от линейной регрессии, ее график не пересекает крайних доверительных интервалов.

На рис. 15.6б построен график нелинейной зависимости Yp a b , ко-

X 1

торый пересекает доверительные интервалы для всех узлов эмпирической линии регрессии. Коэффициент детерминации возрос до R2 = 0,611; дисперсионное отношение FA = 2,12 понизилось и стало уже меньше табличного FA < F0,05 . Найденная нелинейная модель адекватная.

Таблицы сопряженности и коэффициенты контингенции

Если обе переменные качественные, измеренные в наиболее общей шкале имен, то таблицу частот mij совместного появления категорий (Xi , Yj) разных переменных называют таблицей сопряженности. В этой таблице Xi и Yj – имена категорий (не числа), поэтому никакие арифметические операции с ними невозможны. Как и для корреляционной таблицы, подсчитывается общая сумма частот n , а также суммы частот по столбцам ki и строкам lj таблицы.

Относительные частоты

k

i

,

l j

есть оценки вероятностей появления кате-

 

 

n

 

n

 

горий Xi и Yj . Проверяется гипотеза о независимости качественных переменных X, Y (нуль-гипотеза). Имеется возможность определить теоретические

162

2

частоты

~

совместного появления любой комбинации категорий (Xi , Yj), ко-

mij

торые ожидаются при справедливости нуль-гипотезы. Действительно, при взаимной независимости категорий (Xi , Yj) вероятность совместного появления та-

 

 

 

 

 

 

 

 

 

 

 

ki

l j

кой комбинации равна произведению их вероятностей

 

 

 

 

, откуда получаем

n

n

 

 

 

~

 

ki l j

 

 

 

 

 

 

 

 

 

 

ожидаемые частоты в виде

mij

 

 

 

.

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Наблюдаемые и ожидаемые частоты сравниваем по критерию Пирсона:

 

 

mij

~

2

 

2

 

 

2

 

 

 

2

 

mij

 

 

 

 

mij

n n

 

mij

 

1 .

 

 

 

~

 

 

 

~

 

ki l j

 

 

 

mij

 

 

 

 

mij

 

 

 

 

Табличные значения

2

находим для ЧСС = (р – 1)(q – 1), где р, q – чис-

ло категорий для X, Y.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Если окажется, что

 

2

2

, нуль-гипотеза отклоняется и делается вы-

 

 

0,01

вод о том, что переменные X, Y связаны между собой. Тогда появляется проблема оценки тесноты этой связи. Предложено несколько мер тесноты связи между качественными переменными, из которых мы рассмотрим две – коэффи-

циент контингенции Крамера C

 

и коэффициент контингенции Кендала

2

 

 

 

 

 

 

 

 

 

 

 

 

 

max

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

K

 

 

 

. При абсолютном совпадении наблюдаемых и ожидаемых частот

2

 

 

 

n

 

 

 

 

max

 

 

 

 

 

 

 

 

 

статистика Пирсона 2 равна нулю и равны нулю оба коэффициента контингенции.

Максимальное значение

2

получается при наиболее тесной связи, ко-

max

 

 

гда каждой категории одной переменной соответствует только одна категория другой переменной (функциональ-

ное соответствие).

Так как категории можно переставлять, при наиболее тесной связи таблица сопряженности приобретает блочно-диагональный вид (рис. 15.7). Пусть p > q (например, р = 4, q = 3). Вычисляем для этого случая статистику Пирсона:

 

X1

X2

X3

X4

lj

Y1

m11

m12

 

 

m11+m12

Y2

 

 

m22

 

m22

Y3

 

 

 

m33

m33

ki

m11

m12

m22

m33

n

Рис. 15.7. Функциональная связь

между категориями

163

2 max

n

n

 

mij2

 

 

 

 

 

 

m112

 

 

m122

 

 

m222

 

m332

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

 

1

 

ki l j

 

m11

m11

m12

 

m12 m11

m12

 

m22m22

 

 

 

 

 

 

 

 

 

 

m33m33

m11

 

 

m12

 

1 1 1 n 1 1 1 1 n 3 1 n q 1 .

m11 m12

 

m11

m12

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом, коэффициент контингенции Крамера можно записать в виде:

C

где d = min{p, q}.

2

2

 

 

 

 

,

2

 

n d 1

max

 

 

 

Коэффициент контингенции Кендала изменяется от 0 до

d 1

1 .

d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

d

 

 

 

 

 

Скорректируем его: KK

 

 

 

 

.

 

 

 

2

n

 

d

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Как правило, оказывается, что С

 

К

 

 

КК.

 

 

 

Пример. Рассмотрим корреляционную таблицу на рис.

15.5 размером

6 7 с числом наблюдений n = 154 и будем считать значения переменных X, Y именами различных категорий. Суммы частот по столбцам и строкам таблицы уже найдены.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m2

 

Ниже в таблице такого же размера (рис. 15.8) подсчитаны отношения

ij

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ki l j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X

X1

X2

X3

 

X4

X5

 

X6

X7

 

 

 

 

 

 

 

Y

 

 

 

 

 

 

 

 

 

Y6

0,429

0

0

 

0

0

 

0

0

 

 

 

 

 

 

 

Y5

0,044

0,154

0,022

 

0

0

 

0

0

 

 

 

 

 

 

 

Y4

0,021

0,334

0,019

 

0,010

0

 

0,003

0

 

 

 

 

 

 

 

Y3

0

0,035

0,293

 

0,116

0,011

 

0

0

 

 

 

 

 

 

 

Y2

0

0

0,011

 

0,097

0,269

 

0,046

0,059

 

 

 

 

 

 

 

Y1

0

0

0

 

0,034

0,112

 

0,136

0,030

 

 

 

 

 

 

 

 

Рис. 15.8. Расчет статистики Пирсона

 

 

 

 

 

 

Вычисляем

их

сумму

(2,29)

и

статистику

Пирсона

2 = 154 (2,29 – 1) = 198,7,

которую сравниваем с

табличным

значением

2

6 5 15,0 .

 

 

 

 

 

 

 

 

 

 

 

 

 

0,01

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Так как

2

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0,01 , делаем вывод о существовании значимой связи между

X и Y.

164

Коэффициенты контингенции Крамера, Кендала и скорректированный коэффициент КК равны соответственно:

 

198,7

 

 

 

198,7

 

 

 

 

C

0,508

, K

 

0,751, KK K

6

0,822 .

154 5

198,7

154

 

5

 

 

 

 

 

 

Сравним эти меры с коэффициентом корреляции | rXY | = 0,766 и с корреляционным отношением 0,637 0,798 .

Соответствие между скорректированным коэффициентом контингенции Кендала и корреляционным отношением – самой объективной мерой тесноты корреляционной связи между количественными переменными – очень хорошее

(КК ).

Коэффициент ранговой корреляции Спирмена

Если X, Y – порядковые переменные, то с ними не допустимы никакие арифметические операции, например, разность двух значений (xj xi) ничего не означает, так как из сравнения xj > xi следует только, что одно значение больше другого, но неизвестно, на сколько больше.

Если переменные ранжированы, то их ранги являются номерами при расположении значений переменной в порядке возрастания какого-то признака. Так, из сравнения рангов x3 = 3 и x6 = 6 следует, что между элементами x3 и x6 есть еще два элемента с рангами x4 = 4 и x5 = 5.

Если несколько элементов неразличимы по данному признаку, то им всем присваивается средний ранг из их номеров по порядку. Такие группы переменных называются связками.

Спирмен вывел формулу для оценки тесноты связи между ранжированными переменными, причем при выводе не использовались никакие сомнительные арифметические операции. Формула эта достаточно простая при отсутствии связок, но усложняется при их наличии.

Кендал доказал, что коэффициент ранговой корреляции Спирмена численно равен коэффициенту парной корреляции Пирсона, если ранги считать числовыми значениями переменных.

Еще раз отметим, что вовсе не утверждается, что с рангами всегда можно поступать, как с обычными числами, но коэффициент ранговой корреляции можно рассчитывать обычным образом вручную или по готовым программам на компьютере.

165

Вывод формулы для коэффициента ранговой корреляции Спирмена

Пусть pk , qk – ранги двух показателей X и Y. Рассмотрим случай отсутствия связок (групп одинаковых рангов).

Наблюдения всегда можно отсортировать в порядке возрастания одной из переменных: pk = k = 1, 2, 3, … , n.

Ранги qk – те же числа, но в другом порядке.

Мерою тесноты связи между показателями X и Y может быть сумма квадратов разностей рангов:

 

n

2 .

S

pk qk

k

1

 

Если ранги двух показателей совпадают pk = qk , то S = 0, и это соответствует наиболее тесной положительной связи.

Если порядок следования qk противоположен порядку следования pk , то S = Smax , что соответствует наиболее тесной отрицательной связи. Необходимо

найти величину Smax . Для этого случая имеем

pk + qk = n + 1,

pk = k,

qk = n + 1 –

k, pk qk = 2k – (n + 1). Отсюда

следует:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Smax =

(2k – (n + 1))2 = 4

 

k2 – 4 (n + 1)

 

k + (n + 1)2 n.

 

 

Поскольку известны формулы для сумм и сумм квадратов последователь-

ных целых чисел:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

n n

1

 

 

n

k 2

12

 

 

22

32

 

 

n2

 

n n 1

2n 1

 

k 1 2

3

...

n

 

,

 

 

...

 

,

2

 

 

 

 

 

6

k 1

 

 

 

 

 

 

 

k 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

то окончательно получаем:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Smax

4

n n 1 2n 1

 

4 n

1

 

n n 1

 

n

1

2

n

 

n 1 n n 1

.

 

 

 

6

 

 

 

 

 

2

 

 

 

 

3

 

 

 

 

Вместо меры S вводим меру связи Спирмена:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

 

 

 

 

pk

qk

2

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2

 

 

1

6

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S max

 

 

n

1 n n 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

которая равна

= 1

для S = 0 (для наиболее тесной положительной связи) и

= –1 для S = Smax (для наиболее тесной отрицательной связи).

Полученная формула существенно усложняется при наличии связок – групп неразличимых объектов, для которых принимаются одинаковые значения рангов, средних для каждой группы.

Пусть t – количество неразличимых объектов в связке для показателя X, а

– количество неразличимых объектов в связке для показателя Y.

166

Вычисляем поправки: A

 

t t 2

1

,

B

2

1

и скорректированный ко-

 

n n 2

1

 

 

n n 2

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

 

B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

эффициент ранговой корреляции:

s

 

 

 

 

 

 

 

2

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

1

A

 

1 B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пример. Определим тесноту связи между уровнем механизации работ X и производительностью труда Y по 10-ти промышленным предприятиям.

На рис. 15.9 данные ранжированные, в рангах показателя Y имеется одна связка из двух объектов (два предприятия с одинаковой производительностью труда).

k

pk

qk

pk–qk

(pk–qk)2

(pk)2

(qk)2

 

pkqk

1

1

4

–3

9

1

16

 

4

2

2

1

1

1

4

1

 

2

3

3

2

1

1

9

4

 

6

4

4

3

1

1

16

9

 

12

5

5

7

–2

4

25

49

 

35

6

6

5

1

1

36

25

 

30

7

7

6

1

1

49

36

 

42

8

8

8,5

–0,5

0,25

64

72,25

 

68

9

9

8,5

0,5

0,25

81

72,25

 

76,5

10

10

10

0

0

100

100

 

100

Суммы

55

55

0

18,5

385

384,5

 

375,5

Рис. 15.9. Ранжированные данные уровня механизации

 

 

 

и производительности труда

 

 

 

Вычисляем коэффициент ранговой корреляции Спирмена без поправки на

 

 

2

 

 

18,5

 

 

 

 

связку:

1 6

pk qk

 

1 6

 

0,88788 .

n 1 n n 1

9 10 11

 

Вычисляем поправку

B

 

1

1

 

1 2 3

 

n 1 n n 1

9 10 11

 

 

 

 

 

 

рованный коэффициент ранговой корреляции:

 

 

 

A

B

 

 

 

 

 

 

 

 

 

 

 

 

0,88788 0,00303

 

 

2

 

 

s

 

 

 

 

 

 

 

 

 

 

 

1 A

1 B

1 0,00606

 

 

 

 

1

0,00606

и скорректи-

165

 

 

0,88754 .

Для сравнения вычисляем обычный коэффициент парной корреляции Пирсона. Все необходимые суммы подсчитаны в вышеприведенной таблице

(см. рис. 15.9).

167

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2p

p2

 

p2

38,5

5,52

 

8,25; sq2 q2 q 2

38,45 5,52 8,2;

 

 

 

 

 

 

 

 

2

 

 

 

s pq

 

 

7,3

 

 

s pq

 

pq

pq

37,55

5,5

7,3; rpq

 

 

 

0,88754.

 

 

 

s p sq

 

 

 

 

 

8,25 8,2

 

 

 

 

 

 

 

 

 

 

 

 

 

Полученные значения

s и rpq совпали со всеми десятичными знаками.

Покажем, что коэффициент ранговой корреляции Спирмена совпадает с обычным коэффициентом парной корреляции Пирсона, вычисленным по рангам = rpq . Так как pk = k, а qk – те же числа, но в другом порядке, то будут

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

равны

 

средние

 

p

q

 

n 1

 

 

и

дисперсии

s2p

sq2

p2

 

p2

q2 p2 ,

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2

s

2

 

n 1 2n 1

 

n 1 2

 

n

2

1

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

p

q

6

4

 

 

 

 

 

12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

2

 

 

Преобразуем выражение

 

 

 

pk

 

pk

 

qk

 

:

 

 

 

S

qk

p

q

 

 

 

 

 

S n s2p

 

sq2

 

 

2s pq

2n s2p

s pq

2ns2p 1 rpq .

 

 

 

 

 

 

 

 

 

 

 

 

 

pk

 

 

qk

2

 

 

2

1 rpq

 

 

 

 

 

 

 

 

 

Отсюда:

1 6

 

 

 

 

 

 

1

6

2ns p

1 1

rpq

rpq .

 

 

 

 

 

n n

2

 

1

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12ns p

 

 

 

 

 

 

 

 

Итак, формально коэффициент ранговой корреляции Спирмена равняется обычному коэффициенту парной корреляции Пирсона, вычисленному по рангам pk , qk.

Вопросы для самопроверки

1.Какая разница между понятиями значимость корреляционной связи и значимость регрессионной модели?

2.Что такое коэффициент детерминации, каковы его свойства?

3.Как вычисляется корреляционное отношение? Каковы его свойства?

4.Как проверяется адекватность регрессионной модели?

5.Чем отличаются расчеты параметров модели по исходным и по сгруппированным данным?

6.Что такое коэффициент контингенции?

7.Как вычисляются коэффициенты контингенции Крамера и Кендала?

8.Как проверить значимость коэффициентов контингенции?

9.Что такое коэффициент ранговой корреляции Спирмена? Как его можно вычислить?

168

16. Линейный регрессионный анализ в стандартизованных переменных

Традиционно все формулы многомерного линейного регрессионного анализа записывают в стандартизованных переменных:

Y

y y

,

X i

xi xi

.

 

 

 

s y

 

sx

 

 

 

 

i

В этих переменных многие формулы принимают простейший вид, поэтому сложные вопросы анализа чаще всего обсуждаются именно в стандартизованных переменных.

Стандартизация позволяет выявить некоторые сомнительные значения данных, например выбросы, которые могут появиться в результате ошибок при переписывании и наборе данных. Кроме описок, опечаток, ошибок измерения, выбросы могут быть следствием принадлежности сомнительных данных до другой совокупности (например, когда в выборку включают данные о продукции другого предприятия за другой временной период, когда часть наблюдений измерена другим прибором с другой шкалой калибровки и т. д.). Конечно, такие данные следует удалить из выборки и изучать отдельно. Возможность выявления выбросов основана на правиле «3-х сигм», которое утверждает, что крайне редко встречаются случайные ошибки, превышающие по модулю утроенное стандартное отклонение. Обычно все значения стандартизованных переменных Y, Xi не выходят за пределы интервала (–3, 3), а если встречаются большие отклонения, то такие данные следует выделять и проверять. Чаще всего границы интервала вариации стандартизованных переменных оказываются близкими к

(–2, 2).

Сразу же отметим, что, несмотря на более простой вид формул регрессионного анализа в стандартизованных переменных, никакого сокращения объема вычислительной работы не будет, так как добавляются операции нормирования переменных, более сложного составления системы нормальных уравнений и обратного перехода к исходным переменным после завершения вычислений.

Итак, последовательно преобразуем уравнение регрессии y p b0 b1x1 b2 x2 ... bm xm e

к центрованной и стандартизованной формам:

y y

b1 x1

x1

b2 x2

x2 ...

bm xm

xm

e ;

 

y y

 

1

x1

x1

 

2

x2

x2

...

m

xm

xm

 

e

;

sy

sx

 

 

sx

 

sx

 

 

sy

 

 

 

 

 

 

 

 

 

 

 

2

 

 

m

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

169

 

 

Y

1 X1

 

 

2 X 2

...

 

m X m

,

 

 

 

y y

 

 

x

 

x

 

 

sx

i

 

e

 

где обозначено

Y

 

, X

i

 

i i

,

 

b

 

,

 

.

 

 

 

 

 

 

 

 

 

 

s y

 

 

sx

i

i

i s y

 

s y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Внимание! Обычно коэффициенты регрессии bj и остатки модели ei рассматривают как оценки соответствующих генеральных значений j , i . Однако

теперь обозначения j ,

i используются как выборочные оценки (только в стан-

дартизованных переменных).

 

 

На стадии центрирования уже было использовано одно из уравнений

нормальной системы e

0 (или

 

0 ), поэтому в окончательной записи урав-

 

нения регрессии в стандартизованных переменных отсутствует свободный член

0 = 0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Составляем остальные уравнения нормальной системы ( Xi

0 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

YX i

 

 

 

 

 

 

 

j X i X j

 

 

 

 

 

i

1, 2, ..., m ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

j

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

которую приводим к виду:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ryx

 

 

 

1

 

 

 

 

 

 

 

 

 

 

2rx x

2

 

 

 

...

 

 

m rx x

m

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

ryx

 

 

 

1rx

 

x

 

 

 

 

2

 

 

 

 

 

 

 

 

...

 

 

mrx

 

x

m ,

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

2 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

... ... ... ... ... ... ... ...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ryx

m

 

 

1rx

 

 

x

 

 

 

 

2rx

m

x

2

...

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

так как для стандартизованных переменных X i X j

rxi x j

, Xi Xi

rxi xi 1.

 

Формулу для расчета остаточной дисперсии получаем, преобразовывая

выражение:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

YY

 

 

 

j

 

j X jY

Y ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

s2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где YY r

yy

1, X

j

Y

 

r

,

 

 

 

 

 

 

 

 

 

Y :

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yx j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2

1

 

 

 

r

 

 

 

2

r

 

 

 

 

...

 

 

r .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 yx

 

yx

2

 

 

 

 

m yx

m

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Отсюда получаем очень простую и легко запоминаемую формулу для

расчета коэффициента детерминации:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

2

 

 

1

 

se2

 

 

1

 

s

2

 

 

 

 

r

 

 

 

 

 

 

r

...

 

 

 

 

 

r .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s2y

 

 

 

 

 

 

 

 

 

 

 

 

 

1 yx1

 

 

 

2 yx2

 

 

 

 

 

m yxm

 

170