|
В последней строке и последнем столбце таблицы вычислены средние |
групповые Ui |
и Vj. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вычисляем параметры линейной модели. |
|
|
|
|
|
|
Хс = |
kiXi / n =3,734; (Х2)ср = |
ki(Xi)2 / n = 16,188; (sX)2 =(Х2)ср – (Хср)2 = 2,247; |
Yср= ljYj / n=2,825; (Y2)ср = |
lj(Yj)2 / n =9,500; (sY)2 = (Y2)ср – (Yср)2 = 1,521; |
|
|
|
(XY)cp = |
|
mijXiYj / n = 9,130; |
|
sXY = (XY)cp – Хср Yср = –1,417; |
|
|
|
rXY = sXY / (sX sY) = –0,766; |
|
(rXY)2 = 0,587; |
|
|
|
|
|
|
b1 = rXY (sY / sX) = –0,630; |
b0 = Yср – b1 Хср = 5,179. |
|
Линейной моделью Yp = 5,179 – 0,630 X объясняется 58,7 % общей измен- |
чивости |
данных. Эта |
модель значима, так |
как |
дисперсионное отношение |
|
r 2 |
|
n 2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Fp |
xy |
|
216,2 |
превышает табличное значение F0,01(1; 152) = 6,80. |
2 |
1 |
|
|
1 rxy |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вычисляем индексы детерминации. |
|
|
|
|
|
|
|
|
|
|
|
p = 7; Ucp = Ycp = 2,825; (U2)cp = |
|
ki(Ui)2 / n = 8,948; |
|
|
|
|
|
|
|
|
|
|
(sU)2 =(U2)ср – (Uср)2 = 0,969; |
|
|
|
|
|
|
q = 6; |
Vcp = Xcp = 3,734; (V2)cp = |
lj(Vj)2 / n = 15,338; |
|
|
|
|
|
|
|
|
|
|
(sV)2 = (V2)ср – (Vср)2 = 1,397; |
|
|
|
|
|
|
2 |
s2 |
0,969 |
|
|
2 |
|
s2 |
1,397 |
|
|
|
|
|
|
|
U |
|
|
|
0,637 |
; |
|
V |
|
|
|
0,622 . |
|
|
|
|
|
y / x |
sY2 |
1,521 |
x / y |
|
sX2 |
2,247 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Корреляционной зависимостью у / х объясняется 63,7 % общей изменчи- |
вости данных (сопряженной зависимостью х / у объясняется 62,2 |
%). Корреля- |
ционная зависимость значима, так как дисперсионное |
отношение |
43,05 превышает табличное значение F0,01(6; 147) = 2,93.
Проверяем адекватность линейной |
модели. Вычисляем дисперсионное |
отношение FA |
|
2 rXY2 |
|
n |
p |
4,06 |
и сравниваем его с табличными значениями |
|
1 |
2 |
|
p |
2 |
|
|
|
|
|
|
|
|
|
|
|
F0,05(5; 147) = 2,28 |
|
и |
F0,01(5; 147) |
= 3,14. |
Так |
как вычисленное |
значение |
FA = 4,06 > F0,01 , |
систематической |
ошибкой |
пренебречь нельзя, |
линейная |
модель неадекватная, требуется найти более подходящую нелинейную форму связи.
На рис. 15.6а изображены графики эмпирической и теоретической регрессии, откуда видно, что, действительно, зависимость нелинейная, узлы эмпирической линии регрессии закономерно уклоняются от графика линейной регрессии.
а) б)
Рис. 15.6. Соответствие между эмпирической и теоретической регрессиями
(а – линейная модель Yp = 5,179 – 0,630 X; б – нелинейная модель
Yp |
0,212 |
11,03 ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
X 1 |
|
|
|
|
|
|
|
|
|
|
|
Для каждого узла (среднего группового) построены 95-процентные дове- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ns |
2 |
1 2 |
1,50 |
|
рительные интервалы шириною |
НСР0,05 |
, где HCP |
t |
|
|
Y |
|
|
|
|
|
. |
0,05 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,05 |
|
|
df |
|
|
ki |
|
|
ki |
|
|
|
|
|
|
|
|
|
|
|
|
Крайние узлы на рис. 15.6а существенно уклоняются от линейной регрессии, ее график не пересекает крайних доверительных интервалов.
На рис. 15.6б построен график нелинейной зависимости Yp a b , ко-
X 1
торый пересекает доверительные интервалы для всех узлов эмпирической линии регрессии. Коэффициент детерминации возрос до R2 = 0,611; дисперсионное отношение FA = 2,12 понизилось и стало уже меньше табличного FA < F0,05 . Найденная нелинейная модель адекватная.
Таблицы сопряженности и коэффициенты контингенции
Если обе переменные качественные, измеренные в наиболее общей шкале имен, то таблицу частот mij совместного появления категорий (Xi , Yj) разных переменных называют таблицей сопряженности. В этой таблице Xi и Yj – имена категорий (не числа), поэтому никакие арифметические операции с ними невозможны. Как и для корреляционной таблицы, подсчитывается общая сумма частот n , а также суммы частот по столбцам ki и строкам lj таблицы.
Относительные частоты |
k |
i |
, |
l j |
есть оценки вероятностей появления кате- |
|
|
n |
|
n |
|
горий Xi и Yj . Проверяется гипотеза о независимости качественных переменных X, Y (нуль-гипотеза). Имеется возможность определить теоретические
162
2
частоты |
~ |
совместного появления любой комбинации категорий (Xi , Yj), ко- |
mij |
торые ожидаются при справедливости нуль-гипотезы. Действительно, при взаимной независимости категорий (Xi , Yj) вероятность совместного появления та-
|
|
|
|
|
|
|
|
|
|
|
ki |
l j |
кой комбинации равна произведению их вероятностей |
|
|
|
|
, откуда получаем |
n |
n |
|
|
|
~ |
|
ki l j |
|
|
|
|
|
|
|
|
|
|
ожидаемые частоты в виде |
mij |
|
|
|
. |
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Наблюдаемые и ожидаемые частоты сравниваем по критерию Пирсона: |
|
|
mij |
~ |
2 |
|
2 |
|
|
2 |
|
|
|
2 |
|
mij |
|
|
|
|
mij |
n n |
|
mij |
|
1 . |
|
|
|
~ |
|
|
|
~ |
|
ki l j |
|
|
|
mij |
|
|
|
|
mij |
|
|
|
|
Табличные значения |
2 |
находим для ЧСС = (р – 1)(q – 1), где р, q – чис- |
ло категорий для X, Y. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Если окажется, что |
|
2 |
2 |
, нуль-гипотеза отклоняется и делается вы- |
|
|
0,01 |
вод о том, что переменные X, Y связаны между собой. Тогда появляется проблема оценки тесноты этой связи. Предложено несколько мер тесноты связи между качественными переменными, из которых мы рассмотрим две – коэффи-
|
циент контингенции Крамера C |
|
и коэффициент контингенции Кендала |
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
max |
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
K |
|
|
|
. При абсолютном совпадении наблюдаемых и ожидаемых частот |
|
2 |
|
|
|
|
n |
|
|
|
|
|
max |
|
|
|
|
|
|
|
|
|
|
статистика Пирсона 2 равна нулю и равны нулю оба коэффициента контингенции.
|
Максимальное значение |
2 |
получается при наиболее тесной связи, ко- |
|
max |
|
|
|
гда каждой категории одной переменной соответствует только одна категория другой переменной (функциональ-
ное соответствие).
Так как категории можно переставлять, при наиболее тесной связи таблица сопряженности приобретает блочно-диагональный вид (рис. 15.7). Пусть p > q (например, р = 4, q = 3). Вычисляем для этого случая статистику Пирсона:
|
X1 |
X2 |
X3 |
X4 |
lj |
Y1 |
m11 |
m12 |
|
|
m11+m12 |
Y2 |
|
|
m22 |
|
m22 |
Y3 |
|
|
|
m33 |
m33 |
ki |
m11 |
m12 |
m22 |
m33 |
n |
Рис. 15.7. Функциональная связь
между категориями
|
mij2 |
|
|
|
|
|
|
m112 |
|
|
m122 |
|
|
m222 |
|
m332 |
|
|
|
1 |
n |
|
|
|
|
|
|
|
|
|
|
|
1 |
|
ki l j |
|
m11 |
m11 |
m12 |
|
m12 m11 |
m12 |
|
m22m22 |
|
|
|
|
|
|
|
|
|
|
m33m33 |
m11 |
|
|
m12 |
|
1 1 1 n 1 1 1 1 n 3 1 n q 1 . |
m11 m12 |
|
m11 |
m12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Таким образом, коэффициент контингенции Крамера можно записать в виде:
C
где d = min{p, q}.
|
Коэффициент контингенции Кендала изменяется от 0 до |
d 1 |
1 . |
|
d |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
d |
|
|
|
|
|
|
Скорректируем его: KK |
|
|
|
|
. |
|
|
|
|
2 |
n |
|
d |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Как правило, оказывается, что С |
|
К |
|
|
КК. |
|
|
|
|
Пример. Рассмотрим корреляционную таблицу на рис. |
15.5 размером |
6 7 с числом наблюдений n = 154 и будем считать значения переменных X, Y именами различных категорий. Суммы частот по столбцам и строкам таблицы уже найдены.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m2 |
|
Ниже в таблице такого же размера (рис. 15.8) подсчитаны отношения |
ij |
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ki l j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X |
X1 |
X2 |
X3 |
|
X4 |
X5 |
|
X6 |
X7 |
|
|
|
|
|
|
|
Y |
|
|
|
|
|
|
|
|
|
Y6 |
0,429 |
0 |
0 |
|
0 |
0 |
|
0 |
0 |
|
|
|
|
|
|
|
Y5 |
0,044 |
0,154 |
0,022 |
|
0 |
0 |
|
0 |
0 |
|
|
|
|
|
|
|
Y4 |
0,021 |
0,334 |
0,019 |
|
0,010 |
0 |
|
0,003 |
0 |
|
|
|
|
|
|
|
Y3 |
0 |
0,035 |
0,293 |
|
0,116 |
0,011 |
|
0 |
0 |
|
|
|
|
|
|
|
Y2 |
0 |
0 |
0,011 |
|
0,097 |
0,269 |
|
0,046 |
0,059 |
|
|
|
|
|
|
|
Y1 |
0 |
0 |
0 |
|
0,034 |
0,112 |
|
0,136 |
0,030 |
|
|
|
|
|
|
|
|
Рис. 15.8. Расчет статистики Пирсона |
|
|
|
|
|
|
Вычисляем |
их |
сумму |
(2,29) |
и |
статистику |
Пирсона |
2 = 154 (2,29 – 1) = 198,7, |
которую сравниваем с |
табличным |
значением |
2 |
6 5 15,0 . |
|
|
|
|
|
|
|
|
|
|
|
|
|
0,01 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Так как |
2 |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
0,01 , делаем вывод о существовании значимой связи между |
X и Y.
Коэффициенты контингенции Крамера, Кендала и скорректированный коэффициент КК равны соответственно:
|
|
|
|
|
|
|
|
|
|
|
|
198,7 |
|
|
|
198,7 |
|
|
|
|
C |
0,508 |
, K |
|
0,751, KK K |
6 |
0,822 . |
154 5 |
198,7 |
154 |
|
5 |
|
|
|
|
|
|
Сравним эти меры с коэффициентом корреляции | rXY | = 0,766 и с корреляционным отношением 0,637 0,798 .
Соответствие между скорректированным коэффициентом контингенции Кендала и корреляционным отношением – самой объективной мерой тесноты корреляционной связи между количественными переменными – очень хорошее
(КК ).
Коэффициент ранговой корреляции Спирмена
Если X, Y – порядковые переменные, то с ними не допустимы никакие арифметические операции, например, разность двух значений (xj – xi) ничего не означает, так как из сравнения xj > xi следует только, что одно значение больше другого, но неизвестно, на сколько больше.
Если переменные ранжированы, то их ранги являются номерами при расположении значений переменной в порядке возрастания какого-то признака. Так, из сравнения рангов x3 = 3 и x6 = 6 следует, что между элементами x3 и x6 есть еще два элемента с рангами x4 = 4 и x5 = 5.
Если несколько элементов неразличимы по данному признаку, то им всем присваивается средний ранг из их номеров по порядку. Такие группы переменных называются связками.
Спирмен вывел формулу для оценки тесноты связи между ранжированными переменными, причем при выводе не использовались никакие сомнительные арифметические операции. Формула эта достаточно простая при отсутствии связок, но усложняется при их наличии.
Кендал доказал, что коэффициент ранговой корреляции Спирмена численно равен коэффициенту парной корреляции Пирсона, если ранги считать числовыми значениями переменных.
Еще раз отметим, что вовсе не утверждается, что с рангами всегда можно поступать, как с обычными числами, но коэффициент ранговой корреляции можно рассчитывать обычным образом вручную или по готовым программам на компьютере.
Вывод формулы для коэффициента ранговой корреляции Спирмена
Пусть pk , qk – ранги двух показателей X и Y. Рассмотрим случай отсутствия связок (групп одинаковых рангов).
Наблюдения всегда можно отсортировать в порядке возрастания одной из переменных: pk = k = 1, 2, 3, … , n.
Ранги qk – те же числа, но в другом порядке.
Мерою тесноты связи между показателями X и Y может быть сумма квадратов разностей рангов:
Если ранги двух показателей совпадают pk = qk , то S = 0, и это соответствует наиболее тесной положительной связи.
Если порядок следования qk противоположен порядку следования pk , то S = Smax , что соответствует наиболее тесной отрицательной связи. Необходимо
найти величину Smax . Для этого случая имеем |
pk + qk = n + 1, |
pk = k, |
qk = n + 1 – |
k, pk – qk = 2k – (n + 1). Отсюда |
следует: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Smax = |
(2k – (n + 1))2 = 4 |
|
k2 – 4 (n + 1) |
|
k + (n + 1)2 n. |
|
|
Поскольку известны формулы для сумм и сумм квадратов последователь- |
ных целых чисел: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
n n |
1 |
|
|
n |
k 2 |
12 |
|
|
22 |
32 |
|
|
n2 |
|
n n 1 |
2n 1 |
|
k 1 2 |
3 |
... |
n |
|
, |
|
|
... |
|
, |
2 |
|
|
|
|
|
6 |
k 1 |
|
|
|
|
|
|
|
k 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
то окончательно получаем: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Smax |
4 |
n n 1 2n 1 |
|
4 n |
1 |
|
n n 1 |
|
n |
1 |
2 |
n |
|
n 1 n n 1 |
. |
|
|
|
6 |
|
|
|
|
|
2 |
|
|
|
|
3 |
|
|
|
|
Вместо меры S вводим меру связи Спирмена: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S |
|
|
|
|
|
|
pk |
qk |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
2 |
|
|
1 |
6 |
|
|
|
, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
S max |
|
|
n |
1 n n 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
которая равна |
= 1 |
для S = 0 (для наиболее тесной положительной связи) и |
= –1 для S = Smax (для наиболее тесной отрицательной связи).
Полученная формула существенно усложняется при наличии связок – групп неразличимых объектов, для которых принимаются одинаковые значения рангов, средних для каждой группы.
Пусть t – количество неразличимых объектов в связке для показателя X, а
– количество неразличимых объектов в связке для показателя Y.
Вычисляем поправки: A |
|
t t 2 |
1 |
, |
B |
2 |
1 |
и скорректированный ко- |
|
n n 2 |
1 |
|
|
n n 2 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
|
B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
эффициент ранговой корреляции: |
s |
|
|
|
|
|
|
|
2 |
|
|
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
A |
|
1 B |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Пример. Определим тесноту связи между уровнем механизации работ X и производительностью труда Y по 10-ти промышленным предприятиям.
На рис. 15.9 данные ранжированные, в рангах показателя Y имеется одна связка из двух объектов (два предприятия с одинаковой производительностью труда).
k |
pk |
qk |
pk–qk |
(pk–qk)2 |
(pk)2 |
(qk)2 |
|
pkqk |
1 |
1 |
4 |
–3 |
9 |
1 |
16 |
|
4 |
2 |
2 |
1 |
1 |
1 |
4 |
1 |
|
2 |
3 |
3 |
2 |
1 |
1 |
9 |
4 |
|
6 |
4 |
4 |
3 |
1 |
1 |
16 |
9 |
|
12 |
5 |
5 |
7 |
–2 |
4 |
25 |
49 |
|
35 |
6 |
6 |
5 |
1 |
1 |
36 |
25 |
|
30 |
7 |
7 |
6 |
1 |
1 |
49 |
36 |
|
42 |
8 |
8 |
8,5 |
–0,5 |
0,25 |
64 |
72,25 |
|
68 |
9 |
9 |
8,5 |
0,5 |
0,25 |
81 |
72,25 |
|
76,5 |
10 |
10 |
10 |
0 |
0 |
100 |
100 |
|
100 |
Суммы |
55 |
55 |
0 |
18,5 |
385 |
384,5 |
|
375,5 |
Рис. 15.9. Ранжированные данные уровня механизации |
|
|
|
и производительности труда |
|
|
|
Вычисляем коэффициент ранговой корреляции Спирмена без поправки на
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
18,5 |
|
|
|
|
связку: |
1 6 |
pk qk |
|
1 6 |
|
0,88788 . |
n 1 n n 1 |
9 10 11 |
|
Вычисляем поправку |
B |
|
1 |
1 |
|
1 2 3 |
|
n 1 n n 1 |
9 10 11 |
|
|
|
|
|
|
рованный коэффициент ранговой корреляции:
|
|
|
A |
B |
|
|
|
|
|
|
|
|
|
|
|
|
0,88788 0,00303 |
|
|
2 |
|
|
s |
|
|
|
|
|
|
|
|
|
|
|
1 A |
1 B |
1 0,00606 |
|
|
|
|
|
1 |
0,00606 |
и скорректи- |
|
165 |
|
|
|
0,88754 .
Для сравнения вычисляем обычный коэффициент парной корреляции Пирсона. Все необходимые суммы подсчитаны в вышеприведенной таблице
(см. рис. 15.9).
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s2p |
p2 |
|
p2 |
38,5 |
5,52 |
|
8,25; sq2 q2 q 2 |
38,45 5,52 8,2; |
|
|
|
|
|
|
|
|
2 |
|
|
|
s pq |
|
|
7,3 |
|
|
s pq |
|
pq |
pq |
37,55 |
5,5 |
7,3; rpq |
|
|
|
0,88754. |
|
|
|
s p sq |
|
|
|
|
|
8,25 8,2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
Полученные значения |
s и rpq совпали со всеми десятичными знаками. |
Покажем, что коэффициент ранговой корреляции Спирмена совпадает с обычным коэффициентом парной корреляции Пирсона, вычисленным по рангам = rpq . Так как pk = k, а qk – те же числа, но в другом порядке, то будут
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
равны |
|
средние |
|
p |
q |
|
n 1 |
|
|
и |
дисперсии |
s2p |
sq2 |
p2 |
|
p2 |
q2 p2 , |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s2 |
s |
2 |
|
n 1 2n 1 |
|
n 1 2 |
|
n |
2 |
1 |
. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
p |
q |
6 |
4 |
|
|
|
|
|
12 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
2 |
|
|
Преобразуем выражение |
|
|
|
pk |
|
pk |
|
qk |
|
: |
|
|
|
S |
qk |
p |
q |
|
|
|
|
|
S n s2p |
|
sq2 |
|
|
2s pq |
2n s2p |
s pq |
2ns2p 1 rpq . |
|
|
|
|
|
|
|
|
|
|
|
|
|
pk |
|
|
qk |
2 |
|
|
2 |
1 rpq |
|
|
|
|
|
|
|
|
|
Отсюда: |
1 6 |
|
|
|
|
|
|
1 |
6 |
2ns p |
1 1 |
rpq |
rpq . |
|
|
|
|
|
n n |
2 |
|
1 |
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
12ns p |
|
|
|
|
|
|
|
|
Итак, формально коэффициент ранговой корреляции Спирмена равняется обычному коэффициенту парной корреляции Пирсона, вычисленному по рангам pk , qk.
Вопросы для самопроверки
1.Какая разница между понятиями значимость корреляционной связи и значимость регрессионной модели?
2.Что такое коэффициент детерминации, каковы его свойства?
3.Как вычисляется корреляционное отношение? Каковы его свойства?
4.Как проверяется адекватность регрессионной модели?
5.Чем отличаются расчеты параметров модели по исходным и по сгруппированным данным?
6.Что такое коэффициент контингенции?
7.Как вычисляются коэффициенты контингенции Крамера и Кендала?
8.Как проверить значимость коэффициентов контингенции?
9.Что такое коэффициент ранговой корреляции Спирмена? Как его можно вычислить?
16. Линейный регрессионный анализ в стандартизованных переменных
Традиционно все формулы многомерного линейного регрессионного анализа записывают в стандартизованных переменных:
Y |
y y |
, |
X i |
xi xi |
. |
|
|
|
s y |
|
sx |
|
|
|
|
i |
В этих переменных многие формулы принимают простейший вид, поэтому сложные вопросы анализа чаще всего обсуждаются именно в стандартизованных переменных.
Стандартизация позволяет выявить некоторые сомнительные значения данных, например выбросы, которые могут появиться в результате ошибок при переписывании и наборе данных. Кроме описок, опечаток, ошибок измерения, выбросы могут быть следствием принадлежности сомнительных данных до другой совокупности (например, когда в выборку включают данные о продукции другого предприятия за другой временной период, когда часть наблюдений измерена другим прибором с другой шкалой калибровки и т. д.). Конечно, такие данные следует удалить из выборки и изучать отдельно. Возможность выявления выбросов основана на правиле «3-х сигм», которое утверждает, что крайне редко встречаются случайные ошибки, превышающие по модулю утроенное стандартное отклонение. Обычно все значения стандартизованных переменных Y, Xi не выходят за пределы интервала (–3, 3), а если встречаются большие отклонения, то такие данные следует выделять и проверять. Чаще всего границы интервала вариации стандартизованных переменных оказываются близкими к
(–2, 2).
Сразу же отметим, что, несмотря на более простой вид формул регрессионного анализа в стандартизованных переменных, никакого сокращения объема вычислительной работы не будет, так как добавляются операции нормирования переменных, более сложного составления системы нормальных уравнений и обратного перехода к исходным переменным после завершения вычислений.
Итак, последовательно преобразуем уравнение регрессии y p b0 b1x1 b2 x2 ... bm xm e
к центрованной и стандартизованной формам:
y y |
b1 x1 |
x1 |
b2 x2 |
x2 ... |
bm xm |
xm |
e ; |
|
y y |
|
1 |
x1 |
x1 |
|
2 |
x2 |
x2 |
... |
m |
xm |
xm |
|
e |
; |
sy |
sx |
|
|
sx |
|
sx |
|
|
sy |
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
m |
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
Y |
1 X1 |
|
|
2 X 2 |
... |
|
m X m |
, |
|
|
|
y y |
|
|
x |
|
x |
|
|
sx |
i |
|
e |
|
где обозначено |
Y |
|
, X |
i |
|
i i |
, |
|
b |
|
, |
|
. |
|
|
|
|
|
|
|
|
|
|
s y |
|
|
sx |
i |
i |
i s y |
|
s y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Внимание! Обычно коэффициенты регрессии bj и остатки модели ei рассматривают как оценки соответствующих генеральных значений j , i . Однако
теперь обозначения j , |
i используются как выборочные оценки (только в стан- |
дартизованных переменных). |
|
|
На стадии центрирования уже было использовано одно из уравнений |
нормальной системы e |
0 (или |
|
0 ), поэтому в окончательной записи урав- |
|
нения регрессии в стандартизованных переменных отсутствует свободный член
0 = 0. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Составляем остальные уравнения нормальной системы ( Xi |
0 ) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
YX i |
|
|
|
|
|
|
|
j X i X j |
|
|
|
|
|
i |
1, 2, ..., m , |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
j |
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
которую приводим к виду: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ryx |
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
2rx x |
2 |
|
|
|
... |
|
|
m rx x |
m |
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
ryx |
|
|
|
1rx |
|
x |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
... |
|
|
mrx |
|
x |
m , |
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
2 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
... ... ... ... ... ... ... ... |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ryx |
m |
|
|
1rx |
|
|
x |
|
|
|
|
2rx |
m |
x |
2 |
... |
|
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
так как для стандартизованных переменных X i X j |
rxi x j |
, Xi Xi |
rxi xi 1. |
|
Формулу для расчета остаточной дисперсии получаем, преобразовывая |
выражение: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
YY |
|
|
|
j |
|
j X jY |
Y , |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
s2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
где YY r |
yy |
1, X |
j |
Y |
|
r |
, |
|
|
|
|
|
|
|
|
|
Y : |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
yx j |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s2 |
1 |
|
|
|
r |
|
|
|
2 |
r |
|
|
|
|
... |
|
|
r . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 yx |
|
yx |
2 |
|
|
|
|
m yx |
m |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Отсюда получаем очень простую и легко запоминаемую формулу для |
расчета коэффициента детерминации: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
R |
2 |
|
|
1 |
|
se2 |
|
|
1 |
|
s |
2 |
|
|
|
|
r |
|
|
|
|
|
|
r |
... |
|
|
|
|
|
r . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
s2y |
|
|
|
|
|
|
|
|
|
|
|
|
|
1 yx1 |
|
|
|
2 yx2 |
|
|
|
|
|
m yxm |
|