2003_-_Gmurman__TV_i_MS
.pdf3 а м е q а н и е |
2. |
Уравнения |
выборочных |
пряиых регрессии |
|
можно записать в более симметричной форме: |
|
||||
- |
- |
|
-- |
||
yx-y |
х-х ху-х |
у-у |
|
||
|
_ |
-Га _ • |
_ |
::ЖГа _ |
• |
|
ау |
ах |
ох |
оу |
|
3 а м е ч а н и е 3. Выборочный коэффициент корреляции является
оценкой к~ициеита корреляции
Г= ,",ху |
м (ху)-м(х).м(у). |
axuv |
°xov |
Действительно, используя метод моментов (см. гл. XVI, § 21),
т. е. заменив ЧИСJlOвые характеристики их оценками, получим
|
[(~ nx,ry)/nj-xy |
|
~ nxyXy-nхУ" |
|
'.. = |
- - |
= |
- - |
• |
|
oxov |
|
nUxuv |
|
§ 7. Выборочный коэффициент корреляции
Как следует из предыдущего параграфа, выбо
рочный ко9ффиuиент корреляuии определяется равенством
|
~nхvху-nXу |
, |
Г.= |
_ _ |
|
|
nОхОl1 |
|
где х. у- варианты (наблюдавшиеся значения) призиаков Х и У; nх,,-частота пары ,!Jар_иант (х, у); n-объем
выборки (сумма всех частот); ох. О'у-выборочцые средние квадратические отклонения; х, у-выборочные средние.
Известно. |
что если величины У и Хнезависимы, то |
|||
ко9ффиuиент |
корреляuии r =0 (см. гл. XIV. § 17)~ если |
|||
.' = ± 1t то У |
и Х связаны л и н е й н о й функцнональной |
|||
зависимостью |
(см. гл. XIV, |
§ 20). Отсюда |
следует, |
что |
коэффициент корреляции r |
измеряет силу |
(тесноту) |
л и |
н е й н о й связи между У иХ.
Выборочный коэффиuиент корреляции '.. является
оценкой коэффициента корреляцин r генеральной сово-
u
купности и поэтому также служит для измерения линеи-
ной связи между величинами -количественными призна
ками У иХ. Допустим, что выборочный коэффиuиент
корреляuии, найденный по выборке, оказался отличным
от нуля. Так как выборка отобрана случайно, то отсюда
еще нельзя заключить, что коэффициент корреляции ге
неральной совокупности также отличен от нуля. Возни кает необходимость проверить гипотезу о значимости
(существенности) выборочного коэффиuиента корреляции
261
(или, что то же, о равенстве нулю коэффициента корре
ляции генерал~ной совокупности). Если гипотеза о равен
стве нулю генерального хо~ициента корреляции будет
отвергнута. то выборочный коэффициент корреляции зна
чим, а величины Х и У коррелированы; если гиnoтеза
принята. то выборочный ко~ициент корреляции незна
чим, а величины Х и У не коррелированы,
Проверка гипотезы о значимости выборочного KO~
фициента корреляции ДЛЯ случая нормальной корреляции
изложена далее (см. гл. XIX, § 21).
Если выборка имеет достаточно большой объем и
хорошо представляет генеральную совокупность (репре
зентативна). то заключение о тесноте линейной зависимо
сти между признаками, полученное по данным вbl60РlCи.
в известной степени может быть распространено и на
генеральную С080куnность. Например, для оценки коэф
фициента корреляции 'r нормально распределенной гене
ральной совокупности (при n ~ 50) можно ВОСПOJlьзо
ваться формулой
1+,:
Уn'
3 а м е ч а н и е 1. 3нак выборочного коэффициента корреляцни
совпадает со знаком выборочных
дует из формул (см. § 6):
-
Р - , (1".
t/x- в-=-,
ОХ
коэффициентов регрессии" что сле
-
Р _ г ОХ
х,,- в=-·
О"
3 а м е ч а н и е 2. Выборочный коэфф\щиеит корреляции равеи
среднему геометрическому выборочных коэффициентов регрессии.
Действительно. перемножив левые и правые части равенств ("').
получим
Orсюда
ГВ= ± уР"жf'х,,'
Зllак при радикале в соответствии с замечаиием 1 должеи совпадать
со зиаком коэффициентов регрессин.
§ 8. Методика ВЫЧИCJleния выборочного козффициента корреляции
Пусть требуется по данным корреляционной таблицы вычислить выборочный ко~ициент корреляции, Можно значительно упростить расчет, если перейти к
262
условным вариантам (при этом величина r в не изменится)
Ui = (x,.-C1 )/h1 И и) = (Yj-C2 )/ha•
В этом случае выборочный коэффициент корреляции вы
числяют по формуле
r в= (~naflUV-nuv)/(naaofl)'
- -.... -
Величины и, v, 0'. И O'fl можно найти методом ПРОИЗDе-
дений (см. гл. XVII, § 4). а при малом числе данных
непосредственно исходя из определений этих величин.
Остается указать способ вычисления ~ n.fluv, где nпfl-
частота пары условных вариант (и, и).
Можно доказать. что справедливы формулы (см. пояс
нение в конце параграфа):
~ nаиии = ~ vU t |
где U = ~ 11. aflU, |
~ nafluv = ~ uV, |
где V = ~ naflv. |
для контроля целесообразно выполнить расчеты по обеим формулам и сравнить результаТbl~ их совпадение
свидетельствует о правильности вычислений.
Покажем на примере, как пользоваться приведенными
формулами.
"ример 1. Вычислить ~ nаиuи поданным корреляционной табл. 14.
Таблица 14
у |
|
I |
|
|
10 |
20 |
|
15 |
5 |
I |
7 |
25 |
- |
|
20 |
з5 |
- |
|
- |
I I
х
|
|
|
|
n |
30 |
40 |
50 |
60 |
JI |
|
- |
- |
- |
- |
12 |
23 |
- |
- |
- |
43 |
30 |
47 |
2 |
I - |
79 |
45 |
- |
- |
I |
10 |
11 |
I |
20 |
6 |
47 |
|
|
|
|||||||
55 |
- |
- |
I - |
9 |
I 7 |
3 |
19 |
||
nх |
5 |
27 |
|
63 |
67 |
|
29 |
9 |
n=200 |
263
Реш е н и е. |
Перейдем к условным вариантам: Щ = (Х/-С1)!"1 == |
== (х;-40)/1O (в |
качестве ложиого иу.'1Я С1 вэята варианта %=40, |
расположенная примерно в середине вариаЦIIОННОГО ряда; шаг h1
равен |
разности между двумя соседними вариантами: 20-10 = 1О) и |
||||
Vj=(Yj-С,J/h"=(Уj-35)/10 (в качестве ложного нуля с. |
взята |
||||
варианта |
9=35, |
расположенная в |
середине вариационного |
ряда; |
|
шаг |
hz |
равен |
разности между |
двумя соседними вариантами: |
25-15=10).
Составим корреляционную таблицу в условиых вариаитах. Прак
тически это делают так: в первом столбце вместо ложного нуля с.
(варианты |
35) пишут О; над нулем последовательно записывают -1, |
||||||||||||||||
-2; под нулем пишут 1, |
2. |
В |
первой строке |
вместо ложного нуля С1 |
|||||||||||||
(варианты 40) пишут О; слева |
от |
нуля |
последовательио записываЮТ |
||||||||||||||
-1, -2, |
-3; справа от иуля пишут 1, 2. Все остальные даиные |
||||||||||||||||
переписывают из первоначальной |
корреляционной |
таблицы. В итоге |
|||||||||||||||
получим корреляционную табл. |
15 в условных |
вариантах. |
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
т а бл и ца 15 |
|||
|
|
I-3 |
-2 I - 1 I |
|
и |
|
|
|
|
I |
|
|
|
||||
v |
|
о |
I i |
1 |
I 2 |
|
ПО |
|
|||||||||
|
|
|
|
|
|||||||||||||
- 2 |
5 I 7 |
|
- |
|
|
- |
I - I- |
|
|
|
12 |
|
|||||
-1 |
- |
I 20 I 23 I - |
I - I - |
|
|
43 |
|
||||||||||
|
.0 |
- I - |
I 30 I 47 |
, |
2 I - |
|
|
79 |
|
||||||||
|
1 |
- |
I - |
I 10 I 11 I 20 I 6 |
|
|
47 |
|
|||||||||
|
2 |
- |
I - |
|
- I 9 I 7 I 3 |
|
|
19 |
|
||||||||
Па |
5 |
I 27 |
I 63 |
|
67 |
|
29 |
I |
9 |
|
n=200 |
||||||
Теперь ДЛЯ вычисления искомоji |
суммы ~ nllvlШ составим рас |
||||||||||||||||
четную табл. 16. Пояснения к составлеиию Ta1ti:. 16: |
|
|
|
||||||||||||||
1. |
В |
каждой |
клетке, |
в |
которой |
частота |
nllV |
i: О, |
записывают |
||||||||
в правом верхнем углу произведение частоты Пар на варианту u. |
|||||||||||||||||
Например, в лравых верхних углах |
клеток пеРВОR строки |
записаны |
|||||||||||||||
произведения: 5·(-3)=-15; 7·(-2)=-14. |
|
|
|
|
|
|
|
||||||||||
2. Складывают все числа. |
помещенны"е в правых верхиих |
углах |
|||||||||||||||
клеток одной строки и их |
сумму |
записывают в клетку этой |
же строки |
||||||||||||||
столбца и. Например, для первой |
строки |
U=-15+(-14)=-29. |
|||||||||||||||
3. Умножают варианту v на U н получениое произведение заqи. |
|||||||||||||||||
сывают |
в |
последнюю клетку той |
же строки, |
т. е, |
в клетку столбца |
||||||||||||
ии. Например, в первой |
строке |
таблицы |
v = |
- |
2, |
U = |
- |
29; |
следо |
||||||||
вательно, |
ии = (-2)·(-29) = 58. |
|
|
|
|
|
|
|
|
|
|
|
|||||
4. |
Наконец, |
сложив |
все числа столбца ои, |
получают |
сумку |
||||||||||||
~ ии. которая равна искомой |
сумме ~ nll"uv. Например. для табл. 16 |
D
имеем ~ ии= 169; следовательно, искомая сумма ~ nllvuv= 169.
v
264
~
CI\
Таблица 16
t1 |
-3 |
-2 |
|
|
|||
-2 |
I~ |
7'~ |
|
5 |
|||
1 -101 |
1--"":"":'14'1 |
||
-1 |
- |
-Ьо-- · \-=-40 |
|
20 |
|||
|
|||
|
- |
-20/ |
|
о |
- |
||
|
|
||
1 |
- |
- |
|
|
|
||
2 |
.... |
- |
|
v=~ navvl |
-10 |
-34 |
|
uу |
30 |
68 |
-1
-
/-23
23
-2з1
~1-30
[ зо
О /
1-10
--:1~0I10
-
-13
13
и
I~ -·0 ~I
-
-
-1 0-
47
о ,
1 О
11
11 I
, О
9
1--'1""""8I
29
О
I
1 |
2 |
|
и= |
|
|
=~navU |
ои |
||
|
|
|
|
|
- |
- |
|
-29 |
58 |
|
|
|
||
|
- |
|
-63 |
63 |
|
|
|
|
|
Q |
- |
|
-28 |
о |
2 |
|
|
|
|
о , |
|
|
|
|
I 20 |
6'42 |
22 |
22 |
|
20 |
|
|
||
20 I |
~-\ |
|
|
26 |
~ |
I--Ч |
13 |
||
|
|
|||
14 I7 |
л_/ 3 |
11 |
|
|
34 |
12 |
|
|
~иU =169 |
|
|
v |
||
|
|
|
|
|
з4 |
24 |
i~ uV = 1691+-I<ОНТРОЛЪi |
||
|
|
11 |
и |
|
|
|
|
|
Для контро.~я аВlIлогнчные вычнслення производят по sтonбцам: произведения navv записывают в левый нижний уrол клетки, содер
жащей частоту nuv;l:: О; все 'lНсла, помещrнные в левых нижннх углах клеток одиого СТOJlбца, складывают и нх сумму запнсыввкл
в строку У; далее умножают каждую варианту и на V и результат записывают в кneTKax последней строки.
Наконец, СЛОЖИв все чнсла последней }fОКИ, получают сумму
~ иУ. которая также равна нскомой сумме nuvutl. Например, для
и
табл. J6 имеем ~ иУ= 169; следовательно, ~ nuvutl= 169.
и
Теперь, когда мы научились вычислять ~ navuv, при
ведем пример на отыскание выборочноrо коэффнциента
,корреляции.
п~ер 2. |
Вычислить вЫОорочный |
КОЭффициеит корреляции |
||||
".- (..li nuvUtI - |
nuv)/(nOa uv ) по данным корреляционной |
табл. |
14. |
|||
Реш е н и е. Перейдя к условным вариантам, получим |
корреля- |
|||||
.Циониую табл. |
15. Величины и, ti, О" н |
Ov можно вычислить методом |
||||
произве.цений; |
одиако, |
ПОСКOJIьку числа |
щ, |
tI, малы, ВЫЧИСлим ii и ti, |
||
ИСХОДЯ из определення |
среднеА, а Ои И о;- |
используя формулы |
(см. |
гл. XVI. § 10)
Ou==VU2_(U)2, Ov=VV2_(tI)lI.
НаАдем и и и:
и= (~naи)/n=[5.(-3) +27. (-2)+63.(-1) +29.1 + +9'2]1200 = - 0,425;
O=(~ nv v)/n=112.(-2) + 43· (-1) + 47.1 + 19'2]/200=0,09.
Вычислим вспомогательную величину и2, а затем о.:
U'II=(~naц2)/n=(5.9+27.4+63.1 + 29.1 +9.4)/200= 1,405;
Оа=VUI_(U)I= У 1,405-(0,425)2= 1,106.
Аналогичио получим ав= 1,209.
Найдем искомый выборочный коэфj)ициент !юрреляции, учитывая,
1IТO ранее уже вычислена сумма ~ tluvUtl= 169:
'=. (~n"vUtI- nuti)/(nOuov) ==
== [169200· (-0,425)·0,09)/(200 .I,J06.I,209) =0,603.
Итак, ,.=0,603.
П о я с н е н и е. Покажем, что ~ navutl= ~ tlU, где U = ~ nuvu,
tI и
Рассмотрим корреляционную таблнцу в условных вариантах (для про
стоты таблИllа содержит мало даниых):
266
17 I |
|
|
u |
|
|
и. |
I |
и. |
I |
и. |
|
Vl |
nи 1Т/. |
|
nа•со• |
|
nа•со• |
V2 |
nalv• |
|
nalf1• |
|
nll1f18 |
Найдем ~ navuv двумя способами: суммируи произведения часroт
п,., на I;Iроизведеиия соответствующих условных вариант Utl по строкам
и по столбцам. для первой строки таблицы |
|
|
nll •D•• (и1иl) + na•v ,· (и2Оl)+ nа•о•·tUavJ = иl ~ nllv.u. |
(.) |
|
|
u |
|
!tnя второй строки таблицы |
|
|
nlltflt • (UIVS) +n alf1 •· (и~02)+n lllf1t |
' (иаи.) =Оа~nШ7.U' |
(••) |
Сложим (*) и (*oJC.): |
u |
|
|
|
|
~ nаиии= tll ~ nаи.n+и2 ~ nасо.и. |
|
|
u |
u |
|
Итак,
u
Аналогично, суммируя произведения частот n" на произведеви.
соответствующих условных вариант ии по столбцам, получим
~ navUtI= ~ uV, u
§ 9. Пример на отыскание выБОРОЧНО10
уравнения прямой линии регрессии
Теперь, когда известно, как вычисляют гВ, уме
стно привести пример на отыскание уравнения прямой
линии регрессии. |
уже вычислены u. |
- |
Поскольку при нахождении ГВ |
||
|
|
V. |
а., Осо. то целесообразно пользоваться формулами:
ах = h10a, 01/ = hiJco• х= uh1 +С1• У = vhll +С•.
Здесь сох ранены обозначения предыдущего параграфа.
Рекомендуем читателю самостоятельно вывести эти фор.
мулы.
Пример. |
НаАти выборочное |
уравиение |
прямой JlИНlfИ регрессии |
|
у иа Х по |
данным корреляционной табл. |
14 примера предыдущего |
||
параграфа. |
|
|
|
|
Реш е н и е. Напишем |
искомое уравнение в общем виде: |
|||
|
- |
- |
- |
|
|
(/11 |
- |
||
|
ух-у =rB -=- (х - |
х). |
(/х
Коэффициент корреляции уже вычислен в предыдущем параграфе.
Остается найти Х, у, ох и О.,:
х= uh1 +Сl=-0,425. 10+40=35,751 g=vh,,+c.=0,09.IO+35=35,9;
О-х= G"h1 = 1,106·10= 11,06; |
а" =ooh. = 1,209.10= 12,09. |
|||
ПОДСТ8ВИВ найденные |
величины в (*). получим Искомое уравнение |
|||
- |
|
9 |
|
12,09 |
ух-35, |
|
=Q.603 11,06 (х-35,75), |
или окончательно
ух=0,659х+ 12,34.
Сравн"м условные средние, вычисленные: а) По 9ТОму уравнению;
б) по данным корреляционной табл. 14. Например, при х=3О:
а) узо=О,659.30+ 12,34=32,11; б) 980= (23.25+ 30.35+ 10· 45)/63= 32,94.
Как видим, согласование расчетного и наБJПOДllемого условных
средних - удовлетворительное.
§ 10. Предварительные соображения к введению
меры любой корреляционной связи
Выше рассматривалась оценка тесноты линейной
корреляционной |
связи. Как оценить тесноту л ю б о й |
корреляционной |
связи? |
Пусть данные наблюдений над количественными при
знаками Х и У сведены в корреляционную таблицу. Можно
считать, что тем самым наблюдаемые зиачения У раз
биты на группы; каждая группа содержит те значения У,
которые соответствуют |
определенному значению Х. На |
||
пример, дана корреляционная табл. 17. |
|
||
К первой группе относятся те 10 значений У (4 раза |
|||
наБЛЮД8ЛОСЬ Уl = 3 и 6 |
раз Y',j = 5), |
которые |
соответст |
вуют Х1 = 8. |
|
|
У (13 раз |
Ко второй группе относятся те 20 |
значеиий |
наблюдалось Уl = 3 и 7 раз Уа = 5), которые соответствуют
X',j=9.
268
Таблица 17
уI
3
5
nх
- |
I |
|
Ух |
||
|
|
х |
|
[1 |
I |
9 |
|
||
4 |
|
13 |
6 |
|
7 |
10 |
|
20 |
4,2 |
|
3,7 |
Условные средние теперь можно назвать групповыми
u |
- |
средними: групповая средняя первои группы |
У. = |
= (4.3+6.5)110=4,2; групповая средняя второй группы
Uе =(13.3+7.5)/20=3,7.
Поскольку все значения признака У разбиты на груп пы, можно представить общую дисперсию признака в виде
суммы внутригрупповой и межгрупповой дисперсий (см.
гл. XVI, § 12):
Локажем с,Праведливость следующих утверждений:
1) если У связан с Х функциональной зависимостью,
то
Dмежrр/DОбщ= 1;
2) если У связан с Х корреляционной зависимостью,
то
Dмежrp/Dобщ < 1.
Доказательство. 1) Если У связан с Х функ
ц И О Н а л ь н о й з а в и с и м о с т ь ю, то определенному зна
чению Х соответствует одно значение У. В этом случае
в каждой группе содержатся равные между собой значе ния У *',поэтому групповая дисперсия каждой группы
равна нулю. Следовательно, средняя арифметическая
*'Например, если значению Xl = 3 |
соответствует Yl = 7, причем |
Хl = 3 наблюда.'lОСЬ 5 раз, то в группе |
содержится 5 значений Уl = 7. |
269
групповых дисперсий (взвешенная по объемам групп). т. е.
внутригрупповая дисперсия DвиI'1> = О И равенство (*).
имеет вид
Orсюда
D кежI'1>/D общ = 1.
2) ЕCJJИ У связан с Х к орр е л я ц и о н н о й 3 а в и с и м о с т ь ю, то определенному значению Х соответствуют.
вообще говоря. различные значеиия У (образующие груп пу). В 8Том случае групповая дисперсия каждой группы
отлична от нуля. Следовательно. средняя арифметическая
групповых дисперсиА |
(взвешенная по объемам |
групп) |
|
D Brrrp + О. Тогда одно |
положительиое |
слагаемое |
DкежГJ |
меньше суммы двух положительных |
слагаемых |
DBHrp + |
|
+ D.ежrp-= Dоощ: |
|
|
|
Orсюда
Dкежгр/Dобщ < 1.
Уже из приведенных рассуждений видно. что чем связь
между признаками ближе к функциональной. тем меньше
Dви:rp и. е.ледовательно. тем больше приближается DмежI'1>
К Do6Jц. а значит. отношение Dмежгр/DО6щ-К единице.
Orсюда ясно. что целесообразно рассматривать в качестве
меры тесноты корреляционной зависимости отношение межгрупповой дисперсии к общей. или. что то же, отно
шение межгруппового среднего квадратического отклоне
ния к общему среднему квадратическому отклонению.
§ 11. Выборочное корреляционное отношение
Для оценки тесноты линейной корреляционной
связи между призиаками в выборке служит выборочный
коэффиuиент корреляuии. Для оuенки тесноты н е л и н е й
н о й корреляционной связи вводят новые сводные ха
рактеристики:
Т)"ж-выборочное корреляционное отношение У к Х;
Т)х,,-выборочное корреляционное отношенне Х к У.
ВbI60РОЧНbI.М корреляцuон,НbI.М отношенuе.м. У к Х на-
зывают отношение межгруппового среднего квадратиче
ского отклонения к общему среднему квадратическому
270