Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2003_-_Gmurman__TV_i_MS

.pdf
Скачиваний:
19
Добавлен:
27.03.2015
Размер:
16.8 Mб
Скачать

3 а м е q а н и е

2.

Уравнения

выборочных

пряиых регрессии

можно записать в более симметричной форме:

 

-

-

 

--

yx-y

х-х ху-х

у-у

 

 

_

-Га _ •

_

::ЖГа _

 

ау

ах

ох

оу

 

3 а м е ч а н и е 3. Выборочный коэффициент корреляции является

оценкой к~ициеита корреляции

Г= ,",ху

м (ху)-м(х).м(у).

axuv

°xov

Действительно, используя метод моментов (см. гл. XVI, § 21),

т. е. заменив ЧИСJlOвые характеристики их оценками, получим

 

[(~ nx,ry)/nj-xy

 

~ nxyXy-nхУ"

 

'.. =

- -

=

- -

 

oxov

 

nUxuv

 

§ 7. Выборочный коэффициент корреляции

Как следует из предыдущего параграфа, выбо­

рочный ко9ффиuиент корреляuии определяется равенством

 

~nхvху-nXу

,

Г.=

_ _

 

хОl1

 

где х. у- варианты (наблюдавшиеся значения) призиаков Х и У; nх,,-частота пары ,!Jар_иант (х, у); n-объем

выборки (сумма всех частот); ох. О'у-выборочцые средние квадратические отклонения; х, у-выборочные средние.

Известно.

что если величины У и Хнезависимы, то

ко9ффиuиент

корреляuии r =0 (см. гл. XIV. § 17)~ если

.' = ± 1t то У

и Х связаны л и н е й н о й функцнональной

зависимостью

(см. гл. XIV,

§ 20). Отсюда

следует,

что

коэффициент корреляции r

измеряет силу

(тесноту)

л и­

н е й н о й связи между У иХ.

Выборочный коэффиuиент корреляции '.. является

оценкой коэффициента корреляцин r генеральной сово-

u

купности и поэтому также служит для измерения линеи-

ной связи между величинами -количественными призна­

ками У иХ. Допустим, что выборочный коэффиuиент

корреляuии, найденный по выборке, оказался отличным

от нуля. Так как выборка отобрана случайно, то отсюда

еще нельзя заключить, что коэффициент корреляции ге­

неральной совокупности также отличен от нуля. Возни­ кает необходимость проверить гипотезу о значимости

(существенности) выборочного коэффиuиента корреляции

261

(или, что то же, о равенстве нулю коэффициента корре­

ляции генерал~ной совокупности). Если гипотеза о равен­

стве нулю генерального хо~ициента корреляции будет

отвергнута. то выборочный коэффициент корреляции зна­

чим, а величины Х и У коррелированы; если гиnoтеза

принята. то выборочный ко~ициент корреляции незна­

чим, а величины Х и У не коррелированы,

Проверка гипотезы о значимости выборочного KO~­

фициента корреляции ДЛЯ случая нормальной корреляции

изложена далее (см. гл. XIX, § 21).

Если выборка имеет достаточно большой объем и

хорошо представляет генеральную совокупность (репре­

зентативна). то заключение о тесноте линейной зависимо­

сти между признаками, полученное по данным вbl60РlCи.

в известной степени может быть распространено и на

генеральную С080куnность. Например, для оценки коэф­

фициента корреляции 'r нормально распределенной гене­

ральной совокупности (при n ~ 50) можно ВОСПOJlьзо­

ваться формулой

1+,:

Уn'

3 а м е ч а н и е 1. 3нак выборочного коэффициента корреляцни

совпадает со знаком выборочных

дует из формул (см. § 6):

-

Р - , (1".

t/x- в-=-,

ОХ

коэффициентов регрессии" что сле­

-

Р _ г ОХ

х,,- в=-·

О"

3 а м е ч а н и е 2. Выборочный коэфф\щиеит корреляции равеи

среднему геометрическому выборочных коэффициентов регрессии.

Действительно. перемножив левые и правые части равенств ("').

получим

Orсюда

ГВ= ± уР"жf'х,,'

Зllак при радикале в соответствии с замечаиием 1 должеи совпадать

со зиаком коэффициентов регрессин.

§ 8. Методика ВЫЧИCJleния выборочного козффициента корреляции

Пусть требуется по данным корреляционной таблицы вычислить выборочный ко~ициент корреляции, Можно значительно упростить расчет, если перейти к

262

условным вариантам (при этом величина r в не изменится)

Ui = (x,.-C1 )/h1 И и) = (Yj-C2 )/ha

В этом случае выборочный коэффициент корреляции вы­

числяют по формуле

r в= (~naflUV-nuv)/(naaofl)'

- -.... -

Величины и, v, 0'. И O'fl можно найти методом ПРОИЗDе-

дений (см. гл. XVII, § 4). а при малом числе данных­

непосредственно исходя из определений этих величин.

Остается указать способ вычисления ~ n.fluv, где nпfl-

частота пары условных вариант (и, и).

Можно доказать. что справедливы формулы (см. пояс­

нение в конце параграфа):

~ nаиии = ~ vU t

где U = ~ 11. aflU,

~ nafluv = ~ uV,

где V = ~ naflv.

для контроля целесообразно выполнить расчеты по обеим формулам и сравнить результаТbl~ их совпадение

свидетельствует о правильности вычислений.

Покажем на примере, как пользоваться приведенными

формулами.

"ример 1. Вычислить ~ nаиuи поданным корреляционной табл. 14.

Таблица 14

у

 

I

 

 

10

20

15

5

I

7

25

-

 

20

з5

-

 

-

I I

х

 

 

 

 

n

30

40

50

60

JI

 

-

-

-

-

12

23

-

-

-

43

30

47

2

I -

79

45

-

-

I

10

11

I

20

6

47

 

 

 

55

-

-

I -

9

I 7

3

19

nх

5

27

 

63

67

 

29

9

n=200

263

Реш е н и е.

Перейдем к условным вариантам: Щ = (Х/-С1)!"1 ==

== (х;-40)/1O (в

качестве ложиого иу.'1Я С1 вэята варианта %=40,

расположенная примерно в середине вариаЦIIОННОГО ряда; шаг h1

равен

разности между двумя соседними вариантами: 20-10 = 1О) и

Vj=(Yj-С,J/h"=(Уj-35)/10 (в качестве ложного нуля с.

взята

варианта

9=35,

расположенная в

середине вариационного

ряда;

шаг

hz

равен

разности между

двумя соседними вариантами:

25-15=10).

Составим корреляционную таблицу в условиых вариаитах. Прак­

тически это делают так: в первом столбце вместо ложного нуля с.

(варианты

35) пишут О; над нулем последовательно записывают -1,

-2; под нулем пишут 1,

2.

В

первой строке

вместо ложного нуля С1

(варианты 40) пишут О; слева

от

нуля

последовательио записываЮТ

-1, -2,

-3; справа от иуля пишут 1, 2. Все остальные даиные

переписывают из первоначальной

корреляционной

таблицы. В итоге

получим корреляционную табл.

15 в условных

вариантах.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

т а бл и ца 15

 

 

I-3

-2 I - 1 I

 

и

 

 

 

 

I

 

 

 

v

 

о

I i

1

I 2

 

ПО

 

 

 

 

 

 

- 2

5 I 7

 

-

 

 

-

I - I-

 

 

 

12

 

-1

-

I 20 I 23 I -

I - I -

 

 

43

 

 

.0

- I -

I 30 I 47

,

2 I -

 

 

79

 

 

1

-

I -

I 10 I 11 I 20 I 6

 

 

47

 

 

2

-

I -

 

- I 9 I 7 I 3

 

 

19

 

Па

5

I 27

I 63

 

67

 

29

I

9

 

n=200

Теперь ДЛЯ вычисления искомоji

суммы ~ nllvlШ составим рас­

четную табл. 16. Пояснения к составлеиию Ta1ti:. 16:

 

 

 

1.

В

каждой

клетке,

в

которой

частота

nllV

i: О,

записывают

в правом верхнем углу произведение частоты Пар на варианту u.

Например, в лравых верхних углах

клеток пеРВОR строки

записаны

произведения: 5·(-3)=-15; 7·(-2)=-14.

 

 

 

 

 

 

 

2. Складывают все числа.

помещенны"е в правых верхиих

углах

клеток одной строки и их

сумму

записывают в клетку этой

же строки

столбца и. Например, для первой

строки

U=-15+(-14)=-29.

3. Умножают варианту v на U н получениое произведение заqи.

сывают

в

последнюю клетку той

же строки,

т. е,

в клетку столбца

ии. Например, в первой

строке

таблицы

v =

-

2,

U =

-

29;

следо­

вательно,

ии = (-2)·(-29) = 58.

 

 

 

 

 

 

 

 

 

 

 

4.

Наконец,

сложив

все числа столбца ои,

получают

сумку

~ ии. которая равна искомой

сумме ~ nll"uv. Например. для табл. 16

D

имеем ~ ии= 169; следовательно, искомая сумма ~ nllvuv= 169.

v

264

~

CI\

Таблица 16

t1

-3

-2

 

-2

I~

7'~

5

1 -101

1--"":"":'14'1

-1

-

-Ьо-- · \-=-40

20

 

 

-

-20/

о

-

 

 

1

-

-

 

 

2

....

-

v=~ navvl

-10

-34

30

68

-1

-

/-23

23

-2з1

~1-30

[ зо

О /

1-10

--:1~0I10

-

-13

13

и

I~ -·0 ~I

-

-

-1 0-

47

о ,

1 О

11

11 I

, О

9

1--'1""""8I

29

О

I

1

2

 

и=

 

 

=~navU

ои

 

 

 

 

-

-

 

-29

58

 

 

 

 

-

 

-63

63

 

 

 

 

Q

-

 

-28

о

2

 

 

 

о ,

 

 

 

 

I 20

6'42

22

22

20

 

 

20 I

~-\

 

 

26

~

I--Ч

13

 

 

14 I7

л_/ 3

11

 

 

34

12

 

 

~иU =169

 

 

v

 

 

 

 

з4

24

i~ uV = 1691+-I<ОНТРОЛЪi

 

 

11

и

 

 

 

 

 

Для контро.~я аВlIлогнчные вычнслення производят по sтonбцам: произведения navv записывают в левый нижний уrол клетки, содер­

жащей частоту nuv;l:: О; все 'lНсла, помещrнные в левых нижннх углах клеток одиого СТOJlбца, складывают и нх сумму запнсыввкл

в строку У; далее умножают каждую варианту и на V и результат записывают в кneTKax последней строки.

Наконец, СЛОЖИв все чнсла последней }fОКИ, получают сумму

~ иУ. которая также равна нскомой сумме nuvutl. Например, для

и

табл. J6 имеем ~ иУ= 169; следовательно, ~ nuvutl= 169.

и

Теперь, когда мы научились вычислять ~ navuv, при­

ведем пример на отыскание выборочноrо коэффнциента

,корреляции.

п~ер 2.

Вычислить вЫОорочный

КОЭффициеит корреляции

".- (..li nuvUtI -

nuv)/(nOa uv ) по данным корреляционной

табл.

14.

Реш е н и е. Перейдя к условным вариантам, получим

корреля-

.Циониую табл.

15. Величины и, ti, О" н

Ov можно вычислить методом

произве.цений;

одиако,

ПОСКOJIьку числа

щ,

tI, малы, ВЫЧИСлим ii и ti,

ИСХОДЯ из определення

среднеА, а Ои И о;-

используя формулы

(см.

гл. XVI. § 10)

Ou==VU2_(U)2, Ov=VV2_(tI)lI.

НаАдем и и и:

и= (~naи)/n=[5.(-3) +27. (-2)+63.(-1) +29.1 + +9'2]1200 = - 0,425;

O=(~ nv v)/n=112.(-2) + 43· (-1) + 47.1 + 19'2]/200=0,09.

Вычислим вспомогательную величину и2, а затем о.:

U'II=(~naц2)/n=(5.9+27.4+63.1 + 29.1 +9.4)/200= 1,405;

Оа=VUI_(U)I= У 1,405-(0,425)2= 1,106.

Аналогичио получим ав= 1,209.

Найдем искомый выборочный коэфj)ициент !юрреляции, учитывая,

1IТO ранее уже вычислена сумма ~ tluvUtl= 169:

'=. (~n"vUtI- nuti)/(nOuov) ==

== [169200· (-0,425)·0,09)/(200 .I,J06.I,209) =0,603.

Итак, ,.=0,603.

П о я с н е н и е. Покажем, что ~ navutl= ~ tlU, где U = ~ nuvu,

tI и

Рассмотрим корреляционную таблнцу в условных вариантах (для про­

стоты таблИllа содержит мало даниых):

266

17 I

 

 

u

 

 

и.

I

и.

I

и.

Vl

nи 1Т/.

 

nа•со•

 

nа•со•

V2

nalv

 

nalf1

 

nll1f18

Найдем ~ navuv двумя способами: суммируи произведения часroт

п,., на I;Iроизведеиия соответствующих условных вариант Utl по строкам

и по столбцам. для первой строки таблицы

 

nll D•• 1иl) + na•v ,· (и2Оl)+ nао•·tUavJ = иl ~ nllv.u.

(.)

 

u

 

!tnя второй строки таблицы

 

 

nlltflt (UIVS) +n alf1 •· (и~02)+n lllf1t

' (иаи.) =Оа~nШ7.U'

(••)

Сложим (*) и (*oJC.):

u

 

 

 

~ nаиии= tll ~ nаи.n+и2 ~ nасо.и.

 

u

u

 

Итак,

u

Аналогично, суммируя произведения частот n" на произведеви.

соответствующих условных вариант ии по столбцам, получим

~ navUtI= ~ uV, u

§ 9. Пример на отыскание выБОРОЧНО10

уравнения прямой линии регрессии

Теперь, когда известно, как вычисляют гВ, уме­

стно привести пример на отыскание уравнения прямой

линии регрессии.

уже вычислены u.

-

Поскольку при нахождении ГВ

 

 

V.

а., Осо. то целесообразно пользоваться формулами:

ах = h10a, 01/ = hiJcoх= uh1 1• У = vhll •.

Здесь сох ранены обозначения предыдущего параграфа.

Рекомендуем читателю самостоятельно вывести эти фор.

мулы.

Пример.

НаАти выборочное

уравиение

прямой JlИНlfИ регрессии

у иа Х по

данным корреляционной табл.

14 примера предыдущего

параграфа.

 

 

 

 

Реш е н и е. Напишем

искомое уравнение в общем виде:

 

-

-

-

 

 

(/11

-

 

ух-у =rB -=- -

х).

(/х

Коэффициент корреляции уже вычислен в предыдущем параграфе.

Остается найти Х, у, ох и О.,:

х= uh1 +Сl=-0,425. 10+40=35,751 g=vh,,+c.=0,09.IO+35=35,9;

О-х= G"h1 = 1,106·10= 11,06;

а" =ooh. = 1,209.10= 12,09.

ПОДСТ8ВИВ найденные

величины в (*). получим Искомое уравнение

-

 

9

 

12,09

ух-35,

 

=Q.603 11,06 (х-35,75),

или окончательно

ух=0,659х+ 12,34.

Сравн"м условные средние, вычисленные: а) По 9ТОму уравнению;

б) по данным корреляционной табл. 14. Например, при х=3О:

а) узо=О,659.30+ 12,34=32,11; б) 980= (23.25+ 30.35+ 10· 45)/63= 32,94.

Как видим, согласование расчетного и наБJПOДllемого условных

средних - удовлетворительное.

§ 10. Предварительные соображения к введению

меры любой корреляционной связи

Выше рассматривалась оценка тесноты линейной

корреляционной

связи. Как оценить тесноту л ю б о й

корреляционной

связи?

Пусть данные наблюдений над количественными при­

знаками Х и У сведены в корреляционную таблицу. Можно

считать, что тем самым наблюдаемые зиачения У раз­

биты на группы; каждая группа содержит те значения У,

которые соответствуют

определенному значению Х. На­

пример, дана корреляционная табл. 17.

 

К первой группе относятся те 10 значений У (4 раза

наБЛЮД8ЛОСЬ Уl = 3 и 6

раз Y',j = 5),

которые

соответст­

вуют Х1 = 8.

 

 

У (13 раз

Ко второй группе относятся те 20

значеиий

наблюдалось Уl = 3 и 7 раз Уа = 5), которые соответствуют

X',j=9.

268

Таблица 17

уI

3

5

nх

-

I

Ух

 

 

х

 

[1

I

9

 

4

 

13

6

 

7

10

 

20

4,2

 

3,7

Условные средние теперь можно назвать групповыми

u

-

средними: групповая средняя первои группы

У. =

= (4.3+6.5)110=4,2; групповая средняя второй группы

=(13.3+7.5)/20=3,7.

Поскольку все значения признака У разбиты на груп­ пы, можно представить общую дисперсию признака в виде

суммы внутригрупповой и межгрупповой дисперсий (см.

гл. XVI, § 12):

Локажем с,Праведливость следующих утверждений:

1) если У связан с Х функциональной зависимостью,

то

Dмежrр/DОбщ= 1;

2) если У связан с Х корреляционной зависимостью,

то

Dмежrp/Dобщ < 1.

Доказательство. 1) Если У связан с Х функ­

ц И О Н а л ь н о й з а в и с и м о с т ь ю, то определенному зна­

чению Х соответствует одно значение У. В этом случае

в каждой группе содержатся равные между собой значе­ ния У *',поэтому групповая дисперсия каждой группы

равна нулю. Следовательно, средняя арифметическая

*'Например, если значению Xl = 3

соответствует Yl = 7, причем

Хl = 3 наблюда.'lОСЬ 5 раз, то в группе

содержится 5 значений Уl = 7.

269

групповых дисперсий (взвешенная по объемам групп). т. е.

внутригрупповая дисперсия DвиI'1> = О И равенство (*).

имеет вид

Orсюда

D кежI'1>/D общ = 1.

2) ЕCJJИ У связан с Х к орр е л я ц и о н н о й 3 а в и­ с и м о с т ь ю, то определенному значению Х соответствуют.

вообще говоря. различные значеиия У (образующие груп­ пу). В 8Том случае групповая дисперсия каждой группы

отлична от нуля. Следовательно. средняя арифметическая

групповых дисперсиА

(взвешенная по объемам

групп)

D Brrrp + О. Тогда одно

положительиое

слагаемое

DкежГJ

меньше суммы двух положительных

слагаемых

DBHrp +

+ D.ежrp-= Dоощ:

 

 

 

Orсюда

Dкежгр/Dобщ < 1.

Уже из приведенных рассуждений видно. что чем связь

между признаками ближе к функциональной. тем меньше

Dви:rp и. е.ледовательно. тем больше приближается DмежI'1>

К Do6Jц. а значит. отношение Dмежгр/DО6щ-К единице.

Orсюда ясно. что целесообразно рассматривать в качестве

меры тесноты корреляционной зависимости отношение межгрупповой дисперсии к общей. или. что то же, отно­

шение межгруппового среднего квадратического отклоне­

ния к общему среднему квадратическому отклонению.

§ 11. Выборочное корреляционное отношение

Для оценки тесноты линейной корреляционной

связи между призиаками в выборке служит выборочный

коэффиuиент корреляuии. Для оuенки тесноты н е л и н е й­

н о й корреляционной связи вводят новые сводные ха­

рактеристики:

Т)"ж-выборочное корреляционное отношение У к Х;

Т)х,,-выборочное корреляционное отношенне Х к У.

ВbI60РОЧНbI.М корреляцuон,НbI.М отношенuе.м. У к Х на-

зывают отношение межгруппового среднего квадратиче­

ского отклонения к общему среднему квадратическому

270