- •Выборочная ковариация между х и y определяется как
- •Выборочная дисперсия
- •2. Экспериментальная часть
- •3. Задание на лабораторную работу
- •4. Содержание отчета
- •5. Контрольные вопросы
- •Краткая теоретическая часть.
- •Модель парной линейной регрессии
- •Регрессия по методу наименьших квадратов.
- •Детальное рассмотрение остатков.
- •На рис. 4 линия регрессии
- •Регрессия по методу наименьших квадратов с одной независимой переменой.
- •Качество оценки: коэффициент r2
- •3. Задание на лабораторную работу
- •4. Содержание отчета
- •5. Контрольные вопросы
2. Экспериментальная часть
В качестве примера рассматриваются данные по личному располагаемому доходу и совокупным личным расходам населения некоторого региона нашей страны за 1970-1994 гг.
Таблица 1
№ п/п |
Показатели |
Совокупные личные расходы (у) |
Расходы на жилье () |
Расходы на питание (w) |
Личный располагаемый доход (х) |
1. |
1970 |
440,4 |
264,24 |
176,16 |
479,7 |
2. |
1971 |
452 |
271,2 |
180,8 |
489,7 |
3. |
1972 |
461,4 |
322,98 |
138,42 |
503,8 |
4. |
1973 |
482 |
385,6 |
96,4 |
524,9 |
5. |
1974 |
500,5 |
300,3 |
200,2 |
542,3 |
6. |
1975 |
528 |
264 |
264 |
580,8 |
7. |
1976 |
557,5 |
390,25 |
167,25 |
616,3 |
8. |
1977 |
585,7 |
351,42 |
234,28 |
646,8 |
9. |
1978 |
602,7 |
482,16 |
120,54 |
673,5 |
10. |
1979 |
634,4 |
444,08 |
190,32 |
701,3 |
11. |
1980 |
657,9 |
592,11 |
65,79 |
722,5 |
12. |
1981 |
672,1 |
403,26 |
268,84 |
751,6 |
13. |
1982 |
696,8 |
418,08 |
278,72 |
779,2 |
14. |
1983 |
737,1 |
515,97 |
221,13 |
810,3 |
15. |
1984 |
768,5 |
614,8 |
153,7 |
865,3 |
16. |
1985 |
763,6 |
534,52 |
229,08 |
858,4 |
17. |
1986 |
780,2 |
390,1 |
390,1 |
875,8 |
18. |
1987 |
823,1 |
411,55 |
411,55 |
906,8 |
19. |
1988 |
864,3 |
691,44 |
172,86 |
942,9 |
20. |
1989 |
903,2 |
541,92 |
361,28 |
988,8 |
21. |
1990 |
927,6 |
649,32 |
278,28 |
1015,5 |
22. |
1991 |
931,8 |
559,08 |
372,72 |
1021,6 |
23. |
1992 |
950,9 |
475,45 |
475,45 |
1049,3 |
24. |
1993 |
963,3 |
674,31 |
288,99 |
1058,3 |
25. |
1994 |
1009,2 |
605,52 |
403,68 |
1095,4 |
Демонстрация вычисления выборочного коэффициента корреляции на примере данных таблицы 1. Для его вычисления сначала найдем средние (для рассматриваемого выборочного периода) значения показателей дохода и расходов и . Затем вычисляются отклонения величин от их средних и перемножаются. Средняя величина этого произведения будет выборочной ковариацией. Данные вычислений приведены в таблице 2.
Таблица 2
№ п/п |
x |
y |
|||
1 |
479,7 |
440,4 |
-300,332 |
-267,368 |
80299,17 |
2 |
489,7 |
452 |
-290,332 |
-255,768 |
74257,63 |
3 |
503,8 |
461,4 |
-276,232 |
-246,368 |
68054,73 |
4 |
524,9 |
482 |
-255,132 |
-225,768 |
57600,64 |
5 |
542,3 |
500,5 |
-237,732 |
-207,268 |
49274,24 |
6 |
580,8 |
528 |
-199,232 |
-179,768 |
35815,54 |
7 |
616,3 |
557,5 |
-163,732 |
-150,268 |
24603,68 |
8 |
646,8 |
585,7 |
-133,232 |
-122,068 |
16263,36 |
9 |
673,5 |
602,7 |
-106,532 |
-105,068 |
11193,1 |
10 |
701,3 |
634,4 |
-78,732 |
-73,368 |
5776,409 |
11 |
722,5 |
657,9 |
-57,532 |
-49,868 |
2869,006 |
12 |
751,6 |
672,1 |
-28,432 |
-35,668 |
1014,113 |
13 |
779,2 |
696,8 |
-0,832 |
-10,968 |
9,125376 |
14 |
810,3 |
737,1 |
30,268 |
29,332 |
887,821 |
15 |
865,3 |
768,5 |
85,268 |
60,732 |
5178,496 |
16 |
858,4 |
763,6 |
78,368 |
55,832 |
4375,442 |
17 |
875,8 |
780,2 |
95,768 |
72,432 |
6936,668 |
18 |
906,8 |
823,1 |
126,768 |
115,332 |
14620,41 |
19 |
942,9 |
864,3 |
162,868 |
156,532 |
25494,05 |
20 |
988,8 |
903,2 |
208,768 |
195,432 |
40799,95 |
21 |
1015,5 |
927,6 |
235,468 |
219,832 |
51763,4 |
22 |
1021,6 |
931,8 |
241,568 |
224,032 |
54118,96 |
23 |
1049,3 |
950,9 |
269,268 |
243,132 |
65467,67 |
24 |
1058,3 |
963,3 |
278,268 |
255,532 |
71106,38 |
25 |
1095,4 |
1009,2 |
315,368 |
301,432 |
95062,01 |
Сумма |
19500,8 |
17694,2 |
|
|
862842 |
Среднее |
780,032 |
707,768 |
|
|
34513,68 |
В данном случае ковариация положительна. Построим диаграмму рассеивания (см. Рис.2). Видно, что положительные вклады доминируют над отрицательными, что подтверждает расчетное значение ковариации Cov (х, y) = 34513,68
Р ис. 2.
Демонстрация и доказательство 1 правила ковариации
Обратимся снова к данным Таблицы 1, заметим, что совокупные личные расходы делятся на две части: расходы на жилье и расходы на питание. Рассчитаем Cov (х, ) и Cov (х, w). Расчетные данные приведены в таблицах 3 и 4.
Таблица 3
№ п/п |
x |
|
|||
1 |
479,7 |
264,24 |
-300,332 |
-197,906 |
59437,625 |
2 |
489,7 |
271,2 |
-290,332 |
-190,946 |
55437,85 |
3 |
503,8 |
322,98 |
-276,232 |
-139,166 |
38442,213 |
4 |
524,9 |
385,6 |
-255,132 |
-76,5464 |
19529,436 |
5 |
542,3 |
300,3 |
-237,732 |
-161,846 |
38476,068 |
6 |
580,8 |
264 |
-199,232 |
-198,146 |
39477,104 |
7 |
616,3 |
390,25 |
-163,732 |
-71,8964 |
11771,741 |
8 |
646,8 |
351,42 |
-133,232 |
-110,726 |
14752,3 |
9 |
673,5 |
482,16 |
-106,532 |
20,0136 |
-2132,0888 |
10 |
701,3 |
444,08 |
-78,732 |
-18,0664 |
1422,4038 |
11 |
722,5 |
592,11 |
-57,532 |
129,9636 |
-7477,0658 |
12 |
751,6 |
403,26 |
-28,432 |
-58,8864 |
1674,2581 |
13 |
779,2 |
418,08 |
-0,832 |
-44,0664 |
36,663245 |
14 |
810,3 |
515,97 |
30,268 |
53,8236 |
1629,1327 |
15 |
865,3 |
614,8 |
85,268 |
152,6536 |
13016,467 |
16 |
858,4 |
534,52 |
78,368 |
72,3736 |
5671,7743 |
17 |
875,8 |
390,1 |
95,768 |
-72,0464 |
-6899,7396 |
18 |
906,8 |
411,55 |
126,768 |
-50,5964 |
-6414,0044 |
19 |
942,9 |
691,44 |
162,868 |
229,2936 |
37344,59 |
20 |
988,8 |
541,92 |
208,768 |
79,7736 |
16654,175 |
21 |
1015,5 |
649,32 |
235,468 |
187,1736 |
44073,393 |
22 |
1021,6 |
559,08 |
241,568 |
96,9336 |
23416,056 |
23 |
1049,3 |
475,45 |
269,268 |
13,3036 |
3582,2338 |
24 |
1058,3 |
674,31 |
278,268 |
212,1636 |
59038,341 |
25 |
1095,4 |
605,52 |
315,368 |
143,3736 |
45215,445 |
Сумма |
19500,8 |
11553,66 |
|
|
507176,37 |
Среднее |
780,032 |
462,1464 |
|
|
20287,055 |
Таблица 4
№ п/п |
x |
w |
|||
1 |
479,7 |
176,16 |
-300,332 |
-69,4616 |
20861,5413 |
2 |
489,7 |
180,8 |
-290,332 |
-64,8216 |
18819,7848 |
3 |
503,8 |
138,42 |
-276,232 |
-107,202 |
29612,5124 |
4 |
524,9 |
96,4 |
-255,132 |
-149,222 |
38071,2053 |
5 |
542,3 |
200,2 |
-237,732 |
-45,4216 |
10798,1678 |
6 |
580,8 |
264 |
-199,232 |
18,3784 |
-3661,56539 |
7 |
616,3 |
167,25 |
-163,732 |
-78,3716 |
12831,9388 |
8 |
646,8 |
234,28 |
-133,232 |
-11,3416 |
1511,06405 |
9 |
673,5 |
120,54 |
-106,532 |
-125,082 |
13325,193 |
10 |
701,3 |
190,32 |
-78,732 |
-55,3016 |
4354,00557 |
11 |
722,5 |
65,79 |
-57,532 |
-179,832 |
10346,0716 |
12 |
751,6 |
268,84 |
-28,432 |
23,2184 |
-660,145549 |
13 |
779,2 |
278,72 |
-0,832 |
33,0984 |
-27,5378688 |
14 |
810,3 |
221,13 |
30,268 |
-24,4916 |
-741,311749 |
15 |
865,3 |
153,7 |
85,268 |
-91,9216 |
-7837,97099 |
16 |
858,4 |
229,08 |
78,368 |
-16,5416 |
-1296,33211 |
17 |
875,8 |
390,1 |
95,768 |
144,4784 |
13836,4074 |
18 |
906,8 |
411,55 |
126,768 |
165,9284 |
21034,4114 |
19 |
942,9 |
172,86 |
162,868 |
-72,7616 |
-11850,5363 |
20 |
988,8 |
361,28 |
208,768 |
115,6584 |
24145,7729 |
21 |
1015,5 |
278,28 |
235,468 |
32,6584 |
7690,00813 |
22 |
1021,6 |
372,72 |
241,568 |
127,0984 |
30702,9063 |
23 |
1049,3 |
475,45 |
269,268 |
229,8284 |
61885,4336 |
24 |
1058,3 |
288,99 |
278,268 |
43,3684 |
12068,0379 |
25 |
1095,4 |
403,68 |
315,368 |
158,0584 |
49846,5615 |
Сумма |
19500,8 |
6140,54 |
|
|
355665,624 |
Среднее |
780,032 |
245,6216 |
|
|
14226,6249 |
Таким образом Cov(х,)=20287,055 и Cov(х,w)=14226,6249 , а Cov (х, )+Cov (х, w)= 34513,68. Видно, что Cov(х,y) является суммой Cov (х, v) и Cov (х, w).
Покажем, что именно так и должно быть. Рассмотрим i-ый показатель, —это его вклад в величину Соv(х,y). Поскольку yi=vi+wi, и , то
= =+,
Таким образом, показано, что вклад, показателя i в Cov(x, y) является суммой его вкладов в Cov(x, ) и Cov(x, w). То же самое справедливо для всех показателей и, соответственно, для ковариации в целом.
Демонстрация и доказательство 2 правила ковариации
Для доказательства второго правила ковариации увеличим y в 10 раз, обозначив полученное число z и рассчитаем Cov(x, z). Для вычисления Cov(x, z), как и ранее, необходимы значения , а также рассчитанные в таблице 5.
Таблица 5
№ п/п |
x |
z |
|||
1 |
479,7 |
4404 |
-300,332 |
-2673,68 |
802991,66 |
2 |
489,7 |
4520 |
-290,332 |
-2557,68 |
742576,35 |
3 |
503,8 |
4614 |
-276,232 |
-2463,68 |
680547,25 |
4 |
524,9 |
4820 |
-255,132 |
-2257,68 |
576006,41 |
5 |
542,3 |
5005 |
-237,732 |
-2072,68 |
492742,36 |
6 |
580,8 |
5280 |
-199,232 |
-1797,68 |
358155,38 |
7 |
616,3 |
5575 |
-163,732 |
-1502,68 |
246036,8 |
8 |
646,8 |
5857 |
-133,232 |
-1220,68 |
162633,64 |
9 |
673,5 |
6027 |
-106,532 |
-1050,68 |
111931,04 |
10 |
701,3 |
6344 |
-78,732 |
-733,68 |
57764,094 |
11 |
722,5 |
6579 |
-57,532 |
-498,68 |
28690,058 |
12 |
751,6 |
6721 |
-28,432 |
-356,68 |
10141,126 |
13 |
779,2 |
6968 |
-0,832 |
-109,68 |
91,25376 |
14 |
810,3 |
7371 |
30,268 |
293,32 |
8878,2098 |
15 |
865,3 |
7685 |
85,268 |
607,32 |
51784,962 |
16 |
858,4 |
7636 |
78,368 |
558,32 |
43754,422 |
17 |
875,8 |
7802 |
95,768 |
724,32 |
69366,678 |
18 |
906,8 |
8231 |
126,768 |
1153,32 |
146204,07 |
19 |
942,9 |
8643 |
162,868 |
1565,32 |
254940,54 |
20 |
988,8 |
9032 |
208,768 |
1954,32 |
407999,48 |
21 |
1015,5 |
9276 |
235,468 |
2198,32 |
517634,01 |
22 |
1021,6 |
9318 |
241,568 |
2240,32 |
541189,62 |
23 |
1049,3 |
9509 |
269,268 |
2431,32 |
654676,67 |
24 |
1058,3 |
9633 |
278,268 |
2555,32 |
711063,79 |
25 |
1095,4 |
10092 |
315,368 |
3014,32 |
950620,07 |
Сумма |
19500,8 |
176942 |
|
|
8628420 |
Среднее |
780,032 |
7077,68 |
|
|
345136,8 |
Из Таблицы 5 видно, что Cov(x, z)=345136,8, что в точности равно удесятеренной Cov(x,y). Таким образом проверено, что Соv(х,10y) совпадает с 10Cov(x,y). Для доказательства рассмотрим первый показатель. Поскольку zi =10y1 и =10, а = и, следовательно, равно 10, то вклад первого показателя в величину Cov(x,z) в точности равен удесятеренной величине его вклада в Cov(x,y). То же самое справедливо для всех других показателей. Средняя величина поэтому равна удесятеренной средней величине 10 и, таким образом, Cov(x, z) = 10Cov(x, y). Обобщая, получим, что если z=аy (и отсюда z=аy), то
Демонстрация и доказательство 3 правила ковариации
Поскольку каждый показатель в выборке имеет два пути расходования (жилье и питание), предположим, что надо вычислить ковариацию между личным располагаемым доходом и числом путей расходования (а). Естественно, что a1 = a2 =... = a20 = 2. Таким образом, a = 2. Отсюда (а-а)=0 и, следовательно, (x-x)(a-a)=0. Поэтому Cov(x,a)==0.
Таблица, обычно используемая в таких случаях будет выглядеть так:
Таблица 6
№ п/п |
x |
a |
|||
1 |
479,7 |
2 |
-300,332 |
0 |
0 |
2 |
489,7 |
2 |
-290,332 |
0 |
0 |
3 |
503,8 |
2 |
-276,232 |
0 |
0 |
4 |
524,9 |
2 |
-255,132 |
0 |
0 |
5 |
542,3 |
2 |
-237,732 |
0 |
0 |
6 |
580,8 |
2 |
-199,232 |
0 |
0 |
7 |
616,3 |
2 |
-163,732 |
0 |
0 |
8 |
646,8 |
2 |
-133,232 |
0 |
0 |
9 |
673,5 |
2 |
-106,532 |
0 |
0 |
10 |
701,3 |
2 |
-78,732 |
0 |
0 |
11 |
722,5 |
2 |
-57,532 |
0 |
0 |
12 |
751,6 |
2 |
-28,432 |
0 |
0 |
13 |
779,2 |
2 |
-0,832 |
0 |
0 |
14 |
810,3 |
2 |
30,268 |
0 |
0 |
15 |
865,3 |
2 |
85,268 |
0 |
0 |
16 |
858,4 |
2 |
78,368 |
0 |
0 |
17 |
875,8 |
2 |
95,768 |
0 |
0 |
18 |
906,8 |
2 |
126,768 |
0 |
0 |
19 |
942,9 |
2 |
162,868 |
0 |
0 |
20 |
988,8 |
2 |
208,768 |
0 |
0 |
21 |
1015,5 |
2 |
235,468 |
0 |
0 |
22 |
1021,6 |
2 |
241,568 |
0 |
0 |
23 |
1049,3 |
2 |
269,268 |
0 |
0 |
24 |
1058,3 |
2 |
278,268 |
0 |
0 |
25 |
1095,4 |
2 |
315,368 |
0 |
0 |
Сумма |
19500,8 |
50 |
|
|
0 |
Среднее |
780,032 |
2 |
|
|
0 |
Для расчета выборочной дисперсии x и y воспользуемся соотношениями и . Полученные результаты приведены в таблице 6.
Таблица 6
№ п/п |
x |
y |
||
1 |
479,7 |
440,4 |
90199,31 |
71485,65 |
2 |
489,7 |
452 |
84292,67 |
65417,27 |
3 |
503,8 |
461,4 |
76304,12 |
60697,19 |
4 |
524,9 |
482 |
65092,34 |
50971,19 |
5 |
542,3 |
500,5 |
56516,5 |
42960,02 |
6 |
580,8 |
528 |
39693,39 |
32316,53 |
7 |
616,3 |
557,5 |
26808,17 |
22580,47 |
8 |
646,8 |
585,7 |
17750,77 |
14900,6 |
9 |
673,5 |
602,7 |
11349,07 |
11039,28 |
10 |
701,3 |
634,4 |
6198,728 |
5382,863 |
11 |
722,5 |
657,9 |
3309,931 |
2486,817 |
12 |
751,6 |
672,1 |
808,3786 |
1272,206 |
13 |
779,2 |
696,8 |
0,692224 |
120,297 |
14 |
810,3 |
737,1 |
916,1518 |
860,3662 |
15 |
865,3 |
768,5 |
7270,632 |
3688,376 |
16 |
858,4 |
763,6 |
6141,543 |
3117,212 |
17 |
875,8 |
780,2 |
9171,51 |
5246,395 |
18 |
906,8 |
823,1 |
16070,13 |
13301,47 |
19 |
942,9 |
864,3 |
26525,99 |
24502,27 |
20 |
988,8 |
903,2 |
43584,08 |
38193,67 |
21 |
1015,5 |
927,6 |
55445,18 |
48326,11 |
22 |
1021,6 |
931,8 |
58355,1 |
50190,34 |
23 |
1049,3 |
950,9 |
72505,26 |
59113,17 |
24 |
1058,3 |
963,3 |
77433,08 |
65296,6 |
25 |
1095,4 |
1009,2 |
99456,98 |
90861,25 |
Сумма |
19500,8 |
17694,2 |
951199,7 |
784327,6 |
Среднее |
780,032 |
707,768 |
38047,99 |
31373,1 |
Таким образом Var(x)=38047,99 , а Var(y)= 31373,1.
Вычисление выборочного коэффициента корреляции рассмотрим на примере данных из таблицы 1. Ранее была рассчитана Cov(x,y)= 34513,68 , поэтому можно рассчитать коэффициент корреляции по формуле:
Подставив в формулу необходимые значения, получим: rx,y=0,99896.
Покажем, что коэффициент корреляции, в отличие от ковариации, не зависит от единиц, в которых измеряются переменные х и y. Допустим, что единица измерения одной из переменных изменилась: пересчитаем значения переменной y (совокупные личные расходы) в долларах по курсу 1:20. Т. е. для переменной y вводится постоянный коэффициент перерасчета а=1/20. Воспользовавшись 2 правилом расчета ковариации получим: Y=1/20y, Cov(x,Y)=1/20Cov(x,y). Исполь-зуя 2 правило расчета дисперсии: Y=1/20y, Var(Y)=1/400Var(y).
Подставляем полученные выражения в формулу коэффициента корреляции:
Т.о. мы доказали, что величина коэффициента корреляции не зависит от единиц измерения переменных.
Вывод
Коэффициент корреляции является более подходящим измерителем зависимости, чем ковариация. Основная причина этого заключается в том, что ковариация зависит от единиц, в которых измеряются переменные х и y, в то время как коэффициент корреляции есть величина безразмерная.