Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
тиун. рук-во.DOC
Скачиваний:
55
Добавлен:
11.04.2015
Размер:
2.02 Mб
Скачать

Тема 11. Корреляция и регрессия

Понятие о системе случайных величин. Независимые и зависимые случайные величины. Числовые характеристики системы двух случайных величин: корреляционный момент (ковариация) и коэффициент корреляции. Коррелированность и некоррелированность двух случайных величин. Функциональная и статистическая (стохастическая) зависимости между случайными величинами (признаками). Корреляционная таблица. Групповые (условные) средние и. Корреляционная зависимость между двумя признаками. Уравнения регрессии и линии регрессии. Основные задачи теории корреляции. Линейная и нелинейная корреляционная зависимости. Эмпирические (опытные) линии регрессии. Приближение эмпирических линий теоретическими кривыми регрессии по данным выборки с помощью метода наименьших квадратов. Нахождение параметров теоретических прямых линий регрессии. Коэффициенты регрессии. Выборочный коэффициент корреляции и его свойства. Запись уравнений прямых линий регрессии (теоретических) с помощью коэффициента корреляции. Упрощенный способ нахождения выборочного коэффициента корреляции и прямых линий регрессии в случае равноотстоящих вариант. Нелинейные корреляционные зависимости между двумя признаками. Корреляционные отношения и их свойства. Понятие о множественной корреляции. Уравнение линейной множественной регрессии. Совокупный коэффициент корреляции и его свойства. Частные коэффициенты корреляции и их свойства.

Л и т е р а т у р а

[1], раздел 2, гл.5, 5.5.3, 5.6.7, гл.6, 6.1.4, 6.1.5, 6.2; [4], §3; [5], гл.14, § 1-4, 7-9, 11, 16-18, гл.12, § 10, 12, гл.18, § 1-15; [8], гл.9, § 1-7; [9], гл.6, § 1, 2, гл.9, § 1-3; [11], гл.29, § 199, 200, 205, гл.33, § 220-225; [12], ч.2, гл.6, § 21-26; [16], гл.8.

О с н о в н ы е п о л о ж е н и я и ф о р м у л ы

Для характеристики связи между признаками Х и Y служит корреляционный момент (ковариация) Kxy, который (которая) определяется как математическое ожидание произведения отклонений этих величин:

Kxy = М[(X-M(X)) (Y-M(Y))]. (11.1)

Непосредственно из этого определения следует, что

Kxy = M(XY) – M(X) M(Y). (11.2)

Легко доказать, что корреляционный момент двух независимых случайных величин равен нулю. Таким образом, условие

Kxy =0 (11.3)

является необходимым условием независимости случайных величин. Следовательно, если Kxy0, то X и Y – зависимые случайные величины.

Если Kxy=0, то величины Х и Y не обязательно независимы. Если Х и Y – зависимые случайные величины, то отсюда еще не следует, что Kxy0.

Корреляционный момент зависит от выбора единиц измерения случайных величин Х и Y, поэтому использовать эту характеристику не всегда удобно. От этого недостатка свободна характеристика, называемая коэффициентом корреляции. Коэффициент корреляции определяется равенством

rxy = . (11.4)

Размерность Kxy равна произведению размерностей величин Х и Y. Тогда из равенства (11.4) следует, что коэффициент корреляции является безразмерной величиной. В этом его преимущество перед корреляционным моментом, в остальном он играет роль корреляционного момента.

Две случайные величины Х и Y называются коррелированными, если их корреляционный момент отличен от нуля (или, что следует из (11.4), rxy0). Х и Y называются некоррелированными величинами, если Kxy=0 (rxy=0).

Из этих определений и сказанного ранее получаются следующие выводы: 1) из независимости двух случайных величин следует их некоррелированность, но из некоррелированности еще не следует независимость этих величин; 2)из коррелированности двух случайных величин следует их зависимость, но из зависимости еще не вытекает коррелированность.

Статистическая зависимость между двумя признаками Х и Y выборки характеризуется корреляционной таблицей, общий вид которой следующий:

Y

Х

y1



yj



ys

nx

x1

n11



n1j



n1s

nx1

xi

ni1



nij



nis

nxi

(11.5)

xk

nk1



nkj



nks

nxk

ny

ny1



nyj



nys

n

Здесь хi (i=1,…, k), yj = (j=1,…, s) – соответственно значения признаков Х и Y; nxi, nyj – соответствующие им частоты; nij – частота, с которой встречается пара (хi, yj). По определению nxi = , nyj = . Из таблицы (11.5) вытекают следующие равенства для объема выборки n: n = .

По опытным данным (11.5) находятся условные (групповые) средние , отвечающие значениямхi (i=1,…, k), и , отвечающие значениямyj (j=1,…,S) по формулам

, (11.6)

. (11.7)

Ломаная линия, соединяющая точки , называется опытной (эмпирической) линией регрессии Yна Х. Ломаная линия, соединяющая точки , называется эмпирической линией регрессии Х наY.

Пусть требуется найти теоретическое уравнение

(11.8)

регрессии Y на Х по данным корреляционной таблицы (11.5). Параметры а1,…,аn этого уравнения находятся методом наименьших квадратов. При предполагаемом законе функциональной зависимости f коэффициенты а1,…,аn выбираются «наилучшими», т.е. так, чтобы сумма

(11.9)

оказалась минимальной. Величина определяет расстояние от точек Мi(хi, ), лежащих на предполагаемой теоретической кривой (11.8), до угловых точек Мi*(xi, )эмпирической (опытной) кривой. Множителем nxi учитывается значимость (вес) каждого хi. Минимум функции F(а1,…, аn), определенной равенством

F(а1,…, аn) = , (11.10)

будет и минимумом суммы (11.9). Теперь функцию (11.10) как функцию многих переменных а1,…, аn исследуют известными методами на экстремум. Если f дифференцируема по переменным а1,…,аn, то получится система алгебраических уравнений относительно неизвестных а1,…, аn, решение которой дает «наилучшие» параметры при выбранном законе зависимости f. В этом и состоит метод наименьших квадратов.

Если f(х, а1,…, аn)=а1х+а2, то теоретической кривой регрессии Y на Х будет прямая линия

= а1х + а2. (11.11)

В этом случае легко показать, что минимум функции (11.10) достигается при параметрах а1, а2, являющихся решением системы линейных алгебраических уравнений

а1+а2=,

а1+а2 = , (11.12) где- начальные моменты порядкаk (см. (9.9)) и

. (11.13)

Рассмотрим еще два случая нелинейной (криволинейной) корреляции Y на Х: параболической корреляции, когда теоретическое уравнение регрессии имеет вид

= а1х2 + а2х + а3, (11.14)

и гиперболической корреляции, когда теоретическое уравнение регрессии имеет вид

. (11.15)

В этих ситуациях методом наименьших квадратов получаются следующие системы линейных алгебраических уравнений для нахождения «наилучших» параметров:

(11.16)

(11.17)

Найденные из систем (11.16) и (11.17) параметры подставляют, соответственно, в (11.14) и (11.15). В итоге получим искомое теоретическое уравнение регрессии Y наХ, предполагаемая кривая которого выравнивает эмпирическую кривую регрессииYна Х.

Конечно, имеется некоторая неоднозначность в выборе выравнивающей теоретической кривой (11.8) (формы корреляционной связи) при конкретно построенной эмпирической кривой регрессии по данной корреляционной таблице. Одну и ту же эмпирическую кривую можно приблизить, например, «наилучшей» прямой и «наилучшей» параболой. Тогда лучшей из таких теоретических кривых надо считать ту, при которой величина (11.10) будет наименьшей.

Аналогично решаются задачи нахождения теоретических уравнений регрессии Х на Y.

Рассмотрим подробно линейную корреляцию. Решая систему (11.12), получим следующие значения а1иа2:

а1=,а2=.

Угловой коэффициент а1 прямой (11.11) называется коэффициентом регрессии Y на Х и обычно обозначается символом yx:

yx = . (11.18)

Уравнение (11.11) очевидным образом преобразуется к виду

. (11.19)

Аналогично теоретическое уравнение линейной регрессии Х наYс помощью коэффициента

(11.20)

регрессии Х на Y приводится к виду

. (11.21)

Из формул (11.18) и (11.20) следует, что коэффициенты регрессий имеют одинаковые знаки, которые определяются знаками совпадающих числителей этих формул (знаменатели формул различны, но положительны).

Выборочным коэффициентом корреляции rВ признаков Х и Y называется число, равное среднему геометрическому коэффициентов регрессии и имеющее их знак:

rВ = . (11.22)

Таким образом, коэффициент корреляции положителен, если коэффициенты регрессии положительны, и отрицателен, если они отрицательны.

С помощью коэффициента корреляции уравнения прямых линий регрессии записываются в следующем симметричном виде:

, (11.23)

. (11.24)

Прямые пересекаются в точке (), которая называется средней точкой корреляционного графика.

Коэффициент корреляции имеет важное самостоятельное значение. С его помощью оценивается теснота (сила) корреляционной связи между признаками. Коэффициент корреляции rВ обладает следующими свойствами:

1. или -1 rB  1.

  1. Условие (rВ= 1) является необходимым и достаточным условием существования линейной функциональной зависимости (при этом уравнения (11.23) и (11.24) определяют одну и ту же прямую).

  2. При rВ =0 линейной корреляционной связи между признаками не существует (при этом может быть нелинейная корреляционная связь и даже нелинейная функциональная зависимость).

Следовательно, при возрастании от 0 до 1 теснота линейной корреляционной зависимости увеличивается. Если коэффициент корреляции очень мал, то считают, что линейной корреляции нет.

Важным случаем является ситуация, когда значения хотя бы одного из признаков являются равноотстоящими. Пусть для примера этим свойством обладает признак Х. Тогда вводят условные варианты и вычисляют условные эмпирические моменты первого и второго порядка по формуле (9.12). Из формулы (9.13) следует, что х=uh. Найденные их подставляются в уравнения (11.23) и (11.24). Кроме того, коэффициент корреляции rВ сохраняет значение и форму записи, т.е.

rB = . (11.25)

Пусть значения обоих признаков Х и Y равноотстоящи соответственно с шагами h1 и h2. Тогда переходят к новым переменным u и v, предварительно выбрав соответствующие ложные нули С1 и С2. Далее, по формуле (9.11) находятся условные моменты Из (9.12) и (9.13) следует, что

Коэффициент корреляции вычисляется по формуле

rВ = . (11.26)

Теперь все эти значения подставляются в уравнения (11.23) и (11.24).

Р е ш е н и е т и п о в ы х з а д а ч

Задача 1. Зависимость между вариантами Х – стоимостью основных производственных средств (млн руб.) и Y – средней месячной выработкой продукции на одного рабочего (тыс.руб.) дана следующей таблицей:

Х

Y

9,9

10,0

10,1

10,2

10,3

10,4

10,5

ny

0,8

0,9

1,0

1,1

1,2

1,3

1

2

1

1

2

2

1

2

1

1

3

2

1

3

4

5

4

3

1

nx

1

4

4

4

1

3

3

n=20

Требуется: 1) вычислить условные средние данных переменных; 2) составить линейное уравнение регрессии Y на Х; 3) для каждого табличного значения х вычислить теоретическое среднее и сравнить его с условным средним.

Решение. 1. Находим условные средние переменной Y по формулам (11.6). Для этого составляем частные распределения этой переменной. Их будет столько, сколько значений х в статистической таблице. Для х1=9,9 распределение Y имеет вид

Y

0,8

0,9

1,0

1,1

1,2

1,3

ny

1

0

0

0

0

0

Отсюда

В дальнейшем значения варианты Y, имеющие нулевые частоты в частных распределениях, записывать не будем. Для х2=10:

Y

0,8

0,9

1,2

ny

2

1

1

Отсюда

Для х3=10,1:

Y

0,9

1,0

ny

2

2

Отсюда

Для х4=10,2:

Y

0,9

1

1,1

ny

1

2

1

Отсюда

Для х5=10,3:

Y

1

ny

1

Отсюда

Для х6=10,4:

Y

1,1

ny

3

Отсюда

Для х7=10,5:

Y

1,2

1,3

ny

2

1

Отсюда

Итак, распределение условных средних варианты Y выразится следующей таблицей:

Х

9,9

10

10,1

10,2

10,3

10,4

10,5

0,8

0,925

0,95

1

1

1,1

1,23

Аналогично, используя формулы (11.7), находим условные средние варианты Х. Их будет столько, сколько значений Y в данной статистической таблице. Эти значения следующие:

Таким образом, получаем распределение условных средних варианты Х:

Y

0,8

0,9

1

1,1

1,2

1,3

9,97

10,1

10,18

10,35

10,33

10,5

Графически эмпирические зависимости между и Х, а также междуиY показаны на следующем рисунке.

y ()

0 x ()

2. Параметры а1 и а2 линейной зависимости =а1х+а2 определяем из решения системы (11.12). В нашем случае имеем следующее:

Следовательно, мы получим систему

Отсюда а10,592, а2 = -5,03.

Таким образом, искомое уравнение регрессии Y на Х запишется так:

= 0,592 х – 5,03.

3. Вычислим для каждого значения варианты Х теоретические значения , используя уравнение регрессии= 0,592х – 5,03:

= 0,5929,9 – 5,03 = 0,8 308;

= 0,59210 – 5,03 = 0,89;

= 0,59210,1 – 5,03 = 0,9 492;

= 0,59210,2 – 5,03 = 1,0 084;

= 0,59210,3 – 5,03 = 1,0 676;

= 0,59210,4 – 5,03 = 1,1 268;

= 0,59210,5 – 5,03 = 1,186.

Сравнивая полученные значения с соответствующими значениями условных средних, видим, что они очень близки друг к другу. Следовательно, полученное уравнение регрессии хорошо описывает зависимость между стоимостью основных производственных средств и месячной выработкой продукции.

Задача 2. Распределение 100 заводов по производственным средствам в миллионах рублей (Х) и по суточной выработке в тоннах (Y) дается в следующей таблице:

Y

Х

10

15

20

25

30

35

nх

50

60

70

80

90

2

2

2

4

2

5

7

6

12

10

8

4

10

10

4

6

6

4

21

35

26

14

ny

4

8

12

36

24

16

n=100

По данным этой таблицы определить коэффициенты корреляции и регрессии. Составить уравнения прямых регрессий.

Решение. По данным таблицы находим:

5 369 – (72,5)2 = 112,75; = 707 – (25,8)2 = 41,36.

Вычислим коэффициенты регрессий Y на Х и X на Y по формулам (11.18) и (11.20):

Используя формулы (11.19) и (11.21), составим уравнения регрессий:

- 25,8 = 0,3 415 (х – 72,5);

- 72,5 = 0,9 308 (y – 25,8).

Окончательно =0,3 415х + 1,04; =0,9 308y +48,49.

Линейный выборочный коэффициент корреляции вычислим по формуле (11.22):

Таким образом, rВ 0,564. Линейная связь между признаками заметная.

Задача 3. Выборочные данные об основных фондах (Х) и объемах валовой продукции (Y) предприятий мебельной промышленности заданы следующей таблицей:

Валовая

продукция

(млн руб.)

Основные фонды предприятий (млн руб.)

Всего

предприятий

ny

0,0-1,4

1,4-2,8

2,8-4,2

4,2-5,6

5,6-7,0

0,0-0,8

0,8-1,6

1,6-2,4

2,4-3,2

3,2-4,0

1

3

4

6

10

5

8

9

1

3

4

10

18

15

3

nx

1

7

21

17

4

n=50

Составить уравнения прямых регрессий, установить тесноту связи между признаками.

Решение. За значения признаков примем середины интервалов и составим корреляционную таблицу в условных вариантах, приняв в качестве ложных нулей C1=3,5 и С2=2. Эта таблица следующая:

U

V

-2

-1

0

1

2

nv

-2

-1

0

1

2

1

3

4

6

10

5

8

9

1

3

4

10

18

15

3

nu

1

7

21

17

4

50

Используя формулу вычисления характеристик, находим:

Найдем искомый коэффициент корреляции по формуле (11.26):

rВ =

Находим :

Подставляя полученные значения в уравнения регрессий (11.23), (11.24), имеем

Окончательно = 0,529х – 0,423; = 1,1 889y + 1,513.

Так как коэффициент корреляции rВ=0,7 934 близок к 1, то связь между валовой продукцией предприятий мебельной промышленности и их основными фондами тесная.

Графики прямых линий регрессий изображены на рисунке

y

0 x

Задача 4. Имеются данные, характеризующие зависимость капитальных вложений Y (млн руб.) от мощности предприятий Х (млн т продукции в год):

Х

50

60

70

80

90

100

110

120

130

Y

1,8

2,0

2,3

2,5

2,7

2,8

2,6

2,5

2,4

Предполагая, что связь между признаками Х и Y параболическая, определить уравнение регрессии Y на Х.

Решение. Данная таблица означает, что nij =1 при i=j и nij=0 при ij. Составляем следующую вспомогательную таблицу:

Х

Х2

Х3

Х4

Y

XY

X2Y

50

60

70

80

90

100

110

120

130

2 500

3 600

4 900

6 400

8 100

10 000

12 100

14 400

16 900

125 000

216 000

343 000

512 000

729 000

1 000 000

1 331 000

1 728 000

2 197 000

6 250 000

12 960 000

24 010 000

40 960 000

65 610 000

100 000 000

146 410 000

207 360 000

285 610 000

1,8

2,0

2,3

2,5

2,7

2,8

2,6

2,5

2,4

90

120

161

200

243

280

286

300

312

4 500

7 200

11 270

16 000

21 870

28 000

31 460

36 000

40 560

810

78 900

8 181 000

889 170 000

21,6

1 992

196 860

На основании данных таблицы, используя формулы (11.16), составляем систему уравнений для определения параметров а1, а2, а3 уравнения регрессии

= а1х2 + а2х + а3 :

98 796 666,7 а1 + 909 000 а2 + 8 766,7 а3 = 21 873,3;

909 000 а1 + 9 766,7 а2 + 90 а3 = 221,3;

9 766,7 а1 + 90 а2 + а3 = 2,4.

Решая эту систему, находим: а1=0,0 002; а2=0,0 509; а3= -0,0 525.

Таким образом, уравнение регрессии имеет вид

= -0,0 002 х2 + 0,0 509 х - 0,0 525.

Задача 5. При изучении влияния механизации уборочных работ Х (в %) на себестоимость центнера кукурузы Y (в руб.) в районе в отчетном году были получены следующие данные:

Y

Х

1,5-2,1

2,1-2,7

2,7-3,3

3,3-3,9

3,9-4,5

nx

50-60

60-70

70-80

80-90

90-100

1

3

6

10

4

6

3

3

1

1

1

3

1

1

3

6

10

9

16

ny

20

16

6

1

1

44

Предполагая, что связь между признаками гиперболическая, найти уравнение регрессии Y на Х.

Решение. Для определения параметров уравнения регрессии составим вспомогательную таблицу:

Х

Y

1/X

1/X2

Y/X

55

65

75

85

95

1,8

2,4

3

3,6

4,2

0,01818

0,01538

0,01333

0,01176

0,01053

0,0003305

0,0002366

0,0001777

0,0001384

0,0001108

0,032727

0,036923

0,04

0,042353

0,044211

15

0,06918

0,000994

0,196214

Вычислив соответствующие средние и подставив их в систему (11.17), получим:

0,0 000 225 а1 + 0,0 015 722 а2 = 0,0 044 594,

0,0 015 722 а1 + а2 = 0,390 909.

Решая эту систему, найдем а1=195,199, а2 = 0,0 299.

Таким образом, уравнение гиперболической регрессии имеет вид

=

З а д а ч и

  1. По тридцати магазинам райпищеторга имеются следующие данные о товарообороте и издержках обращения за один квартал:

Товарооборот

(млн руб.)

Издержки

обращения

(тыс.руб.)

Товарооборот

(млн руб.)

Издержки

обращения

(тыс.руб.)

0,4

0,7

3,1

2,2

0,4

0,9

0,6

0,7

12,8

9,0

64,0

59,8

11,9

25,6

18,1

19,8

1,9

0,6

0,6

2,3

0,8

0,9

1,3

56,1

18,9

19,2

68,3

23,4

25,8

38,6

Определить уравнение связи между издержками обращения и товарооборотом. Оценить тесноту связи между признаками с помощью коэффициента корреляции.

  1. Распределение 100 рабочих по общему стажу работы Х и квалификационному разряду Y дается в следующей таблице:

Y

Х

1

2

3

4

5

6

nx

0-5

5-10

10-15

15-20

20-25

25-30

14

1

21

7

2

14

6

2

6

6

1

1

3

4

7

1

4

35

25

17

11

7

5

ny

15

30

20

15

15

5

100

Определить уравнение связи между стажем работы и квалификацией. Вычислить теоретические средние и сравнить их с условными средними. Построить эмпирическую и теоретическую линии регрессии.

  1. Результаты экзаменов по математике Х и экономической теории Y в академической группе даны таблицей:

Y

Х

2

3

4

5

ny

2

3

4

5

1

1

2

3

3

2

8

2

1

2

3

7

11

4

nx

2

8

12

3

25

Вычислить коэффициент корреляции связи между Х и Y. Построить теоретические кривые и эмпирические линии регрессии Y на Х и X на Y.

  1. Для установления среднего времени, необходимого для выпечки батонов, были получены такие экспериментальные данные:

Вес единицы

изделия в гр.

Время на выпечку ( в мин)

200

400

500

800

14

2

16

5

18

1

1

20

5

1

22

2

4

24

3

1

26

3

28

3

30

1

Составить уравнения прямых линий регрессий и определить тесноту связи между факторами.

  1. В результате выборочного изучения связи между размерами потерь пшеницы Y (ц с га) и сроками ее уборки Х (количество дней) после достижения полной спелости были получены следующие данные:

Х

1

2

3

4

5

6

Y

1,75

2,60

3,40

4,12

4,80

5,30

Предполагая, что связь между признаками Х и Y параболическая, определить уравнение регрессии Y на Х.

  1. Связь глубины орошения и урожайности сельскохозяйственной культуры дается в следующей таблице:

Глубина

орошения

(в см)

Урожайность (в ц/га)

10

12

14

16

0

10

20

30

40

50

4

2

1

2

1

2

2

2

3

4

2

3

2

2

4

3

1

Предполагая, что связь между орошением и урожайностью параболическая, найти уравнение регрессии.

  1. Распределение 30 однотипных предприятий по объему выпускаемой продукции за день (Х) и себестоимости единицы этой продукции (Y), дается в следующей таблице:

Y

Х

100

110

120

130

50

100

150

200

250

1

4

3

6

4

1

3

2

3

1

1

Предполагая, что связь между величинами гиперболическая, найти уравнение регрессии Y на Х. Построить теоретическую и эмпирическую линии регрессии.