Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

task_74895

.pdf
Скачиваний:
455
Добавлен:
22.03.2016
Размер:
5.67 Mб
Скачать

§ 13. Коэффициент детерминации

Линейный коэффициент корреляции оценивает тесноту взаимосвязи между признаками и показывает, является ли эта корреляция положитель- ной или отрицательной. Однако понятия тесноты взаимосвязи бывает не- достаточно при содержательном анализе взаимосвязей. В частности коэф- фициент корреляции не показывает степень воздействия факторного при- знака X на результативный Y . Таким показателем является коэффициент детерминации [4].

Пусть по опытным данным для признаков X и Y получены уравне-

ния регрессий

yˆx = a0 + a1 x и

xˆy = b0

+ b1 y . Величину a b = r2

называют

 

 

 

1 1

 

коэффициентом детерминации. Этот коэффициент детерминации можно

находить и по формуле

 

 

 

2

 

ˆ

)

2

 

 

 

 

R

= 1-

å( yi yxi

 

,

(63)

 

 

 

å( yi y)2

 

где y

i

опытные значения признака Y , yˆx

i

значения y , найденные по

 

 

 

 

 

 

 

 

уравнению регрессии, y средняя признака Y . Формулой (63) пользует- ся тогда, когда общее число значений yi равно числу значений xi призна-

ка X .

Коэффициент детерминации используется, во-первых, для контроля вычислений, проводимых при получении уравнений регрессий (r2 = a1b1)

и, во-вторых, он показывает, какую часть рассеяния результативного при- знака Y можно объяснить принятой регрессионной моделью.

§ 14. Проверка адекватности модели

Для проверки соответствия уравнения регрессии yˆx = a0 + a1 x опыт-

ным данным применяют критерий Фишера Снедекора. Вычисляют [4] статистику Fн по формуле:

 

F =

R2 (n−2)

,

(64)

 

 

 

н

1−R2

 

 

 

 

 

 

где R2 коэффициент детерминации, n

объем выборки. Чем ближе

значение R2

к единице, тем лучше модель согласуется с опытными дан-

ными. Затем при заданном уровне значимости α

и числах степеней свобо-

ды k1 =1, k2

= n − 2 находят по таблице критических точек распределения

62 ГЛАВА 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

Фишера Снедекора (приложение 7) Fт = Fα; k1; k2 . Если окажется, что Fн > Fт , то полученное уравнение линейной регрессии согласуется с опытными данными. Если Fн < Fт , то модель регрессии не согласуется с

данными опыта. Формулой (64) пользуются тогда, когда исходные данные заданы не в виде корреляционной таблицы. Если опытные данные заданы в виде корреляционной таблицы, то проверку модели на адекватность можно выполнить тогда, когда общее число значений yi больше числа значений

x j . В этом случае находят [4] остаточную сумму квадратов Qe , характери- зующую влияние неучтенных в модели факторов, по формуле

 

Qe = Q QR ,

(65)

где Q = å(yi y)2

сумма квадратов отклонений значений

yi от сред-

ней y , QR = å(y xi

y)2 сумма квадратов отклонений условных сред-

них yxi от средней y . Затем вычисляется статистика Fн по формуле

 

F

=

QR (n2)

.

(66)

 

 

 

н

 

Qe

 

По таблице критических точек распределения Фишера Снедекора (при- ложение 7) при заданном уровне значимости α и числах степеней свободы k1 =1, k2 = n 2 находят Fт = Fα; k1; k2 . Если Fн > Fт , то модельное урав- нение регрессии значимо описывает опытные данные, в противном случае (Fн < Fт ) — нет.

§ 15. Оценка величины погрешности

После проверки модельного уравнения линейной корреляции на аде- кватность находят относительную погрешность уравнения по формуле:

 

 

 

 

 

 

 

 

 

 

 

 

d =

σu

×100%,

(67)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

где su =

 

 

 

, σu стандартная ошибка уравнения регрессии,

 

 

Du

D =

å(ui

u

)2

остаточная дисперсия,

 

 

 

 

 

 

 

u

 

 

 

 

n2

 

 

 

 

ui

 

 

 

 

ˆ

опытные значения y

,

= yi yxi , yi

 

yˆx

 

значения y , полученные по уравнению регрессии,

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u = n

 

 

 

 

 

) среднее значение ui

,

å(yi yxi

n объем выборки.

Если величина δ мала, то прогнозные качества оцененного регресси- онного уравнения высоки. Одновременно производят оценку коэффициен- тов уравнения регрессии yˆx = a0 + a1 x . Пусть Sa0 и Sa1 стандартные

ошибки соответственно коэффициентов a0 и a1 уравнения регрессии. Их вычисление производят по формулам:

 

 

 

 

 

 

[x2 ]

 

 

 

 

Sa = S y 1- r

2

×

 

 

 

,

(68)

 

 

 

2

] [x]

2

0

 

 

 

 

n[x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

64

Глава 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

 

 

 

 

 

 

 

 

 

 

 

 

Sa

= S y 1- r2 ×

 

 

 

n

 

.

(69)

n[x

2

] [x]

2

1

 

 

 

 

 

 

 

 

 

Коэффициенты a0 и a1

считаются значимыми,

если 2Sa

< | ai |. Если же

коэффициенты a0 и a1

 

 

 

 

 

 

 

 

 

i

 

незначимы, то ситуацию можно поправить путем

увеличения объема выборки n , увеличения числа факторов, включаемых в модель или изменения формы уравнения связи [4].

Для более глубокого понимания теоретической части главы 3 на- стойчиво рекомендуем читателю выполнить лабораторные работы № 3 и

4.

К о н т р о л ь н ы е в о п р о с ы :

1.Дать определение корреляционной зависимости между двумя признаками X и Y .

2.Дать определение условной средней признака Y и записать фор- мулу для ее нахождения.

3.Сформулировать задачи, решаемые в теории корреляции.

4.Записать систему нормальных уравнений для нахождения пара-

метров a0 и a1 уравнения линии регрессии yˆx = a0 + a1 x в случае, когда опытные данные не сгруппированы в корреляционную таблицу.

5.Записать уравнения регрессий y на x и x на y, используя коэффи- циент линейной корреляции r.

6.Дать определение коэффициента линейной корреляции, сформу- лировать его свойства.

7.Рассказать о том, как определяется теснота линейной корреляци-

онной связи между двумя признаками с помощью коэффициента линейной корреляции.

8.Как определяется значимость коэффициента линейной корреля-

ции?

9.Записать доверительные интервалы для оценки коэффициента линейной корреляции при различных объемах выборки.

10.Записать формулу для нахождения коэффициента детерминации

вслучае парной линейной корреляции и рассказать о его назначении.

11.Рассказать о проверке адекватности уравнения линейной регрес- сии y на x для случая несгруппированных опытных данных.

12.Рассказать о нахождении относительной погрешности линейного

уравнения регрессии yˆx = a0 + a1 x .

13. Как производится оценка коэффициентов a0 и a1 уравнения ли- нейной регрессии yˆx = a0 + a1 x ?

§ 16. Лабораторная работа № 3

Построение модели линейной корреляции по несгруппированным данным

Ц е л ь р а б о т ы: овладение способами построения моделей линей- ной корреляции для несгруппированных данных, выработка умения и на- выков оценки надежности коэффициента корреляции, уравнения регрессии

иего коэффициентов.

Со д е р ж а н и е р а б о т ы: на основании опытных данных требует-

ся:

1. Построить корреляционное поле. По характеру расположения то- чек в корреляционном поле выбрать общий вид регрессии.

2. Вычислить числовые характеристики x , y , Sx , S y , r , σr .

3.Определить значимость коэффициента корреляции r и найти для него доверительный интервал с надежностью γ = 0,95.

4.Написать эмпирические уравнения линий регрессий y на x и x

на y .

5.Вычислить коэффициент детерминации R2 и объяснить его смы- словое значение.

6.Проверить адекватность уравнения регрессии y на x .

66 ГЛАВА 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

7. Провести оценку величины погрешности уравнения регрессии y

на x и его коэффициентов.

8. Построить уравнение регрессии y на x в первоначальной систе-

ме координат.

Суть лабораторной работы отражает следующая задача.

З а д а ч а. Результаты наблюдений зависимости средней заработной платы Y (тыс. руб.) от производительности труда X (тыс. руб.) по цеху тех- нологической связи ТПЭУС № 1 по кварталам приведены в табл. 23.

Т а б л и ц а 2 3

X

24,3

24,9

28,1

30,5

31,5

39,3

40,2

43,5

45,4

45,9

Y

8,2

8,6

8,7

8,9

9,1

10,6

11,3

11,8

12,9

13,1

Выполнение работы

Для решения поставленной задачи методами корреляционного ана- лиза определим, какой из указанных в условии показателей выбрать за факторный признак, а какой за результативный. На основании, например,

экономического анализа производственной деятельности и взаимосвязи производительности труда и средней заработной платы следует, что за факторный признак X следует принять производительность труда, а сред- нюю зарплату за результативный признак Y .

Для определения формы связи между признаками X и Y строим на координатной плоскости точки (xi , yi ) , пользуясь табл. 23. Около постро-

енных точек проводим так называемую линию тренда (на рис. 8 — пунк- тирная линия) так, чтобы построенные точки были расположены как мож- но ближе к ней. По расположению точек около линии тренда делаем вывод о том, что связь между производительностью труда и средней зарплатой может носить линейный характер. Произведем расчет статистик x , y , Sx ,

S y , r , которые войдут в уравнения линий регрессий. Составим расчетную

табл. 24.

Т а б л и ц а 2 4

xi

xi x

(x x)2

yi

yi y

(y

i

y)2

x2

xy

 

 

i

 

 

 

 

 

 

24,3

– 11,06

122,3236

8,2

– 2,12

4,4944

590,49

199,26

24,9

– 10,46

109,4116

8,6

– 1,72

2,9584

620,01

214,14

28,1

– 7,26

52,7076

8,7

– 1,62

2,6244

789,61

244,47

30,5

– 4,86

23,6196

8,9

– 1,42

2,0164

930,25

271,45

31,5

– 3,86

14,8996

9,1

– 1,22

1,4884

992,25

286,65

39,3

3,94

15,5236

10,6

0,28

0,0784

1544,49

416,58

40,2

4,84

23,4256

11,3

0,98

0,9604

1616,04

454,26

43,5

8,14

66,2596

11,8

1,48

2,1904

1892,25

513,3

45,4

10,04

100,8016

12,9

2,58

6,6564

2061,16

585,66

45,9

10,54

11,0916

13,1

2,78

7,7284

2106,81

601,29

353,6

 

640,064

103,2

 

31,196

13143,36

3787,06

Пользуясь результатами последней строки табл. 24, согласно (2),

§ 16. Лабораторная работа № 3

67

(49), (50) — (53), находим:

n

x = 1n åxi = 101 × 353,6 = 35,36 — средняя производительность труда.

i=1

n

y = 1n å yi = 101 ×103,2 =10,32 — средняя зарплата сотрудников цеха техно-

i=1

логический связи,

ˆ 2

1

 

 

 

n

 

 

 

2

 

 

1

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sx =

n−1

 

å(xi

- x)

 

 

=

 

9

×

640,064 =

71,118 Þ Sx = 8,43,

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ 2

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

1

 

 

å( yi - y)

2

 

 

1

 

 

 

 

 

S y

=

 

 

 

=

 

 

× 31,196 =

3,466 Þ S y =1,87 ,

n−1

 

9

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

= 1n åxi yi =

 

1

× 3787,06 = 378,71,

 

 

xy

 

 

10

 

 

 

 

 

 

 

 

 

i=1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

-x×y

 

 

 

378,71-35,36×10,32

 

 

 

 

r =

 

xy

 

=

= 0,87

.

 

 

 

ˆ

ˆ

 

 

 

 

 

 

8,43×1,87

 

 

 

 

 

 

 

 

 

Sx ×Sy

 

 

 

 

 

 

 

 

 

 

 

 

Проверяем значимость коэффициента корреляции. Вычислим стати- стику tp по формуле (59):

 

 

 

r

 

n-2

 

= 0,87×

 

 

tp

=

 

 

 

10-2

= 5,02 .

 

 

 

 

 

 

 

 

 

 

1-r2

1-0,872

 

По таблице критических точек распределения Стьюдента (приложение 6) по уровню значимости α = 0,05 и числу степеней свободы k = n − 2 =10 − − 2 = 8 находим tт = tα; k = t0,05;8 = 2,31. Так как t p = 5,02 > tт , то выбо-

рочный коэффициент корреляции значимо отличается от нуля. Следова- тельно, можно предположить, что средняя зарплата Y и производитель- ность X труда в цехе связаны линейной корреляционной зависимостью, и провести приблизительную прямую с на числовой плоскости (рис. 8).

Находим доверительный интервал для выборочного коэффициента корреляции r с надежностью γ = 0,95. Так как объем выборки n =10 < 50 , то доверительный интервал находим по формуле (61):

r - tγ ×σ r £ rˆ £ r + tγ ×σ r .

Так как по условию надежность (доверительная вероятность) равна

68 ГЛАВА 3. ПАРНАЯ ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

γ = 0,95, то по таблице функции Лапласа (приложение 2) находим tγ =1,96 . Вычисляем среднюю квадратическую ошибку σr по формуле (60):

sr =

1r 2

= 1

0,872

= 0,08.

n2

 

 

 

102

 

Записываем доверительный интервал:

15

 

 

 

 

 

 

 

c a

 

 

 

 

 

 

 

b

Y 10

 

 

 

 

 

 

 

5

 

 

 

 

 

 

 

20

 

25

30

35

40

45

50

 

 

 

 

Х

 

 

 

 

Рис. 8. Линейная регрессия Y на X

прямая a с уравнением y = 0,193 x + 3,5

и линейная регрессия

X на Y прямая b с уравнением x = 3,922 y + 5,1. Пункти-

рованная прямая с проведена «от руки».

 

 

 

 

 

 

0,87 -1,96×0,08 £ rˆ £ 0,87 +1,96×0,08

 

 

ˆÎ

[0,71; 1]. Следовательно, с вероятностью 0,95

линейный коэффи-

или r

 

циент корреляции генеральной совокупности находится в пределах от 0,71 до 1. Применительно к решаемой задаче полученный результат означает,

что по имеющейся выборке следует ожидать влияние производительности труда на рост средней зарплаты работников цеха технологической связи не менее чем на 71 %.

Найдем эмпирические линейные уравнения регрессии y на x и x на y , которые являются приближенными уравнениями для истинных уравне-

ний регрессий.

Уравнение регрессии y на x :

ˆ

=

y

+

r

Sˆy

(x

-

x)

Þ ˆ

=

10,32

+

0,87

×

1,87

(x

-

35,36) Þ

ˆ

 

yx

 

 

 

yx

 

 

8,43

 

 

 

 

 

 

Sx

 

 

 

 

 

 

 

 

 

 

 

 

 

yˆ x = 0,192989x + 3,495898 .

Уравнение регрессии x на y :

 

 

 

§ 16. Лабораторная работа № 3

69

xˆy

= x + r

Sˆx

(y - y) Þ xˆy = 35,36 + 0,87 ×

8,43

( y -10,32)

Þ

ˆ

1,87

 

 

S y

 

 

 

 

 

 

 

xˆ y = 3,921979y − 5,114819 .

 

Контроль вычислений:

a1b1 = 0,192989 × 3,921979 = 0,7569 ,

r2 = 0,87 × 0,87 = 0,7569 .

Так как условие a1b1 = r2 выполняется, то вычисления выполнены верно. Из уравнения yˆx = 0,192989x + 3,495898 следует, что при увеличении

производительности труда на 1 тыс. руб. средняя зарплата работников цеха технологической связи возрастает на 192,989 рублей. Этот результат сле- дует учесть на предприятии при разработке мероприятий по стимулирова- нию производственной деятельности работников цеха в условиях рыноч- ных отношений.

Подставляя x = 35,36 , y =10,32 в уравнения регрессий, получаем точ-

ки, координаты которых совпадают с координатами центра распределения C(x, y) . Следовательно, линии регрессий пересекаются в точке C(x, y) .

Найдем коэффициент детерминации. Для линейной корреляции при вычисленном коэффициенте r он равен r2 . У нас r2 = 0,76. Это означает, что 76 % рассеивания средней зарплаты работников технологического цеха связи объясняется линейной корреляционной зависимостью между сред- ней зарплатой и производительностью труда, и только 24 % рассеивания средней зарплаты работников технологического цеха остались необъясни- мыми. Такое положение могло произойти из-за того, что в модель не включены другие факторы, влияющие на изменение средней зарплаты ра- ботников технологического цеха связи, либо опытных данных в данной выборке не достаточно, чтобы построить более надежное уравнение рег- рессии.

Проверим адекватность уравнения линейной регрессии y на x по критерию Фишера Снедекора. Вычислим статистику Fн по формуле

(64):

F

= R

2

(n−2) , где

R2 = 1

- å

ˆ

i

 

2

 

 

2 .

н

 

 

 

 

 

 

 

 

 

( yi − yx

)

 

 

 

 

 

 

 

 

 

 

å( yi y)

 

 

 

 

1−R

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для нахождения суммы å(yi

− yˆx )2

составляем табл. 25. Из табл.

24 и 25 находим: å(yi - y)2 = 31,196 , å( yi - yˆxi )2 =1,8729. Тогда

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]