Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Вероятностно-статистические методы.pdf
Скачиваний:
39
Добавлен:
22.03.2015
Размер:
2.05 Mб
Скачать

Лабораторная работа № 3

ИССЛЕДОВАНИЕ КОРРЕЛЯЦИОННОЙ СВЯЗИ ПАРАМЕТРОВ

Цель работы. Изучение методики определения корреляционной связи между параметрами.

Содержание работы

1.Определение корреляционной связи между параметрами (значения параметров X и Y измеряются студентами или задаются преподавателем).

2.Построение линий регрессии методом наименьших квадратов и оценка линейности связи между параметрами.

3.Нахождение доверительного интервала для коэффициента корре-

ляции.

Методические указания

Между случайными величинами могут существовать два вида связи: функциональная и стохастическая (вероятностная). При функциональной зависимости какая-либо величина определяется как однозначная функция одной или нескольких величин. При стохастической зависимости одна из величин реагирует на изменение другой изменением своего закона распределения. Например, стохастической зависимостью связаны между собой затраты на повышение надежности и надежность изделия.

Наиболее важные характеристики случайных величин – математическое ожидание и дисперсия. Систему случайных величин характеризуют совокупности математических ожиданий и дисперсий. Кроме них для характеристики системы случайных величин применяется корреляционный момент, представляющий математическое ожидание произведения центрированных случайных величин

o o

= M [(X mx )(Y my )].

(1)

K xy = M X Y

 

 

 

15

Для дискретных случайных величин корреляционный момент выражается формулой

K xy = ∑∑ [(xi mx )(yl my )]Pij ,

(2)

i j

 

а для непрерывных – формулой

 

Kxy = ∫∫(x mx )(y my )f (x, y)dxdy .

(3)

−∞

 

Особенность корреляционного момента заключается в том, что он характеризует не только рассеивание случайных величин X и Y, но и связь между ними.

Из формулы (1) видно, что при малых отклонениях случайных величин от математического ожидания корреляционный момент будет мал, какой бы тесной зависимостью ни были связаны величины X и Y. Поэтому для характеристики связи между величинами X и Y в чистом виде переходят к безразмерной характеристике – коэффициенту корреляции

r

=

Kxy

,

 

σxσy

 

xy

 

 

(4)

где σx, σy – средние квадратические отклонения величин X и Y . Коэффициент корреляции характеризует не всякую зависимость, а

только так называемую линейную. Она означает, что при возрастании одной случайной величины другая возрастает (или убывает) по линейному закону. Степень тесноты линейной зависимости определяется величиной коэффициента корреляции, который может принимать значения в пределах

± 1. Если rxy = 0, то такие величины называются некоррелированными; если rxy = ±1, то величины связаны линейной функциональной зависимостью, возрастающей при +1 и убывающей при –1.

Если имеются результаты ряда опытов, то о наличии или отсутствии существенной корреляции между ними в первом приближении можно судить по графику, на котором изображены в виде точек все полученные из опыта пары значений случайных величин (рис. 1 – 2).

Для оценки линейности связи строят также линии регрессии (рис. 3). Находя для каждого значения одной величины, допустим, X, среднее из соответствующих значений другой величины Y, получаем функцию регрессии, или просто регрессию Y на X. Корреляция между величинами X

16

и Y называется линейной, если обе функции регрессии линейны. В этом случае они превращаются в "прямые регрессии".

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 1. Положительная

 

Рис. 2. Отрицательная

Рис. 3. Линия регрессии

 

корреляция между

 

корреляция между

 

 

случайными величинами

 

случайными величинами

 

Эмпирический корреляционный момент K*xy, определяемый по фор-

муле

K *xy =

1

 

 

n

(xi mx )(yi my )

=

1

 

n [xi yi nmxmy ],

(5)

n 1

n 1

 

 

 

 

 

 

i=1

 

 

 

 

i=1

 

 

 

 

 

служит несмещенной и состоятельной оценкой корреляционного момента.

Эмпирический коэффициент корреляции rxy находится по формуле

r =

1

 

n

(x m )(y

 

m )=

 

 

 

i

xy

 

 

 

i

x

 

y

 

 

(n 1)σxσy i=1

 

 

 

 

 

 

n [xi yi nmxmy ]

 

(6)

=

 

i =1

 

 

 

 

 

2 ,

 

n

2

n

 

 

 

 

xi2 nmx

 

yi2

nmy

i =1

 

i =1

 

 

 

 

где m* и σ* – оценки математического ожидания и среднеквадратического отклонения, определяемые, например, для X , по выражениям

 

 

n

 

 

n

 

mx

 

xi

 

σx =

(xi mx )2

 

=

i=1

;

i=1

,

n

 

 

 

 

n 1

 

где n – число измерений.

17

Особенностью rxy* является то, что его величина не изменяется при

изменении начала отсчета и масштаба измерения величин X и Y. Это позволяет для упрощения расчета ввести новые условные переменные

x'=

x x'

,

y'=

y y'

.

(7)

x

 

 

 

 

y

 

Величины x0 и y0 выбираются близкими к средним значениям X и Y. Интервалы группирования x и y выбираются так, чтобы в каждый интервал попадало не менее трех – пяти значений параметра. Количество интервалов при n < 200 обычно принимают равным 10 – 15. Данные измерений заносят в корреляционную таблицу, показанную на рис. 4.

 

x'

- 3

- 2

- 1

0

+ 1

+ 2

+ 3

ny'

y'ny'

(y')2

x'y'

 

 

 

 

 

 

 

 

 

 

 

²ny'

my'

y'

x

x1

x2

x3

x4

x5

x6

x7

-

-

-

-

y

 

 

 

 

 

 

 

 

 

 

 

 

 

– 2

y1

2 +6

-

-

-

-

-

-

2

– 4

8

+12

– 1

y2

-

-

4 +1

4 0

2 -1

-

-

10

–10

10

+ 2

0

y3

-

-

2 0

2 0

8 0

-

2 0

14

0

0

0

+ 1

y4

-

-

2 -1

2 0

4 +1

2 +2

2 +3

12

+12

12

+12

+ 2

y5

-

-

-

4

2

6

-

12

+24

48

+28

 

 

0

+2

+4

nx'

-

2

0

8

12

16

8

4

50

22

78

-

 

 

 

 

 

 

 

 

 

 

 

 

 

x'nx'

-

- 6

0

- 8

0

+16

+16

+12

30

-

-

-

(x')2nx'

-

18

0

8

0

16

32

36

110

-

-

-

X'y'mx'

-

+12

0

+ 2

0

+ 6

+28

+ 6

-

-

-

54

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 4. Корреляционная таблица

Порядок построения корреляционной таблицы и расчет коэффициента корреляции

1.Диапазоны изменения величин X и Y разбивают на интервалы равной длины.

2.Находят количество значений случайных величин, попавших в каждый из интервалов, и заносят их в соответствующие клетки корреляционной таблицы.

18

3.Находят значения x0 и y0 и выбирают их в качестве новых координат отсчета. Рассчитывают значения x′ и y′ и записывают их рядом с x и y.

Вправом верхнем углу клеток записывают значения произведения x'y'.

4.Определяют вспомогательные величины, обозначенные в нижних строках и правых столбцах корреляционной таблицы.

5.Рассчитывают по формуле (6) величину коэффициента корреля-

ции r*xy . Учитывая, что

mx = x jn'nx , my = y jn'ny ,

xi2 = (x j ')2 nx , yi2 = (y j ')2 ny , xi yi = x j ' y j 'm,

где m – количество измерений, попавших в j-й интервал. Используя данные корреляционной таблицы, получим:

 

54 50

30

 

22

 

 

 

 

50

50

 

 

= 0,514 .

=

 

 

 

 

 

rxy

30

2

 

 

 

 

22

 

 

 

 

 

 

2

 

110 50

 

 

78 50

 

 

 

50

50

 

 

 

 

 

 

 

 

Построение линий регрессии

Корреляционная таблица может быть использована также для построения эмпирических линий регрессии, которые часто бывают необходимы для оценки линейности изменения функции в пределах заданного допуска. Пример построения линии эмпирической регрессии Y по X показан на рис. 3.

Ломаные кривые эмпирической регрессии аппроксимируются прямыми приближенной регрессии:

y

 

=Y

 

= a+bx .

(8)

M

 

x

 

x

 

 

 

Параметры a и b должны быть такими, чтобы около проведенной прямой наиболее плотно концентрировались все эмпирические точки.

19

Это требование выполняется, если параметры прямой a и b найти по методу наименьших квадратов.

При этом методе стремятся, чтобы сумма квадратов отклонений экспериментальных точек от прямой, заданной формулой (8), была мини-

мальной, т.е.

 

 

 

 

 

 

 

 

F = n

(a + bxi yi )2 = min .

(9)

 

 

i=1

 

 

 

 

 

 

 

 

Для выполнения этого условия необходимо, чтобы

 

 

 

F

 

= n

2(a +bxi yi );

 

 

 

a

 

 

 

i =1

 

 

 

 

 

 

 

F

=

n 2x

(a +bx y

i

).

(10)

 

 

 

 

b

i

 

 

i

 

 

 

i=1

 

 

 

 

 

 

 

Уравнение (10) можно привести к виду

 

 

 

Y m y = rxy

σy

(X mx ).

 

 

(11)

 

 

 

 

 

 

 

 

σ

 

 

 

 

 

 

 

 

 

 

x

 

 

 

Это уравнение описывает прямую регрессии, проведенную по методу наименьших квадратов.

 

σy

называется коэффициентом регрессии Y

Коэффициент βy = rxy

 

 

x

 

σx

 

на X, а β x = rxy

 

σx

 

– коэффициентом регрессии X на Y. Эмпирические

 

 

y

 

 

 

 

 

 

 

 

 

σy

 

 

 

 

 

 

 

оценки коэффициентов регрессии определяются по формулам:

 

 

 

 

 

xi ' yi 'nmx my

 

 

 

xi ' yi 'nmx m y

 

βy

 

=

i=1

, β x

 

=

j=1

.

 

∑(xi ')2 nmx 2

y

∑(yi ')2 nm y 2

 

x

 

 

 

 

 

 

 

 

j=1

 

 

 

i=1

 

Расчет по этим формулам проводится с помощью корреляционной таблицы.

20

Определение доверительного интервала коэффициента корреляции

Ввиду ограниченного объема выборки коэффициент корреляции будет определяться с некоторой погрешностью. Для большой выборки (n 30) среднеквадратическое отклонение коэффициента корреляции

σr =1rxy ,

n

где n – объем выборки (количество пар измененных значений X и Y).

Для оценки относительной погрешности определяют величину

(12)

σr . rxy

Из выражения (12) видно, что относительная погрешность оценки rxy увеличивается по мере ослабления корреляционной связи и уменьшения rxy. Обычно при rxy U 0,3 связь считается практически недостоверной.

Доверительный интервал находят по выражению r tγσnr < rxy < r + tγσnr ,

где tγ – коэффициент распределения Стьюдента, определенный по таблицам распределения Стьюдента в зависимости от принятой доверительной вероятности γ и числа степеней свободы n – 1.

Порядок выполнения работы

Работа проводится в следующем порядке:

1.Измерить параметры или получить их значения у преподавателя.

2.Построить поле корреляции и составить корреляционную таблицу.

3.По таблице рассчитать коэффициент корреляции, оценить его достоверность.

4.Построить эмпирические линии регрессии по результатам изме-

рений.

5.По методу наименьших квадратов определить параметры прямых регрессий и построить их.

21