Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ст. и пл.doc
Скачиваний:
33
Добавлен:
11.11.2019
Размер:
4.35 Mб
Скачать

§ 5. Элементы теории корреляции

1. Функциональная, статистическая и корреляционная зависимости. Предположим, что в некотором эксперименте рассматриваются две случайные величины  и . Они могут быть связаны функциональной зависимостью или статистической зависимостью либо могут быть независимыми.

Строгая функциональная зависимость между величинами  и  появляется редко, так как часто хотя бы одна из них подвержена действию случайных факторов. Если среди них существуют факторы, которые воздействуют как на величину , так и на величину , то в этом случае возникает статистическая зависимость.

Статистической называют зависимость, при которой изменение одной из величин влечет изменение распределения другой величины. Если, в частности, при изменении одной из величин, изменяется среднее значение другой, то в этом случае статистическая зависимость называется корреляционной.

Пример. Пусть  – прочность бетона,  – количество цемента в бетоне. При одном и том же количестве цемента в бетоне и равном количестве других компонент бетона может получиться различная прочность, т. е.  не является функцией от . Но средняя прочность бетона является функцией от количества цемента, т. е.  связана с  корреляционной зависимостью.

2. Выборочный коэффициент корреляции. Пусть проведено n наблюдений, в результате которых получены следующие значения случайных величин ,   и .

Номер наблюдения

1

2

...

n

Значение 

x1

x2

...

xn

Значение 

y1

y2

...

yn

Значение 

x1y1

x2y2

...

xnyn

Величины , и есть точечные оценки соответственно для M, M и M(). Величины и являются точечными оценками соответственно для D и D. Поэтому в качестве точечной оценки коэффициента корреляции можно взять величину

.

Эту оценку называют выборочным коэффициентом корреляции случайных величин  и .

Пример. Найдем выборочный коэффициент корреляции случайных величин  и  по данным наблюдений.

Значения 

0,2

0,6

1,0

1,2

1,6

1,8

2,2

2,8

Значения 

0,2

0,4

1,0

1,2

1,4

1,8

0,8

1,0

Составим расчетную таблицу.

i

xi

yi

xiyi

1

0,2

0,2

0,04

0,04

0,04

2

0,6

0,4

0,36

0,16

0,24

3

1,0

1,0

1,00

1,00

1,00

4

1,2

1,2

1,44

1,44

1,44

5

1,6

1,4

2,56

1,96

2,24

6

1,8

1,8

3,24

3,24

3,24

7

2,2

0,8

4,84

0,64

1,76

8

2,8

1,0

7,84

1,00

2,80

11,4

7,8

21,32

9,48

12,76

 / n

1,42

0,98

2,66

1,18

1,60

Имеем: 0,64; 0,80;

; 0,47;

0,55.

Поскольку коэффициент корреляции характеризует степень зависимости случайных величин  и , то выборочный коэффициент корреляции также может быть использован для характеристики степени зависимости случайных величин. В том случае, когда модуль | | близок к единице, зависимость между  и  близка к линейной.

Если выборочный коэффициент корреляции отличен от нуля, то отсюда еще не следует, что коэффициент корреляции r(, ) также отличен от нуля. Следовательно, возникает необходимость проверки гипотезы о равенстве нулю коэффициента корреляции при заданном уровне значимости . Проверка гипотезы H0: r(, )  0 осуществляется при альтернативной гипотезе HА: r(, )  0, так что критическая область является двусторонней. Если выборочный коэффициент корреляции незначимо отличается от нуля, то основная гипотеза принимается, т. е. случайные величины  и  не коррелированы (при данном уровне значимости).

Для  и , распределенных по нормальному закону, в качестве критерия проверки основной гипотезы используют случайную величину

,

которая, как можно доказать, при справедливости основной гипотезы имеет распределение Стьюдента с n – 2 степенями свободы. Вычислив по данным наблюдения значение критерия tнабл и найдя по таблице критических точек распределения Стьюдента критическую точку tкр(/2, n – 2), имеем следующие возможности:

, в этом случае гипотеза H0 принимается;

, в этом случае основную гипотезу отвергают.

3. Выборочные уравнения регрессии. Предположим, что при проведении статистического эксперимента рассматриваются одновременно две случайные величины  и , или, что равносильно, случайный вектор (, ). Используются следующие понятия.

Определение 1. (а) Функция f (x)  M( /   x) называется функцией регрессиипо .

(б) Функция gy)  M( /   y) называется функцией регрессиипо . (Определения условных математических ожиданий см. во Введении, § 2, п. 7.)

Определение 2. (а) Среднее арифметическое значений случайной величины , наблюдавшихся одновременно со значением , называется выборочным средним значением случайной величины  при условии (  x).

(б) Среднее арифметическое значений случайной величины , наблюдавшихся одновременно со значением , называется выборочным средним значением случайной величины  при условии (  y).

Выборочное среднее случайной величины  при условии (  x) будем обозначать . Очевидно, эта величина является точечной оценкой математического ожидания M( /   x) (т. е. значения функции регрессии  по  в точке x). Выборочное среднее случайной величины  при условии (  y) обозначим . Это точечная оценка значения функции регрессии  по  в точке y.

Пример. Пусть произведено 60 наблюдений, в которых получены некоторые пары (x, y) значений случайного вектора (, ). Результаты сведены в следующую таблицу.

x y

1,2

1,4

1,6

1,8

0,4

5

0

7

14

26

0,6

0

2

6

4

12

0,8

3

19

0

0

22

8

21

13

18

n  60

Эта таблица показывает, что, например, пара (0,4; 1,2) наблюдалась 5 раз, пара (0,4; 1,4) не наблюдалась, пара (0,4; 1,6) наблюдалась 7 раз и т. д. В последнем столбце показано общее количество пар с фиксированным первым элементом x, а в последней строке – общее количество пар с фиксированным вторым элементом y. Например, пары (xy), в которых x  0,4, наблюдались 26 раз, а пары со вторым элементом y  1,4 наблюдались 21 раз.

Таблицу такого вида называют корреляционной. Она позволяет легко найти все выборочные средние. Так, используя данные первой строки корреляционной таблицы, получаем . Используя первый столбец, имеем .

Выборочные средние дают точечные оценки значений функций регрессии лишь для тех значений случайных величин, которые наблюдались в процессе исследования. Поэтому возникает задача получения точечных оценок для остальных значений. Другими словами, требуется найти такие функции * и g*, что каждое значение f *(x) может рассматриваться как точечная оценка для f (x)  M( /   x), а каждое значение g*(y) может рассматриваться как точечная оценка для gy)  M( /   y).

При этом используют следующую терминологию:

(а) функцию * называют выборочной функцией регрессиипо , уравнение называют выборочным уравнением регрессиипо , а линию, задаваемую этим уравнением на координатной плоскости, – выборочной линией регрессиипо ;

(б) функцию g* называют выборочной функцией регрессиипо , уравнение называют выборочным уравнением регрессиипо , линию, задаваемую этим уравнением на координатной плоскости, – выборочной линией регрессии по .

4. Метод наименьших квадратов. Выборочное уравнение прямолинейной регрессии. Для отыскания выборочных функций регрессии обычно используют так называемый метод наименьших квадратов. Этот метод здесь будет проиллюстрирован на наиболее простом случае.

Предположим, что в результате n независимых испытаний получены n значений двумерной случайной величины (, ): (x1y1), (x2, y2), ..., (xn, yn), причем выполняется следующее условие: если какие-либо значения xi и xj мало отличаются друг от друга, то близки и соответствующие значения yi и yj. В этом случае можно считать, что зависимость между  и  близка к функциональной. В частности, если коэффициент корреляции r(, ) близок к +1 или к –1, зависимость между  и  должна приближаться к некоторой линейной зависимости   a  b.

Поэтому возникает следующая задача: по данным наблюдения найти линейную функцию

, (1)

которая наилучшим образом отражала бы зависимость  от . Для этого введем в рассмотрение функцию

,

представляющую собой сумму квадратов отклонений точек, полученных в результате эксперимента, от прямой (1) и найдем значения a и b, при которых функция Q достигает минимума. Для этого приравняем к нулю частные производные:

После преобразований получим систему

(2)

Используем обозначения, рассмотренные в п. 2. Имеем: , , , , следовательно, система (2) приводится к виду

Выразив b из второго уравнения, а затем подставив полученное выражение в первое, имеем , откуда ,

, где – выборочный коэффициент корреляции  и . Подставляя найденные значения a и b в уравнение (1), получаем искомое уравнение

. (3)

Выборочное уравнение линейной регрессии  по  имеет аналогичный вид:

. (4)

Заметим, что если или , то уравнения (3) и (4) эквивалентны.

Пример. Пусть   1/2, где 1 – предел текучести стали, 2 – предел прочности стали, а  – процентное содержание углерода в стали. В результате 79 опытов получена следующая корреляционная таблица значений  и .

x y

0,5

0,6

0,7

0,8

0,5

0

2

0

8

10

0,6

0

4

2

9

15

0,7

2

12

3

1

18

0,8

21

14

0

0

35

0,9

1

0

0

0

1

24

32

5

18

79

Требуется найти выборочный коэффициент корреляции и выборочные уравнения прямых регрессии. Имеем:

; 0,105;

; 0,110;

.

Выборочные уравнения прямых регрессии получаем по формулам (3) и (4):

y  –0,931x + 1,277;

x  –0,849y + 1,231.

5. Криволинейная регрессия. Практически вид линии регрессии можно определить следующим образом: по данным наблюдений строятся точки , а затем проводится плавная кривая, по возможности наилучшим образом отражающая характер расположения точек.

Если линия регрессии не является прямой линией, то регрессию называют криволинейной. Криволинейную регрессию называют параболической (полиномиальной), если ее уравнение имеет вид: ya0xn + a1xn–1 + ... + an.

В частности, выборочное уравнение параболической регрессии 2-го порядка отыскивается в виде y , где коэффициенты a, b и c определяются из системы уравнений, получающейся аналогично системе (2):

Уравнение параболической регрессии 3-го порядка имеет вид: y . Коэффициенты выборочного уравнения параболической регрессии 3-го порядка находятся из системы

Эта система получается также аналогично системе (2).