Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЧЕКАЛИН С.И. МЕТОДЫ ОБРАБОТКИ РЕЗУЛЬТАТОВ МАРКШ...doc
Скачиваний:
90
Добавлен:
20.08.2019
Размер:
14.29 Mб
Скачать

2.4. Корреляционный анализ

Корреляционный анализ используется для количественной оценки взаимосвязи двух или нескольких вариационных рядов, выборочных совокупностей и т.п. Количественная оценка представляет собой коэффициент корреляции ρх,у , определяемый выражением

, (2.53)

где σх и σу – стандарты соответствующих случайных величин, определяемые, например, по формулам (2.5) или (2.6); cov(X,Y) – называют ковариацией двух случайных величин Х и Y, которую находят по формуле

, (2.54)

где и - уклонения вариантов xi и yi от их математического ожидания (среднего значения).

Ковариационный анализ (вычисление только значения ковариации) относится к одному из предварительных исследований тесноты связи между двумя или несколькими выборочными совокупностями. При указанном исследовании устанавливают меру связи между двумя диапазонами данных, которая и называется ковариацией.

Ковариационный анализ позволяет установить силу прямой или обратной зависимости рядов случайных величин. Прямая зависимость подразумевает возрастание значений одной случайной величины при возрастании другой случайной величины. Если обе случайные величины возрастают, то ковариацию называют положительной. Если вторая случайная величина убывает с возрастанием первой, то такую ковариацию называют отрицательной. При значении ковариации равной или весьма близкой к нулю полагают, что связь между изучаемыми случайными величинами отсутствует.

Какие особенности необходимо учитывать при проведении ковариационного анализа. Во-первых, объемы сопоставляемых выборок должны быть одинаковыми. Во-вторых, каждому значению одной случайной величины должно быть поставлено строго в соответствие значение другой случайной величины. В-третьих, при ковариационном анализе практически рассматриваются только линейные либо близкие к линейным зависимости между случайными величинами. Указанные особенности относятся и непосредственно к самому корреляционному анализу.

При проведении корреляционного анализа следует иметь в виду, что условие независимости случайных величин является более весомым, чем условие их некоррелированности. В связи с этим, если значение коэффициента корреляции будет близким к нулю либо равным нулю, то это не является абсолютным показателем того, что данные случайные величины являются независимыми. Равенство нулю (либо малое значение) коэффициента корреляции является только одним из условий независимости случайных величин.

При строгой связи случайных величин коэффициент корреляции ρ = ± 1. В остальных случаях

|ρ| < 1 . (2.55)

Поскольку число измерений (объемы выборок) ограничены, то значение коэффициента корреляции получается приближенным. Это следует и из состава формулы (2.53), в которой при ограниченном числе измерений все оценки, связанные с разностями случайной величины с ее средним значением, получаются приближенными. Погрешность mρ коэффициента корреляции в таких случаях оценивают по приближенной формуле

. (2.56)

Установлено, что при объемах выборок n > 50 распределение погрешности коэффициента корреляции достаточно надежно подчиняется нормальному закону. При анализе в данном случае используют t-статистику для случайной величины

, (2.57)

с которой связывают отношение . Если при установленной доверительной вероятности < t, то связь между исследуемыми случайными величинами следует считать маловероятной. Если же ≥ t , то связь между исследуемыми случайными величинами следует признать значимой, неслучайной.

При n < 50 при установленном уровне доверительной вероятности корреляционную связь считают существенной, если соблюдается условие

t > tα , (2.58)

где

; (2.59)

α = (1 – β) уровень значимости для доверительной вероятности β.

Значение tα находят по таблице приложения 10 по уровню значимости и числу степеней свободы ν = (n - 2).

Доверительные границы для коэффициента корреляции составляют ± tαmρ, принимая условие подчиненности распределения погрешности коэффициента корреляции нормальному закону при небольшом числе измерений. В связи с принятием такого условия доверительный интервал может являться в некоторой степени условным, в зависимости от числа измерений.

Используют и другие критерии оценки значимости взаимосвязи между случайными величинами, также основанными на величине коэффициента корреляции. Так, например, если

, (2.60)

то связь ме6жду случайными величинами может быть принята достаточно вероятной, в противном случае такая гипотеза отвергается.

Иногда пользуются для установления связи между случайными величинами неравенством

. (2.61)

Если условие (2.61) выполняется, то связь считают установленной.

Наименьшую величину коэффициента корреляции, которая удовлетворяла бы условию (2.61), можно оценить по формуле

. (2.62)

При n < 50 надежность коэффициента корреляции достаточно хорошо оценивается по функции Фишера, параметр Z которой подчиняется нормальному закону распределения:

. (2.63)

Значения функции Фишера в зависимости от величины коэффициента корреляции приведены в таблице приложения 12.

Средняя квадратическая погрешность (стандарт) параметра Z определяется по формуле

. (2.64)

Рассмотрим произвольный пример корреляционного анализа двух связанных опытом случайных величин: значению параметра xi строго соответствует значение параметра yi .

Пример 2.12. Вычислить ковариацию двух вариационных рядов xi и yi , представленных в табл.2.10, коэффициент корреляции и выполнить оценку коэффициента корреляции для установления возможной связи между случайными величинами.

Таблица 2.10

К примеру 2.12

№3

пп

xi

yi

xi - xo

(xi - xo)2

yi - yo

(yi - yo)2

(xi - xo)(yi - yo)

1

0,02

84,2

-0,26

0,068

+31,25

976,56

-8,125

2

0,12

83,7

-0,16

0,026

+30,75

945,56

-4,92

3

0,14

57,2

-0,14

0,02

+4,25

18,06

-0,595

4

0,15

101,4

-0,13

0,017

+48,45

2347,40

-6,299

5

0,23

27,6

-0,05

0,002

-25,35

642,62

+1,268

6

0,26

71,8

-0,02

0,0004

+18,85

355,32

-0,377

7

0,32

50,6

+0,04

0,002

-2,35

5,52

-0,094

8

0,33

9,4

+0,05

0,002

-43,55

1896,60

-2,178

9

0,40

71,3

+0,12

0,014

+18,35

336,72

+2,202

10

0,43

38,4

+0,15

0,023

-14,55

211,70

-1,283

11

0,44

8,7

+0,16

0,026

-44,25

1958,06

-7,080

12

0,48

31,1

+0,20

0,040

-21,85

477,42

-4,37

n = 12

xo = 0,28

yo = 52,95

0,2404

10171,54

-32,751

Решение.

Указанные положения оценки величины коэффициента корреляции нельзя применить к исследованиям, приведенным в данном примере, поскольку объем выборки значительно меньше 50.

Вычислим средние значения случайных величин и заполним таблицу 2.10 значениями разностей случайных величин с их математическими ожиданиями, квадратами этих разностей, произведениями разностей двух случайных величин. Получим соответствующие суммы для вычисления стандартов и ковариации.

Стандарты случайных величин X и Y соответственно равны и . Значение ковариации .

По формуле (2.53) находим значение коэффициента корреляции: .

Результаты расчетов показывают, что связь между случайными величинами обратная с коэффициентом корреляции 0,61.

Вычислим погрешность коэффициента корреляции. Для данных примера получим .

По формуле (2.59) найдем статистику t: = 2,43 .

По таблице приложения 10 для уровня значимости 0,05 и числу степеней свободы ν = 10 найдем tα = 2,23.

Поскольку t (= 2,43) > tα (= 2,23), то корреляционную связь в рассматриваемом случае следует признать существенной, т.е. между рассматриваемыми случайными величинами существует зависимость (в данном случае – линейного вида).

Найдем доверительные границы коэффициента корреляции: .

Выполним дополнительно оценку значимости связи между указанными случайными величинами по формуле (2.60): 0,61 . Как видим, полученный коэффициент корреляции не обеспечивается в данном случае необходимым числом измерений. Закономерная связь между исследуемыми случайными величинами является маловероятной. При таком коэффициенте корреляции гипотеза о закономерной связи между случайными величинами подтвердилась бы при числе измерений порядка 25 и более, как это следует из формулы (2.60), если ее выразить для числа измерений.

При использовании условия (2.61) для коэффициента корреляции (-0,61) имеем 3∙0,18 = 0,54, т.е. связь можно считать установленной. (По (2.62) получим значение rmin = 0,58).

Следует обратить внимание на то, что принятие гипотезы о существовании корреляционной связи между рассматриваемыми случайными величинами имеет под собой слабое обоснование. На это указывают и весьма близкие значения статистики t. Да и пределы доверительного интервала выходят с одной стороны за рамки 1. То есть, следует полагать, что доверительные границы коэффициента корреляции должны быть несимметричными, а само распределение погрешности коэффициента корреляции – скорее всего не подчиняется нормальному закону.

Данный пример показывает, что при исследованиях с осторожностью следует доверять тем или иным выводам при сравнительно близких по величине статистических характеристиках, являющихся критериями оценки опыта.

Пример 2.13. Используя распределение Фишера определить значимость связи между случайными величинами при доверительной вероятности 0,95, если объем каждой из выборок составил n = 46, коэффициент корреляции ρ = + 0,77. Воспользоваться распределением Фишера.

Решение.

По таблице приложения 12 (или по формуле (2.63) для ρ = + 0,77 найдем значение параметра Z = 1,0203.

Вычислим по формуле (2.64) стандарт параметра Z σZ = 0,152.

По таблице приложения 10 интерполированием для уровня значимости 0,05 и числа степеней свободы ν = n – 2 = 46 – 2 = 44 найдем значение t = 2,01.

Вычислим по формуле крайние значения параметра Z :

; .

По таблице приложения 12 интерполированием найдем критические значения ρ : ρmin = 0,6104, ρmax = 0,8685.

Поскольку полученное в расчетах значение коэффициента корреляции попадает в доверительный интервал при установленном уровне доверительной вероятности, то можно принять гипотезу о наличии закономерной связи между случайными величинами.

В практике исследований часто встречаются случаи множества влияющих факторов на ту или иную результирующую величину параметра. Например, на величину деформации земной поверхности в мульде сдвижения оказывают глубина проведения горных работ, размеры горных выработок, физико-механические свойства горных пород, время существования горной выработки и мн.др. В таких случаях возникают следующие задачи множественной корреляции:

- установление тесноты связи между результирующим параметром и каждым из влияющих факторов в отдельности, считая другие факторы ничтожными;

- установление тесноты связи между одним из факторов и остальными.

Для решения первой задачи необходимо рассмотреть действие трех факторов, выражающееся частным или условным коэффициентом корреляции случайных величин х1 и х2 без учета влияния третьей случайной величины х3 . Частный коэффициент корреляции определяют по формуле

, (2.65)

где ρ1,2 , ρ1,3 , ρ2,3 – парные коэффициенты корреляции, вычисляемее по формуле (2.53) для соответствующих пар случайных величин.

При увеличении сопоставляемых переменных вычисления усложняются, поскольку возникает необходимость определения коэффициентов корреляции первого и второго порядка. Решение задач множественной корреляции целесообразно выполнять с использованием специальных программ расчетов на ЭВМ.