§ 5. Корреляционный анализ экспериментальных данных § 5. Корреляционный анализ экспериментальных данных

5.1. Построение корреляционной матрицы

Математическая теория корреляции изучает наличие зависимости между исследуемыми величинами. Основным применением корреляционных методов обработки экспериментальных данных являются прогнозные задачи, связанные с определением пределов, в которых наперед с заданной надежностью будут содержаться интересующие исследователя величины. Так, например, исследователя может интересовать влияние на то или иное явление некоторых факторов, связь некоторых признаков, выделение связных групп исследуемых объектов и пр.

Довольно часто случайная величина, получаемая из эксперимента, представлена таблицей порядка m´n, где m - количество наблюдений; n - количество фиксируемых переменных. Для того чтобы выяснить, зависимы или нет эти переменные, вычисляют меру взаимной изменчивости пары переменных. Эта мера называется ковариацией и является характеристикой совместного изменения двух переменных по отношению к их общему среднему значению. Иными словами, ковариация является мерой разброса значений относительно общего среднего.

Для вычисления коэффициента ковариации введем величину, аналогичную сумме квадратов, назовем ее центрированной суммой смешанных произведений (SР_jk) и будем определять по формуле

где x_ij - i-е значение j-й переменной; x_ik - i-е значение k-й переменной; - средние значения j-й и k-й переменных. Перепишем SР_jk в форме, удобной для вычислений:

Если выбрать j = k, то последняя формула преобразуется к виду

Из этой формулы видно, что SS_j - дисперсия величин x_ij при условии, что SS_j будет разделена на (N - 1) или N для центрированной величины.

Предположим, что в результате некоторого эксперимента были исследованы три переменные А, B и С. Подсчитав центрированные произведения переменных А, B и С, получим табл. 7.7.

Таблица 7.7

	А	В	С
А	SS_a	SР_ab	SР_ac
В	SР_ba	SS_b	SР_bc
С	SР_ca	SР_cb	SS_c

Легко заметить, что эта таблица симметрична относительно диагональных элементов, так как SР_ab = =SР_ba; SР_bc = SР_cb ; SР_ac = SР_ca.

Если теперь разделить каждый элемент таблицы на (N - 1), то получим функцию ковариации

которая, как уже отмечалось, характеризует совместное изменение двух переменных по отношению к их общему среднему значению. Заметим попутно, что интерпретация значений оценок ковариаций должна проводиться таким же образом, как и для дисперсий (см. § 1), но при этом следует помнить, что рассматриваемые значения зависят от единиц измерения, так как являются размерными.

Для оценки степени взаимной связи между переменными, которая не зависит от единиц измерения, на практике пользуются коэффициентом взаимной корреляции Â_jk, который вычисляется как отношение ковариации двух переменных к произведению их стандартных отклонений, т.е. . Как видно из формулы, Â_jk - это безразмерная величина. При этом ковариация может равняться произведению стандартных отклонений рассматриваемых переменных, но не может быть больше его. Поэтому Â_jkизменяется на интервале [-1, 1]. Причем, если Â_jk = 1, то это указывает на прямую линейную связь между переменными, а если Â_jk = -1, то это указывает, что одна переменная является полной противоположностью другой. Между этими двумя крайними случаями имеется спектр значений, который показывает сильные связи между переменными, а если Â_jk = 0, то на полное отсутствие линейной связи.

На рис.7.4 показанo несколько типов очевидной связи между переменными.

Коэффициент линейной корреляции удобно вычисляеть по следующей формуле:

Заметим, что коэффициент корреляции есть мера линейной зависимости между двумя переменными. Но на практике часто оказывается, что переменные связаны между собой нелинейными зависимостями, тогда коэффициентом линейной корреляции пользоваться нельзя. В этом случае вычисляют коэффициент нелинейной корреляции.

При оценке Â_jk возникает проблема определения предельно допустимого отклонения от нуля выборочного коэффициента корреляции. Это отклонение можно рассчитать из распределения Стьюдента [Корн Г., Корн Т., 1978; Самарский, Гулин, 1989; Численные..., 1976], если положить N - 2 - число степеней свободы и сформулировать нулевую гипотезу H₀:R* = 0, где R*- коэффициент связности (нулевая гипотеза говорит, что связи между величинами нет):

где a - уровень значимости; f = N - 2 - количество наблюдений; t_a_,f - выбирается из табл. 7.8, в которой приведены некоторые критические значения для выборочного коэффициента корреляции согласно критерию Фишера [Самарский, Гулин, 1989].

Таблица 7.8

N	t_0.05	t_0.10	N	t_0.05	t_0.10	N	t_0.05	t_0.10
1	0.997	1.00	16	0.468	0.590	110	0.186	0.242
2	0.950	0.980	17	0.456	0.575	120	0.178	0.232
3	0.878	0.959	18	0.444	0.561	130	0.171	0.223
4	0.811	0.917	19	0.433	0.549	140	0.165	0.215
5	0.754	0.875	20	0.423	0.537	150	0.160	0.210
6	0.707	0.834	21	0.381	0.487	200	0.139	0.182
7	0.666	0.798	30	0.349	0.449	300	0.113	0.148
8	0.632	0.765	35	0.325	0.418	400	0.098	0.129
9	0.603	0.735	40	0.304	0.393	500	0.088	0.115
10	0.576	0.708	50	0.273	0.354	600	0.080	0.105
11	0.553	0.684	60	0.250	0.325	700	0.074	0.097
12	0.552	0.661	70	0.232	0.302	800	0.069	0.091
13	0.514	0.614	80	0.217	0.283	900	0.065	0.086
14	0.497	0.624	90	0.205	0.267	1000	0.062	0.081
15	0.482	0.606	100	0.195	0.254

Если теперь |Â_jk| < t_a, то гипотеза принимается, т.е. между величинами нет значимой связи. Если |Â_jk| > t_a, то гипотеза отклоняется, а коррелируемые признаки считают линейно связанными.

1 / 21 2 > Следующая >>>

Соседние файлы в папке GLAVA7

#
31.05.2015122.37 Кб25GLAV71.DOC
#
31.05.2015238.59 Кб25GLAV72.DOC
#
31.05.201556.32 Кб27GLAV734.DOC
#
31.05.2015102.91 Кб25GLAV75.DOC