Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
met_SE.doc
Скачиваний:
15
Добавлен:
21.11.2018
Размер:
1.78 Mб
Скачать

Кореляційний аналіз

Основные понятия

Корреляционный анализ — метод обработки статистических данных, заключающийся в изучении подобия изменения значений переменных. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная, если одна переменная растёт, а вторая уменьшается, корреляция отрицательная.

Кореляція оцінюється за допомогою коефіцієнтів кореляції.

Розрахунок коефіцієнтів кореляції

Нехай поведінка деякої системи описується m параметрами-перемінними Aj (j=1, 2, . . . , m).

В ході спостережень за системою були отримані n значень для кожної перемінної. Позначимо через aij i-й вимір (i=1, 2, . . . , n) j-ї перемінної Aj. Значення вимірів запишемо у матрицю A

Спочатку потрібно з матриці вимірів A отримати стандартизовану матрицю U. Для кожного стовпчика матриці U середнє значення повинне дорівнювати 0, а дисперсія = 1. Елементи стандартизованої матриці обчислюються за формулами

uij = (aijμj) / σj ,

де:

Коефіцієнт кореляції між нормованими перемінними uj та uk обчислюється так:

Приклад

i

A1

A2

A3

A4

A5

1

26,37

41,98

17,66

16,05

22,85

2

28

43,83

17,15

15,47

23,25

3

27,83

42,83

15,38

17,59

24,55

4

29

47,28

18,39

16,92

26,59

5

23,5

38,75

18,32

15,66

26,22

6

20

35,12

17,81

17

27,52

7

12

32,07

21,42

16,77

25,76

8

32

54,25

26,42

15,68

23,1

9

21

32,7

17,23

15,92

23,41

10

23

40,51

30,43

15,29

25,17

11

33,52

49,78

21,71

15,61

25,39

12

25

43,84

28,33

15,7

24,56

13

28,76

44,03

30,42

16,87

24,45

14

24,6

39,46

21,66

15,25

23,81

15

24,51

38,78

25,77

16,05

24,48

Маємо по 15 вимірів перемінних A1 – A5, тобто n=15, m=5.

Потрібно обчислити коефіцієнти кореляції ρ12, ρ13, ρ14 та ρ15.

Розрахунки виконаємо за допомогою електронної таблиці Excel.

Вихідні дані запишемо у комірки A1:E15.

Рядок A17:E17 відведемо для значень μj відповідних стовпчиків вихідних даних. Наприклад, значення μ1 містить комірка A17=СУММ(A1:A15)/15.

Рядок A19:E19 містить значення σj відповідних стовпчиків.

Наприклад, A19=КОРЕНЬ(СУММКВ(A21:A35)/14), причому стовпчик A21:A35 містить значення =(A1:A15) - A17.

Матрицю U записано у комірки H1:L15. Наприклад, стовпчик H1:H15=(A1:B15-A17)/A19.

У комірки I17:L17 записані коефіцієнти кореляції ρ12, ρ13, ρ14 та ρ15. Значення ρ12=0.843039 свідчить про достатньо високу корельованість перемінних A1 та A2. Це також ілюструє графік, на якому відображені значення стовпчиків H та I відповідних A1 та A2 нормалізованих величин.

Ограничения

Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x), то он будет близок к нулю, т.е. зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону sin2(x) + cos2(x) = 1.

Графики распределений пар(x,y), с соответствующими коэффициентами корреляций x и y для каждого из них. Обратите внимание, что коэффициент корреляции отражает линейную зависимость (верхняя строка), но не описывает кривую зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).

Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.

Второе ограничение вытекает из гипотезы корреляционного анализа (см. выше), в которую заложена линейная зависимость переменных. Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость не линейна (выражена, например, в виде параболы).

Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора (ложная корреляция).

Ложная корреляция

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

Иллюстрацией этому служит хорошо известный анекдот: если выйти на улицу и измерить у 1000 случайных прохожих размер обуви и IQ, между ними будет обнаружена статистически значимая корреляция. Однако это не значит, что размер ноги влияет на интеллект, так как на наличие этой взаимосвязи влияют такие факторы, как пол и возраст участников исследования.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]