- •7. Основы корреляционно-регрессионного анализа
- •Понятие корреляционной связи
- •Корреляционный анализ количественных переменных
- •Корреляционный анализ количественных переменными. Ограничения корреляционного анализа
- •Корреляционный анализ неколичественных переменных
- •Корреляционный анализ ранговых переменных
- •Коэффициент корреляции Спирмена
- •Изучение корреляционной связи между атрибутивными признаками
- •Для альтернативных признаков
- •Для атрибутивных признаков
Корреляционный анализ количественных переменными. Ограничения корреляционного анализа
Изучаемая совокупность значений должна быть однородной.
Необходимо, чтобы совокупность значений факторного и результативного признаков подчинялась нормальному закону распределения.
Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.
Линейный коэффициент корреляции(r)
Это самый популярный измеритель тесноты линейной связимеждуXиY.
Особенности расчета линейного коэффициента корреляции.
Линейный коэффициент корреляции имеет значение лишь при линейном характере взаимосвязи переменных, если связь криволинейная, то его не используют.
Кроме этого, число наблюдений достаточно велико (n>30).
Данные должны быть однородными и распределены по нормальному закону распределения.
Формула линейного коэффициента корреляции:
Линейный коэффициент корреляции rможет принимать значения от –1 до +1.
Если rбудет положительным, то это говорит о наличии прямой зависимости междухиу,
в противном случае (r<0) – об обратной связи.
Если r=0 - отсутствие линейной зависимости междухиу,
а при r=1 функциональная зависимость междухиу.
Шкала Чеддока используется для оценки тесноты связи.
Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между хиук линейной. Поэтому близость значенияrк 0 в одних случаях может означать отсутствие связи междухиу, а в других свидетельствовать о том, что зависимость не линейная.
В нашей задаче для расчета rпостроим вспомогательную таблицу.
Таблица 1. Вспомогательные расчеты линейного коэффициента корреляции
№ п/п |
x |
y |
x – |
y – |
)) |
1 |
27,068 |
172,17 |
-9,534 |
-66,504 |
634,078 |
2 |
29,889 |
200,9 |
-6,713 |
-37,774 |
253,594 |
3 |
33,158 |
232,1 |
-3,444 |
-6,574 |
22,644 |
4 |
34,444 |
231,83 |
-2,158 |
-6,844 |
14,773 |
5 |
37,299 |
246,53 |
0,697 |
7,856 |
5,472 |
6 |
37,554 |
236,99 |
0,952 |
-1,684 |
-1,603 |
7 |
37,755 |
233,4 |
1,153 |
-5,274 |
-6,079 |
8 |
37,909 |
256,43 |
1,307 |
17,756 |
23,199 |
9 |
38,348 |
261,89 |
1,746 |
23,216 |
40,525 |
10 |
39,137 |
259,36 |
2,535 |
20,686 |
52,430 |
11 |
40,37 |
253,62 |
3,768 |
14,946 |
56,310 |
12 |
46,298 |
278,87 |
9,696 |
40,196 |
389,722 |
итого |
|
|
|
|
1 485,066 |
В нашей задаче: == 4,784;== 27,618.
Тогда линейный коэффициент корреляции по формуле
r == 0,937
Найденное значение свидетельствует о том, что связь между величиной стоимостного внешнеторгового товарооборота и величиной таможенных платежей в федеральный бюджетпрямая, сильная (по шкале Чеддока), близкая к линейной.
Проверка коэффициента корреляции на значимость.Интерпретируя значение коэффициента корреляции, следует иметь в виду, что, как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями.
Для того, чтобы оценить существенность (значимость) самого rи, соответственно, реальность измеряемой связи междухиу, необходимо
рассчитать среднюю квадратическую ошибку коэффициента корреляции σr.
Сравнить математический модуль значения rс его средней квадратической ошибкой:
Если >3, тоrсчитается значимым (существенным), а связь – реальной.
В нашем случае проверить по этой формуле коэффициент на значимость нельзя, т.к. мы анализируем всего 12 единиц наблюдения.
Эмпирическое корреляционное отношение.
Использование эмпирического корреляционного отношения и аналитической группировки данныхпозволяет не только выявить наличие зависимости между двумя количественными показателями, но и измерить тесноту этой связи при любой форме зависимости(прямолинейной и криволинейной).
,
Рассчитаем ηдля наших данных.
238,6742; 677,3441;762,7794;= 0,942335
Полученное значение η и анализ аналитической таблицы позволяют сделать вывод, что между X и Y существует прямая сильная (по шкале Чеддока) корреляционная связь.