- •Исследование влияния различных факторов на потребление алкоголя
- •Корреляционный анализ
- •Парные коэффициенты корреляции
- •Частные коэффициенты корреляции
- •Множественный коэффициент корреляции
- •Регрессионный анализ Линейная модель
- •Нелинейная (степенная) модель
- •Компонентный анализ
- •Кластерный анализ
- •Дискриминантный анализ
- •Приложение.
Корреляционный анализ
Теперь, после того как мы убедились в том, что результирующая переменная распределена нормально и удалили выбросы, можно приступить к корреляционному анализу.
Сначала рассмотрим зависимости между разными переменными, построив корреляционные поля. На данном этапе можно выявить, какие переменные взаимосвязаны, и каково направление их связи.
По имеющейся выборке можно привести примеры всех трёх вариантов взаимосвязи между переменными:
Отсутствие взаимосвязи между расходами на алкогольные напитки и численностью населения с денежными доходами ниже прожиточного минимума
Обратная связь между реальной начисленной заработной платой и уровнем безработицы.
Положительная взаимосвязь между расходами на алкогольные напитки и количеством зарегистрированных преступлений.
Корреляционные поля показывают наличие и характер связи, но, кроме этого, по ним можно визуально проверить данную выборку на многомерное нормальное распределение (относительно интересующего нас результирующего показателя). Если в том, как расположены точки, можно увидеть линейный тренд, то совокупность распределена нормально. Как видно из представленных примеров, на первом и третьем корреляционных полях точки, даже если убрать с поля диаграммы линию тренда, визуально показывают линейную зависимость.
Парные коэффициенты корреляции
Чтобы определить степень связи между переменными, рассчитаем матрицу частных корреляций.
|
y |
x1 |
x2 |
x3 |
x4 |
x5 |
x6 |
y |
1 |
-0,015 |
-0,041 |
-0,093 |
0,27 |
0,295 |
0,021 |
x1 |
-0,015 |
1 |
-0,214 |
0,575 |
-0,104 |
0,151 |
-0,346 |
x2 |
-0,041 |
-0,214 |
1 |
-0,381 |
0,362 |
0,289 |
0,143 |
x3 |
-0,093 |
0,575 |
-0,381 |
1 |
-0,5 |
0,122 |
-0,625 |
x4 |
0,27 |
-0,104 |
0,362 |
-0,5 |
1 |
0,295 |
0,552 |
x5 |
0,295 |
0,151 |
0,289 |
0,122 |
0,295 |
1 |
-0,228 |
x6 |
0,021 |
-0,346 |
0,143 |
-0,625 |
0,552 |
-0,228 |
1 |
Проверим на значимость интересующие парные коэффициенты корреляции между результирующей переменной и всеми остальными. Для этого для каждого коэффициента вычислим статистику и рассчитаем tкр(0,05; n-2).
|
r1 |
r2 |
r3 |
r4 |
r5 |
r6 |
r |
-0,015 |
-0,041 |
-0,093 |
0,27 |
0,295 |
0,021 |
t |
-0,13078 |
-0,35773 |
-0,81428 |
2,444597 |
2,691531 |
0,183114 |
tкр |
1,991673 |
1,991673 |
1,991673 |
1,991673 |
1,991673 |
1,991673 |
Если t>tкр, то гипотеза о незначимости коэффициента корреляции отвергается. В данном случае гипотеза отвергается у двух коэффициентов: r4 и r5, то есть расходы на алкоголь значимо и положительно связаны попарно с соотношением браков и разводов и с уровнем преступности.
Значимость коэффициентов корреляции также можно проверить при помощи интервальной оценки, используя Z-преобразование Фишера.
Построим следующую таблицу:
|
r1 |
r2 |
r3 |
r4 |
r5 |
r6 |
r |
-0,015 |
-0,041 |
-0,093 |
0,27 |
0,295 |
0,021 |
Z |
0,015001 |
0,041023 |
0,09327 |
0,276864 |
0,304034 |
0,021003 |
∆Z |
0,226321 |
0,226321 |
0,226321 |
0,226321 |
0,226321 |
0,226321 |
Zmin |
-0,21132 |
-0,1853 |
-0,13305 |
0,050543 |
0,077713 |
-0,20532 |
Zmax |
0,241322 |
0,267344 |
0,319591 |
0,503185 |
0,530355 |
0,247324 |
pmin |
-0,20823 |
-0,18321 |
-0,13227 |
0,0505 |
0,077557 |
-0,20248 |
pmax |
0,236744 |
0,261152 |
0,309137 |
0,464618 |
0,485653 |
0,242402 |
Значения , pmin и pmax находим по таблице соответствующего распределения при нужном уровне значимости. Если pmin< 0 и pmax>0, то коэффициент корреляции незначим.
Данный тест выявил значимость у тех же коэффициентов, что и предыдущий.