Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Корреляционный анализ.docx
Скачиваний:
65
Добавлен:
17.02.2016
Размер:
369.12 Кб
Скачать
  1. Изучение корреляционной связи между атрибутивными признаками

В статистике применяются также непараметрические методы, с помощью которых устанавливается связь между качественными (атрибутивными) признаками. Эти методы не требуют соблюдения условия нормальности распределения. При изучении зависимости между качественными признаками устанавливается только наличие связи и измерение её тесноты.

Для альтернативных признаков

Если исследуемые признаки можно назвать альтернативными (значения представлены противоположными значениями, т.е. всего два значения), то тесноту связи можно измерить при помощи коэффициента ассоциации и коэффициента контингенции.

Для этого строится таблица «четырех полей» и имеет следующий вид

Значения X

Значения Y

Сумма по строке

Y1

Y2

X1

a

b

a+b

X2

c

d

c+d

Сумма по столбцу

a+c

b+d

a+b+c+d

a,b,c,d– количество наблюдаемых единиц (частоты), попадающих в каждую группу (X1Y1,X1Y2,X2Y1,X2Y2)

Коэффициент ассоциации() рассчитывается по следующей формуле:

Коэффициент ассоциации изменяется по -1 до +1. Если, то связь между качественными признаками отсутствует.

Коэффициент контингенции ()рассчитывается по следующей формуле:

Коэффициент контингенции изменяется по -1 до +1. Если, то связь между качественными признаками отсутствует. Коэффициент контингенции всегда будет меньше коэффициента ассоциации, рассчитанного по одним и тем же данным.

Для атрибутивных признаков

Если изучаемые атрибутивные признаки имеют больше двух значений, то применяют коэффициенты корреляции Пирсона и Чупрова.

 Для данных коэффициентов необходимо составить таблицу взаимной сопряженности:

Таблица сопряженности

Значения Х

Значения Y

Сумма по строке (

n11

n12

n13

n21

n22

n23

n31

n32

n33

Сумма по столбцу (

Частоты, стоящие в клетках таблицы, называются клеточными частотами.

Факт наличия связи устанавливается с помощью критерия χ2.

Где - фактическая клеточная частота, т.е. число единиц наблюдения сi-ым значением признака Х и j-ым значением признака Y;

- теоретическая клеточная частота (при равенстве фактических и теоретических частот связь между Х и Y отсутствует)

Теоретические частоты для каждой клетки вычисляются по формуле

Величина показывает насколько велика разница между фактическими клеточными частотами и теми частотами, которые были бы, если бы между переменными не было связи. Эта разница всегда будет, поэтомуполученную величину нужно сравниватьс минимально допустимой величиной из таблицы критических значений. На величину влияет число степеней свободы и уровень значимости.

Число степеней свободы определяется следующим образом

,

Где – количество групп фактораX, – количество групп фактораY.

Таблица критических значений приведена в конце лекции.

Выбираем по таблице значение , соответствующее рассчитанной ранее степени свободы и уровню значимости.

Если рассчитанное по формуле значение превышает табличное значение, то связь между X и Y подтверждается (т.е. корреляционная связь между Х и Y присутствует).

подтверждает только наличие связи.

Тесноту связи определяют при помощи коэффициентов взаимной сопряженности.

Коэффициент взаимной сопряженности Пирсона

Коэффициент взаимной сопряженности Чупрова.

Коэффициент взаимной сопряженности Чупрова более совершенен, так как учитывает число значений для изучаемых переменных

Чем ближе величины коэффициентов взаимной сопряженности  к 1, тем теснее связь

Рассмотрим пример.

В таблице приведены условные данные о распределении 500 опрошенных человек по двум показателям: наличие (отсутствии) у них прививки против гриппа и факт заболевания (незаболевания) гриппом во время его эпидемии.

Таблица2. Распределение 500 опрошенных человек

Группа лиц

Число лиц

заболевших

гриппом

не заболевших

гриппом

Итого

Сделавших прививку

30 (а)

270 (b)

300

Не сделавших прививку

120 (c)

80 (d)

200

Итого

150

350

500

Можно предположить, что прививка положительно влияет на предупреждение заболевания; другими словами, можно предположить, что распределение в таблице (a, b, c, d) не случайно и существует стохастическая зависимость между группировочными признаками. Однако выводы о зависимости, сделанные «на глаз», часто могут быть ненадежными (ошибочными), поэтому они должны подкрепляться определенными статистическими критериями,

Фактические частоты

Группа

Y1 (заболели)

Y2

(не заболели)

Х1 (сделали прививку)

30

270

300

Х2 (не сделали прививку)

120

80

200

150

350

500

Теоретические частоты

Группа

I (да)

II (нет)

I (да)

90

210

300

II (нет)

60

140

200

150

350

500

.

Рассчитанное (фактическое) значение χ2сопоставляют с табличным (критическом), определяемым по таблице для заданного уровня значимостиαи числа степеней свободы, гдеk1иk2– число групп по одному и второму признакам группировки (число строк и число столбцов в таблице).

В рассматриваемом примере ν=(2-1)(2-1)=1, а приняв уровень значимостиα=0,01, по таблице Приложения 3 находим χ2табл=6,63. Поскольку рассчитанное значение χ2> χ2табл, значит существует стохастическая зависимость между рассматриваемыми показателями.

Для измерения тесноты связи между группировочными признаками в таблицах взаимной сопряженности могут быть использованы такие показатели, как коэффициент ассоциации и контингенции (для «четырехклеточных таблиц»), а также коэффициенты взаимной сопряженности Пирсона и Чупрова (для таблиц любой размерности).

;

Связь считается достаточно значительной и подтвержденной, если >0,5 или>0,3.

Поэтому в нашем примере оба коэффициента характеризуют достаточно большую обратную зависимость между исследуемыми признаками.

Теснота связи между 2 и более признаками измеряется с помощью коэффициентов взаимной сопряженности ПирсонаилиЧупрова, рассчитываемых на основе показателя χ2.

В нашем примере .

Рассчитывать коэффициент Чупрова для таблицы «четырех полей» не рекомендуется, так как при числе степеней свободы ν=(2-1)(2-1)=1 он будет больше коэффициента Пирсона (в нашем примере КЧ=0,53). Для таблиц же большей размерности всегда КЧП.

Таблица критических значений

15