Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ФинишВзаимосвязь.doc
Скачиваний:
19
Добавлен:
17.12.2018
Размер:
3.48 Mб
Скачать

2.6. Корреляция категоризированных (номинальных) переменных

Основой изучения связи номинальных переменных служит таблица сопряженности – двухмерное распределение единиц совокупности по переменным х и у (табл. 9).

Таблица 9

Переменная х

Переменная у

Итого

y1

y2

y3

yр

x1

n11

n12

n13

n1p

n1.

x2

x21

x22

x23

x2p

n2.

x31

x32

x33

x3p

n3.

хm

xm1

xm2

xm3

xmp

nm.

Итого

n.1

n..2

n..3

n.p

n

В итоговых частотах точкой обозначено суммирование по одному из подстрочных значков.

Частоты, стоящие в клетках таблицы, называются клеточными частотами. Именно по их значениям судят о наличии и тесноте связи. Если единицы совокупности концентрируются в диагональных клетках таблицы, то налицо наличие связи; если же такой концентрации не наблюдается – связи может не быть.

Факт наличия связи устанавливается с помощью критерия:

, (35)

где nij – фактическая клеточная частота, т.е. число единиц с i-м значением признака х и j-м значением признака у; - теоретическая клеточная частота, отвечающая предположению о независимости переменных х и у, т.е. отсутствию связи.

Как известно, вероятность двух независимых событий равна произведению их вероятностей:

. (36)

Для того чтобы от вероятностей (частностей) перейти к частотам, вероятность нужно умножить на n. Получаем формулу клеточной частоты

, (37)

т.е. итог по i-й строке нужно умножит на итог по j-му столбцу, и разделить на общее число данных.

Сумма теоретических частот во всех клетках таблицы равна общему числу наблюдений n:

Сумма теоретических частот по строкам и столбцам таблицы равна соответственно ni и nj:

Таким образом, теоретические частоты – это перераспределение исходных данных в предположении, что связь между переменными х и у отсутствует.

Величина показывает, насколько велико расхождение фактических частот с теми, которые были бы, если бы х и у были независимыми. Такое расхождение так или иначе всегда будет, поэтому существует таблица критических значений критерия , которая содержит предельно возможные значения статистики в случае предположения о независимости переменных.

Распределение зависит от числа степеней свободы и уровня значимости α. Число степеней свободы определяется следующим образом:

, (38)

где m – число категорий переменной х, или число строк таблицы сопряженности; p – число категорий переменной у, или число столбцов таблицы сопряженности; mp – число клеток таблицы сопряженности. Уровень значимости обычно принимается равным α – 0,05 или 0,01 (5% или 1%).

Вычисленное по вышеуказанной формуле значение сравнивается с критическим (табличным) значением при данном числе степеней свободы и принятом уровне значимости. Если , то делается вывод о наличии связи признаков х и у, и наоборот, если , то гипотеза о независимости х и у не отклоняется, т.е. наличие связи может считаться доказанным.

▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼

│►9. При анализе работы фирмы, оказывающей сантехнические услуги как коммерческим организациям, так и индивидуальным заказчикам, возникла необходимость оценить связь между типами клиентов и качеством обслуживания. С этой целью была построена таблица сопряженности (табл. 10):

Таблица 10

Соотношение типа клиента и качества обслуживания

Клиенты

Качество обслуживания

Количество обслуженных

устраивает

не устраивает

Компании

150

132

18

34,8

168

Индивидуальные заказчики

352

368,8

113

96,2

465

Итого

502

131

633

Анализируя данные табл. 10, видим, что среди обслуженных компаний лишь 10% высказали претензии к качеству обслуживания, тогда как из индивидуальных заказчиков доля тех, кого не устроило качество работ, составила 24%. Чтобы удостовериться, что связь между типом клиента и качеством обслуживания существует, вычислим значения. Для этого рассчитаем теоретические частоты, которые запишем в клетках таблицы в правом верхнем углу.

; ;

; .

Учитывая, что мы имеем дело с таблицей (четырехклеточной), можно было бы не вычислять и , а получена их разность и .

Поскольку теоретические клеточные частоты – рассчитанные величины, они могут быть нецелыми числами, как получилось в нашем примере. Сумма всех теоретических частот равна объему выборки, n=633. Итоги по строкам и столбцам таблицы равны маргинальным частотам: (133,2+34,8=168), (133,2+368,8=502).

Вычислим значение :

.

Табличное значение при числе степеней свободы и уровне значимости α=0,05 (т.е. при 95% доверительной вероятности) составляет 3,84.

А величина. Следовательно, наличие связи может считаться доказанным и действительно, от типа клиента зависит качество обслуживания. ◄

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

После того как связь установлена, приступают к ее измерению, поскольку не является мерой связи. Величина этого критерия зависит от объема совокупности, числа строк и столбцов таблицы, , т.е. значение может быть сколь угодно большим.

Меры связи, используемые в статистике, изменяются в интервале от 0 до1. И это очень удобно с точки зрения интерпретации: выделение слабых связей, умеренно тесных или сильных.