6.2.2. Коэффициенты связи, основанные на моделях прогноза

Чтобы признаки считались связанными, значение одного из них должно позволять достаточно хорошо предсказать значение другого.

Предположим, что мы изучаем жителей некоторого города N от 20 лет и старше и нас интересует связь между признаком «возраст», рассматриваемым нами как номинальный, и дихотомическим признаком со значениями «студент» - «не студент». Предположим, что распределение изучаемой совокупности по возрасту приблизительно равномерно — такое, какое изображено на рис. 20.

Рис.20. Гипотетическое распределение по возрасту жителей города N старше 20 лет

Мы не сможем хорошо прогнозировать возраст респондента. Выбрав наугад произвольного человека, мы примерно с одинаковой степенью уверенности можем полагать, что он имеет любой возраст: вероятность «наткнуться» на 20-летнего юношу такая же, как и на 80-летнего старика. Другое дело, если мы рассмотрим только студентов. Их распределение по возрасту будет резко отличаться от общего (рис. 21).

Рис. 21. Гипотетическое распределение по возрасту студентов города N старше 20 лет

Теперь, случайным образом отобрав человека (студента), мы с уверенностью 90% (90 = 70 + 20) будем полагать, что его возраст не превысит 30 лет.

Мы улучшили возможность прогноза возраста жителей города и можем сделать вывод о наличии связи между признаком «возраст» и признаком «студент». Чтобы сделать этот вывод, мы сравнили безусловное распределение признака «возраст» (рис. 20) с его условным распределением (рис. 21), условие состоит в фиксации значения «студент» второго признака.

Все прогнозные коэффициенты должны служить мерой улучшения качества прогноза значения одного признака за счет получения сведений о значении другого признака по сравнению с тем случаем, когда последнее значение неизвестно. Коэффициенты связи, рассматриваемые в данном пособии, отличаются друг от друга способом формализации прогноза.

Выделяют модальный прогноз и пропорциональный прогноз.

Выбирая произвольный объект и зная распределение рассматриваемого признака (условное или безусловное), считаем, что для выбранного объекта этот признак принимает то значение, которое имеет максимальную вероятность, встречается с максимальной частотой (модальное значение). Такой прогноз называется модальным (оптимальным). Коэффициентов три: λ_r - отражающий влияние строкового признака на столбцовый; λ_с - отражающий влияние столбцового признака на строковый, λ - усредненный коэффициент.

Рассмотрим формулу для λ_r, (для λ_срассуждения аналогичны):

Где выражение означает наибольшую частоту в i - й строке, из нее мы вычитаем наибольшую столбцовую маргинальную частоту.

Пусть частотная таблица имеет вид:

Таблица 23

_{Расчет коэффициента λ}r

Значения X	Значения Y			Итого
Значения X	1	2	3
1	0	20	30	50
2	5	15	30	50
3	40	5	5	50
Итого	45	40	65	150

Наибольшая частота в первой строке матрицы равна 30, во второй тоже 30, в третьей 40. Максимальный маргинал по столбцам — 65. Общее количество объектов в выборке — 150:

Рассмотрим безусловное распределение признака Y. Отвечающие ему частоты — это маргиналы по столбцам рассматриваемой матрицы: 45, 40, 65. Модальная частота — 65. Значит, выбрав случайным образом какой-либо объект, мы, прогнозируя для него значение Y, в соответствии с нашими представлениями о прогнозе, определяем, что упомянутое значение равно 3 (именно это значение является модой). Перебирая последовательно всех респондентов, мы дадим правильный прогноз в 65 случаях и ошибемся в (150 - 65) случаях (вероятность ошибки будет равна ). Именно эта разность стоит в знаменателе нашей формулы. Итак, для безусловного распределения качество нашего прогноза можно оценить с помощью величины (150 - 65).

Пусть Х = 1. Соответствующее условное распределение Y определяется частотами первой строки матрицы: числами 0, 20, 30. Значит, перебирая 50 респондентов с первым значением Х и делая для каждого прогноз, мы не ошибемся в 30 случаях. При Х = 2 количество верных предположений тоже будет равно 30. При Х=3 получим 40. Общее количество правильных прогнозов во всех условных распределениях будет равно (30 + 30 + 40). По сравнению с безусловным случаем оно возрастет на ((30 + 30 + 40) - 65) единиц. Это — числитель выражения для λ_r. В числителе отражена суть коэффициента, знаменатель же использован для нормировки. Чем ближе значение λ_rк 1, тем лучше предсказание и сильнее связь между переменными. λ_r = 0, если максимальные частоты в строках приходятся на один столбец. Коэффициенты чаще всего называют коэффициентами Гуттмана^⁵⁶, Гудмена^⁵⁷ или λ-коэффициентами^⁵⁸.

Теперь приведем пример пропорционального прогноза^⁵⁹. Сначала рассмотрим безусловное распределение. Возьмем 150 шаров, на 45 из них напишем цифру 1, на 40 - цифру 2, на 65 — цифру 3 и погрузим все шары в урну, перемешав их. Берем случайного респондента, опускаем руку в урну и вытаскиваем тот шар, который попался случайно. То, что на нем написано, и будет прогнозным значением признака Y для выбранного респондента. Аналогичным образом поступаем и для каждого условного распределения: то, что чаще встречается в исходной совокупности, должно чаще попадаться в наши руки при вытаскивании шаров. К примеру, в соответствии с первым условным распределением (Х=1, первая строка частотной таблицы) у нас отсутствуют респонденты, для которых Y = 1. Не будут попадаться и шары с единицей, поскольку количество таких шаров равно 0. В соответствии с третьим распределением (Х = 3) значения 2 и 3 признаков Y встречаются одинаково часто и в 8 раз реже значения 1. И вероятность встречаемости шаров с цифрами 2 и 3 будет одинаковой и в 8 раз меньше вероятности встречаемости шара с 1. такие распределения рассматриваются как основа коэффициента Валлиса, но принцип его работы тот же, что и у коэффициентов λ.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 / 2517 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
20.11.2019212.48 Кб1помощь часть С.doc
#
01.12.201842.45 Кб10Понятие и значение СКД.docx
#
20.11.20191.68 Mб35Пос. 1.doc
#
06.02.2015231.82 Кб229пособие Болдырева.docx
#
08.11.20183.49 Mб49ПОСОБИЕ ВКМ.doc
#
18.11.20191.24 Mб19пособие Епархина О.В.12.doc
#
24.09.20191.37 Mб5Пособие по английскому.doc
#
16.12.20188.17 Mб14Пособие по письму.doc
#
06.02.20152.12 Mб547Пособие Ч.3 макет.doc
#
06.02.201529.02 Кб25почва.docx
#
13.08.2019611.84 Кб10Пр_17_Связанные_таблицы.doc