Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
пособие Епархина О.В.12.doc
Скачиваний:
19
Добавлен:
18.11.2019
Размер:
1.24 Mб
Скачать

6.2.2. Коэффициенты связи, основанные на моделях прогноза

Чтобы признаки считались связанными, значение одного из них должно позволять достаточно хорошо предсказать значение другого.

Предположим, что мы изучаем жителей некоторого города N от 20 лет и старше и нас интересует связь между признаком «возраст», рассматриваемым нами как номинальный, и дихотомическим признаком со значениями «студент» - «не студент». Предположим, что распределение изучаемой совокупности по возрасту приблизительно равномерно — такое, какое изображено на рис. 20.

Рис.20. Гипотетическое распределение по возрасту жителей города N старше 20 лет

Мы не сможем хорошо прогнозировать возраст респондента. Выбрав наугад произвольного человека, мы примерно с одинаковой степенью уверенности можем полагать, что он имеет любой возраст: вероятность «наткнуться» на 20-летнего юношу такая же, как и на 80-летнего старика. Другое дело, если мы рассмотрим только студентов. Их распределение по возрасту будет резко отличаться от общего (рис. 21).

Рис. 21. Гипотетическое распределение по возрасту студентов города N старше 20 лет

Теперь, случайным образом отобрав человека (студента), мы с уверенностью 90% (90 = 70 + 20) будем полагать, что его возраст не превысит 30 лет.

Мы улучшили возможность прогноза возраста жителей города и можем сделать вывод о наличии связи между признаком «возраст» и признаком «студент». Чтобы сделать этот вывод, мы сравнили безусловное распределение признака «возраст» (рис. 20) с его условным распределением (рис. 21), условие состоит в фиксации значения «студент» второго признака.

Все прогнозные коэффициенты должны служить мерой улучшения качества прогноза значения одного признака за счет получения сведений о значении другого признака по сравнению с тем случаем, когда последнее значение неизвестно. Коэффициенты связи, рассматриваемые в данном пособии, отличаются друг от друга способом формализации прогноза.

Выделяют модальный прогноз и пропорциональный прогноз.

Выбирая произвольный объект и зная распределение рассматриваемого признака (условное или безусловное), считаем, что для выбранного объекта этот признак принимает то значение, которое имеет максимальную вероятность, встречается с максимальной частотой (модальное значение). Такой прогноз называется модальным (оптимальным). Коэффициентов три: λr - отражающий влияние строкового признака на столбцовый; λс - отражающий влияние столбцового признака на строковый, λ - усредненный коэффициент.

Рассмотрим формулу для λr, (для λс рассуждения аналогичны):

.

Где выражение означает наибольшую частоту в i - й строке, из нее мы вычитаем наибольшую столбцовую маргинальную частоту.

Пусть частотная таблица имеет вид:

Таблица 23

Расчет коэффициента λr

Значения X

Значения Y

Итого

1

2

3

1

0

20

30

50

2

5

15

30

50

3

40

5

5

50

Итого

45

40

65

150

Наибольшая частота в первой строке матрицы равна 30, во второй тоже 30, в третьей 40. Максимальный маргинал по столбцам — 65. Общее количество объектов в выборке — 150:

.

Рассмотрим безусловное распределение признака Y. Отвечающие ему частоты — это маргиналы по столбцам рассматриваемой матрицы: 45, 40, 65. Модальная частота — 65. Значит, выбрав случайным образом какой-либо объект, мы, прогнозируя для него значение Y, в соответствии с нашими представлениями о прогнозе, определяем, что упомянутое значение равно 3 (именно это значение является модой). Перебирая последовательно всех респондентов, мы дадим правильный прогноз в 65 случаях и ошибемся в (150 - 65) случаях (вероятность ошибки будет равна ). Именно эта разность стоит в знаменателе нашей формулы. Итак, для безусловного распределения качество нашего прогноза можно оценить с помощью величины (150 - 65).

Пусть Х = 1. Соответствующее условное распределение Y определяется частотами первой строки матрицы: числами 0, 20, 30. Значит, перебирая 50 респондентов с первым значением Х и делая для каждого прогноз, мы не ошибемся в 30 случаях. При Х = 2 количество верных предположений тоже будет равно 30. При Х=3 получим 40. Общее количество правильных прогнозов во всех условных распределениях будет равно (30 + 30 + 40). По сравнению с безусловным случаем оно возрастет на ((30 + 30 + 40) - 65) единиц. Это — числитель выражения для λr. В числителе отражена суть коэффициента, знаменатель же использован для нормировки. Чем ближе значение λr к 1, тем лучше предсказание и сильнее связь между переменными. λr = 0, если максимальные частоты в строках приходятся на один столбец. Коэффициенты чаще всего называют коэффициентами Гуттмана56, Гудмена57 или λ-коэффициентами58.

Теперь приведем пример пропорционального прогноза59. Сначала рассмотрим безусловное распределение. Возьмем 150 шаров, на 45 из них напишем цифру 1, на 40 - цифру 2, на 65 — цифру 3 и погрузим все шары в урну, перемешав их. Берем случайного респондента, опускаем руку в урну и вытаскиваем тот шар, который попался случайно. То, что на нем написано, и будет прогнозным значением признака Y для выбранного респондента. Аналогичным образом поступаем и для каждого условного распределения: то, что чаще встречается в исходной совокупности, должно чаще попадаться в наши руки при вытаскивании шаров. К примеру, в соответствии с первым условным распределением (Х=1, первая строка частотной таблицы) у нас отсутствуют респонденты, для которых Y = 1. Не будут попадаться и шары с единицей, поскольку количество таких шаров равно 0. В соответствии с третьим распределением (Х = 3) значения 2 и 3 признаков Y встречаются одинаково часто и в 8 раз реже значения 1. И вероятность встречаемости шаров с цифрами 2 и 3 будет одинаковой и в 8 раз меньше вероятности встречаемости шара с 1. такие распределения рассматриваются как основа коэффициента Валлиса, но принцип его работы тот же, что и у коэффициентов λ.