Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
пособие Епархина О.В.12.doc
Скачиваний:
19
Добавлен:
18.11.2019
Размер:
1.24 Mб
Скачать

6.2.3. Коэффициенты связи, основанные на понятии энтропии.

В основе этих коэффициентов также лежит сравнение безусловного распределения с условными с точки зрения изучения изменения степени неопределенности рассматриваемых распределений.

По аналогии с энтропией распределения одного признака определяется энтропия двухмерного распределения:

или

Точно так же можно определить энтропию любого многомерного распределения.

Необходимо дать определение еще одного важного понятия — т. н. условной энтропии:

Противоположным понятию энтропии является понятие информации. Приобретение информации сопровождается уменьшением неопределенности, поэтому количество информации можно измерять количеством исчезнувшей неопределенности, т.е. степенью уменьшения энтропии. Ниже речь пойдет об информации, содержащейся в одном признаке (случайной величине) относительно другого признака.

Если Н(Y) = 0, то исход заранее известен. Большее или меньшее значение Н(Y) означает большую или меньшую проблематичность результата. Измерение признака Х, предшествующее нашему опыту по измерению Y, может уменьшить количество возможных исходов опыта и тем самым снизить степень его неопределенности. Для того, чтобы результат измерения Х мог сказаться на измерении Y, необходимо, чтобы упомянутый результат не был известен заранее. Значит, измерение Х можно рассматривать как некий вспомогательный опыт, также имеющий несколько возможных исходов. Тот факт, что измерение Х уменьшает степень неопределенности Y, находит свое отражение в том, что условная энтропия опыта, состоящего в измерении Y, при условии измерения Х оказывается меньше (точнее, не больше) первоначальной энтропии того же опыта. При этом, если измерение Y не зависит от измерения Х, то сведения об Х не уменьшают энтропию Y, т. е. Н (Y/Х) = Н (Y). Если же результат измерения Х полностью определяет последующее измерение Y, то энтропия Y уменьшается до нуля:

Н(Y/Х) = 0.

Таким образом, разность I(X,Y) = Н(Y) - Н(Y/Х) указывает, насколько осуществление опыта по измерению Х уменьшает неопределенность Y, т. е. сколько нового мы узнаем об Y, произведя измерение Х. Эту разность называют количеством информации относительно Y, содержащейся в Х (термин Шеннона).

Приведенные рассуждения о смысле понятия информации очевидным образом отвечают описанной выше логике сравнения безусловного и условных распределений Y. В основе всех информационных мер связи лежит та разность, которая стоит в правой части последнего равенства. Но именно эта разность и говорит о различии упомянутых распределений. Н (Y/Х) это обычное среднее взвешенное значение условных энтропий — каждому значению признака Х отвечает своя условная энтропия Y:

,

причем каждое слагаемое берется с весом, равным вероятности появления соответствующего условного распределения, т.е. вероятности Рi.. Существует ряд мер связи, основанных на понятии энтропии. Например, это I (X, Y) (ненаправленная мера); ее можно интерпретировать как относительное приращение информации об X, возникающее за счет знания Y60. Относительность возникает в результате соотнесения такого приращения с первоначальной неопределенностью распределения X. Известны и направленные меры связи:

.

Коэффициенты C называют асимметричными коэффициентами неопределенности, коэффициентами нормированной информации61. CX/Y = 0, если и только если переменные X и Y независимы; CX/Y =1, только если X однозначно определяется значением Y (т. е. если полная связь). Аналогичен и коэффициент CY/X.

Соответствующий симметризованный коэффициент нормированной информации вводится следующим образом62:

.

Часто используется также коэффициент Райского:

.

Он заключен в интервале от 0 до 1; в 0 коэффициент обращается только когда признаки статистически независимы; в 1 — когда признаки полностью детерминируют друг друга.

Информационные меры связи похожи на обычный коэффициент корреляции. Но они имеют одно преимущество: если коэффициент корреляции равен 0, из этого не следует статистическая независимость рассматриваемых признаков, если информационные меры связи равны 0 — из этого следует статистическая независимость рассматриваемых признаков.