Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛекПТИ_Михеев.doc
Скачиваний:
58
Добавлен:
16.01.2019
Размер:
2.52 Mб
Скачать

1.9. Избыточность источника сообщений

Вспомним теперь, что энтропия характеризует количество информации, приходящееся в среднем на одно сообщение. Рассмотренные ранее примеры показывают, что при одинаковом количестве различных символов (сообщений) количество информации, приходящееся на одно сообщение, может быть различным в зависимости от статистических характеристик источника. Энтропия источника максимальна и равна , если символы вырабатываются с равными вероятностями; если же это не так и некоторые символы повторяются часто, а другие редко, то энтропия источника уменьшается, а при появлении дополнительных коррелятивных связей между символами энтропия становится еще меньшей. Это положение хорошо согласуется с интуитивным представлением о количестве информации, вырабатываемой тем или иным источником. Так, например, если из предшествовавшего опыта свойства лектора или докладчика известны настолько хорошо, что слушатели с высокой степенью достоверности знают, о чем он будет говорить, то количество информации, сообщаемой таким лектором, будет очень малым, несмотря на большое количество произнесенных слов.

Для того чтобы выяснить, насколько хорошо в источнике сообщений используются разные символы (а источник будет тем лучше, чем больше информации он будет вырабатывать), вводится параметр, называемый избыточностью и равный

. (1.24)

При этом есть максимальная энтропия или наибольшее количество информации, которое может приходиться на один символ источника при данном числе используемых символов.

Из (1.24) видно, что при энтропия источника, т.е. источник генерирует максимальное количество информации на символ. Если , то и, следовательно, информация, вырабатываемая источником, равна нулю. В общем случае . Чем меньше избыточность , тем рациональнее работает источник, тем большее количество информации он вырабатывает.

Следует, однако, иметь в виду, что не всегда нужно стремиться к тому, чтобы . Некоторая избыточность бывает полезной для обеспечения надежности передачи, регистрации и других преобразований информации. Известно, например, что лектора, который не повторяет или не разъясняет более подробно, на примерах отдельные положения, слушать и конспектировать значительно труднее, чем лектора, который в разумной мере пользуется этими приемами.

Если не различать буквы «е» и «ё», а также мягкий и твердый знаки, то в русском алфавите всего 31 буква, к ним нужно добавить еще пробел между словами, так что всего получается 32 символа. Если бы все символы были равновероятны, то энтропия такого языка была бы равна

.

В действительности, однако, вероятности различных символов различны; так, например, вероятность буквы «о» равна приблизительно 0,09, а буквы «ф» – 0,002. Кроме того, между символами имеют место значительные коррелятивные связи.

Проведенные исследования дают следующие значения энтропии:

при учете разной вероятности отдельных символов

,

при учете коррелятивных связей между двумя символами

,

при учете коррелятивных связей между тремя символами

.

Таким образом, можно утверждать, что избыточность русского языка

.

Анализ английского языка с учетом коррелятивных связей, распространяющихся на восемь соседних букв, показал, что избыточность его . Если учесть коррелятивные связи, распространяющиеся на достаточно большое число букв, то можно, по-видимому, убедиться что избыточность русского и других европейских языков более 50.%. Наличие этой избыточности позволяет легко исправлять отдельные ошибки или восстанавливать пропуски букв и даже слогов без искажения текста.

Соседние файлы в предмете Прикладная теория информации