Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теория информации - курс лекций.doc
Скачиваний:
432
Добавлен:
13.03.2015
Размер:
4.65 Mб
Скачать

Лекция 5. Информация и алфавит

Рассматривая формы представления информации (сообщений), отметили то обстоятельство, что естественной для органов чувств человека являетя аналоговая форма представления сообщений. Универсальной все же следует считать дискретную форму представления информации с помощью некоторого набора знаков. В частности, именно таким образом представленная информация обрабатывается компьютером, передается по компьютерным линиям связи.

  1. Сообщение есть последовательность знаков алфавита. При передаче сообщения возникает проблемараспознавания знака: каким образомпрочитатьсообщение, то есть по полученным сигналам установить исходную (предназначенную для передачи) последовательность знаков.

В устной речи это достигается посредством использования различных фонем (звуков), по которым и отличаются знаки речи. В письменности это достигается с помощью различного начертания букв и дальнейшего анализа написанного.

Как данная задача может решаться техническим устройством, рассмотрим позже. Сейчас для нас важно, что можно реализовать некоторую процедуру, посредством которой можно выделить из сообщения тот или иной знак.

Необходимо отметить, что для нас (для приемника сообщения) появление конкретного знака (буквы) в конкретном месте сообщения – событие случайное. Следовательно, узнавание (отождествление с эталоном) знака требует получения некоторой порции информации, то есть снятия неопределенности, связанной с появлением этого знака. Эту информацию можно связать с самим знаком и считать, что знак несет в себе (содержит) некоторое количество информации.

Попробуем оценить это количество информации.

  1. Начнем с самого грубого приближения, будем называть его нулевымприближениеми обозначать индексом «0» у получаемых величин.

Предположим, что появление всех знаков (букв) алфавита в сообщении равновероятно(в реальности это не так).

В английском алфавите с учетом знака «пробел» имеется знаков, для русского алфавита с учетом пробела. Для оценки информации, приходящейся на один знак алфавита, применим формулу Хартли:

.

Таким образом, ;.

Получается, что в нулевом приближении со знаком русского алфавита в среднем связано больше информации, чем со знаком английского алфавита. Это, безусловно не означает, что английский язык – язык Шекспира и Диккенса – беднее, чем язык Пушкина и Достоевского. Лингвистическое богатство языка определяется количеством слов и их сочетаний, и никак не связано с числом букв в алфавите.

Продолжим анализировать количество информации, связанное с одним символом алфавита.

  1. В качестве следующего (первого)приближения, уточняющего исходное нулевое приближение, попробуем учесть то обстоятельство, что относительная частота, то есть вероятность появления различных букв в тексте (то есть сообщении) различна.

Рассмотрим следующий набор знаков на основе русского алфавита. В рассматриваемый алфавит включен знак «пробел» для разделения слов. Кроме того, в этом алфавите буквы «е» и «ё» не различаются (часто так принято в печатных текстах), знаки «ь» и «ъ» также не различаются (так принято в телеграфном кодировании). В результате получаем алфавит из 32 знаков. Рассмотрим таблицу средних частот появления знаков такого алфавита, то есть таблицу вероятностей появления этих знаков в сообщениях (табл. 4). Эта таблица построена на основе статистического исследования, обработки большого количества различных сообщений.

Табл. 4. Таблица вероятностей появления знаков русского алфавита в сообщениях

Знак

пробел

о

е, ё

а

и

т

н

с

Относит. частота

0.175

0.090

0.072

0.062

0.062

0.053

0.053

0.045

Знак

р

в

л

к

м

д

п

У

Относит. частота

0.040

0.038

0.035

0.028

0.026

0.025

0.023

0.021

Знак

я

ы

з

ь, ъ

б

г

ч

й

Относит. частота

0.018

0.016

0.016

0.014

0.014

0.013

0.012

0.010

Знак

х

ж

ю

ш

ц

щ

э

ф

Относит. частота

0.009

0.007

0.006

0.006

0.004

0.003

0.003

0.002

Аналогичные подсчеты можно произвести и для других языков.

Если расположить все буквы языка в порядке убывания вероятностей их появления, то получатся следующие последовательности:

Английский язык:

«Пробел», E, T, A, O, N, R, …

Немецкий язык:

«Пробел», E, N, I, S, T, R, …

Французский язык:

«Пробел», E, S, A, N, I, T, …

Для оценки информации, связанной с выбором одного знака алфавита с учетом неравной вероятности их появления в сообщении (текстах) можно воспользоваться формулой (5.2) из предыдущей лекции:

.

Из этой формулы, в частности, следует, что если – вероятность (относительная частота – в большом количестве сообщений) знака номерданного алфавита иззнаков, тосреднее количество информации, приходящейся на один знак, равно:

. (6.1)

Формула (6.1) – это знаменитая формула К. Шеннона, с работы которого «Математическая теория связи» (1948 год) принято начинать отсчет возраста информатики, как самостоятельной науки.

Следует отметить, что и в нашей стране практически в то же время велись подобные исследования. Например, в том же 1948 году вышла работа А.Н. Колмогорова «Математическая теория передачи информации».

В общем случае информация, которая содержится в сообщении, может зависеть от того, в какой момент времени оно достигает приемника. Например, несвоевременное сообщение о погоде, очевидно, не несет той же информации, что и своевременное.

Однако возможно существование сообщений, в которых содержащаяся в них информация не зависит от времени поступления. В частности, такая ситуация реализуется в том случае, если вероятность встретить в сообщении какой-либо знак номер не зависит от времени, точнее, она одинакова во все моменты времени и равна относительной частоте появления этого знакаво всей последовательности знаков. Поэтому вероятности знаков (относительные частоты) определяются для сообщений (текстов), содержащих большое число символов с тем, чтобы проявились статистические закономерности, и далее эти вероятности считаются неизменными во всех сообщениях данного источника.

Сообщения, в которых вероятность появления каждого отдельного знака не меняется со временем, называются шенноновскими сообщениями, а порождающий их отправитель – шенноновским источником.

Если сообщение является шенноновским, то набор знаков (алфавит) и связанная с каждым знаком информация известны заранее. В этом случае интерпретация сообщения, представляющего собой последовательность сигналов, сводится к задаче распознавания знака, то есть к выявлению, какой именно знак находится в данном месте сообщения. При этом количество информации, содержащееся в знаке, служит мерой затрат по его выявлению.

Теория информации строится именно для шенноновских сообщений, поэтому в дальнейшем мы будем считать это исходным положением (условием использования) теории и рассматривать только такие сообщения.

Формула Шеннона позволяет оценить количество информации на один знак в алфавите уже в первом приближении. Применение формулы Шеннона (6.1) к алфавитам дает следующие средние значения информации, приходящейся на один знак:

для русского языка:

;

для английского языка:

;

для французского языка:

;

для немецкого языка:

;

для испанского языка:

.

Таким образом, учет различий в вероятностях появления букв в сообщениях приводит к уменьшению среднего информационного содержаниябуквы.

Английский, немецкий, французский, испанский языки принадлежат к романо-германской языковой группе и основаны на одном алфавите. Несовпадение значений средней информации на один знак в этих языках является следствием того, что частоты появления одинаковых букв в разных языках различны.

  1. Следующими (вторыми, третьими) приближениями при оценке значения информации, приходящейся на знак алфавита, должен быть учет корреляций, то есть учет связей между буквами в словах. Дело в том, что буквы в словах появляются не в любых сочетаниях; это понижает неопределенность при угадывании следующей буквы после нескольких букв. Например, в русском языке нет слов, в которых встречается сочетание «щц» или «фж». И напротив, после некоторых сочетаний букв можно с большой определенностью судить о появлении следующей буквы. Например, после распространенного сочетания «пр-» всегда следует гласная буква, а их в русском языке всего 10; следовательно, вероятность угадывания следующей буквы 0.1, а не.

Учет в английских словах двухбуквенных сочетаний понижает среднюю информацию на знак до значения , учет трехбуквенных сочетаний понижает среднюю информацию на знак до значения. К. Шеннон сумел приблизительно оценитьи.

Аналогичные исследования для русского языка показывают, что учет двухбуквенных сочетаний понижает среднюю информацию на знак до значения , а учет трехбуквенных сочетаний понижает среднюю информацию на знак до значения.

Последовательность ,,, … является убывающей в любом языке. Эстраполируя эту последовательность на учет бесконечного числа корреляций, можно оценить предельную информацию на знак в данном языке, которая будет отражатьминимальную неопределенность, связанную с выбором знака алфавита без учета семантических (смысловых) особенностей языка.

Величина средней информации на знак в нулевом приближении является другим предельным случаем, поскольку характеризуетнаибольшую информацию, которая может содержаться в знаке данного алфавита.

К. Шеннон ввел величину, которую назвал относительной избыточностью языка:

. (6.2)

Избыточность является мерой бесполезно совершаемых альтернативных выборов при чтении текста. Эта величина показывает, какую долю лишней информации содержат тексты на данном языке; лишней в том смысле, что она определяется структурой самого языка и, следовательно, может быть восстановлена без явного указания в буквенном виде.

Исследования Шеннона для английского языка дали значения ,, откуда для избыточности получилось

.

Подобные оценки показывают, что и для других европейских языков, в том числе для русского языка, избыточность составляет 60–70. Это означает, что в принципе возможно почти трехкратное сокращение текстов без ущерба для их содержательной стороны и выразительности. Например, телеграфные тексты делаются короче за счет отбрасывания союзов и предлогов без ущерба для смысла. В телеграфных текстах используются однозначно интерпретируемые сокращения «ЗПТ» и «ТЧК» вместо полных слов (эти сокращения приходится использовать, поскольку знаки «.» и «,» не входят в телеграфный алфавит). Однако такое «экономичное» представление слов снижает разборчивость языка, уменьшает возможность понимания речи при наличии шума (а это одна из проблем передачи информации по линиям связи). Также сокращения снижают возможность локализации и исправления ошибки при ее возникновении.

Отметим, что избыточность языка имеет полезные функции. Избыточность есть определенная страховка и гарантия разборчивости сообщений (текстов). Избыточность позволяет восстановить текст, даже если он содержит большое число ошибок или неполон (например, при отгадывании кроссвордов, при игре «Поле чудес»).