Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Informatika.pdf
Скачиваний:
240
Добавлен:
26.03.2015
Размер:
6.48 Mб
Скачать

Таблица 1.11. Частоты и вероятности букв в сообщении

Номер

Буква

Частота

Pi

Номер

Буква

Частота

Pi

1

ж

1

0.0294

11

к

4

0.1176

2

и

4

0.1176

12

с

1

0.0294

3

л

3

0.0883

13

е

2

0.0589

4

-

1

0.0294

14

р

1

0.0294

5

б

3

0.0883

15

н

1

0.0294

6

ы

1

0.0294

16

ь

1

0.0294

7

пробел

4

0.1176

17

й

1

0.0294

8

а

1

0.0294

18

о

1

0.0294

9

у

2

0.0589

19

з

1

0.0294

10

ш

1

0.0294

 

 

 

 

19

H = −åPi log2 Pi ≈ 3.98 бит. Это значение меньше предыдущего. Величина H , вычисленная

i=1

по формуле (1.10.1), является максимальным количеством информации, приходящейся на один знак в сообщении.

Изложенный подход хорошо применим при анализе технической информации. В информации социального плана на первый план выступают такие ее свойства, как истинность, своевременность, ценность, полнота и т. п. Обращение к качественной стороне информации породило иные подходы к ее оценке. При семантическом подходе информация рассматривается с точки зрения как формы, так и содержания. Для измерения смыслового содержания информации, т. е. ее количества на семантическом уровне наибольшее признание получила тезаурусная мера. Эта мера связывает семантические свойства информации со способностью пользователя принимать поступившие сообщения.

Тезаурусом называется словарь или свод данных, полностью охватывающий термины и понятия какой-нибудь специальной сферы, т. е. это совокупность сведений, которыми

располагает объект.

В зависимости от соотношений между

смысловым

содержанием

Ic

 

информации S и тезаурусом пользователя S p изменяется

 

 

количество

семантической

информации

Ic ,

 

 

воспринимаемой пользователем. При S p ≈ 0 пользователь

 

 

не воспринимает, т. е. не понимает поступающую

 

 

информацию;

при S p → ∞

пользователь

все

знает, и

Sp opt

Sp

поступающая информация ему не нужна (см. рис. 1.6).

Максимальное количество семантической информации Ic

Рис. 1.6. Зависимость

количества

информации, воспринимаемой

пользователь приобретает при согласовании её

потребителем, от его тезауруса Ic=f(Sp)

смыслового

содержания

S

со своим

тезаурусом

S p (S p = S p opt ). В этом случае информация понятна пользователю и несет ему ранее не известные сведения (они отсутствуют в его тезаурусе).

1.12. Теоремы Шеннона

При передаче сообщений по каналам связи всегда возникают помехи, приводящие к искажению принимаемых сигналов. Исключение помех при передаче сообщений является очень серьезной теоретической и практической задачей. Её значимость только возрастает в связи с повсеместным внедрением компьютерных телекоммуникаций. Все естественные человеческие языки обладают большой избыточностью, что позволяет сообщениям, составленным из знаков таких языков, иметь заметную помехоустойчивость.

29

Избыточность могла бы быть использована и при передаче кодированных сообщений в технических системах. Самый простой способ повышение избыточности передача текста сообщения несколько раз в одном сеансе связи. Однако большая избыточность приводит к большим временным затратам при передаче информации и требует большого объема памяти.

К настоящему времени вопрос об эффективности кодирования изучен достаточно полно.

 

 

~

= {a1, a2 ,...,an }, состоящий из конечного числа букв, конечная

Пусть задан алфавит A

последовательность символов

A = ai ai ...ai

~

словом, а множество

всех

из A называется

 

 

~

1

2

r

~

 

 

непустых

слов в алфавите

обозначим

Аналогично для алфавита

A

через S = S(A).

~

,...,bq } слово обозначим B = bi

bi

...bi

 

~

 

B = {b1,b2

, а множество всех непустых слов S = S(B).

 

 

 

1

2

m

~

 

~

Рассмотрим соответствие

между

 

и словами алфавита

буквами алфавита A

B :

a1 B1, a2 B2 ,...,ar Br ,.... Это соответствие называется схемой алфавитного кодирования и обозначается Σ . Алфавитное кодирование определяется следующим образом: каждому

слову

A = ai

 

~

ставится в соответствие слово B = Bi

Bi

~

ai ...ai S(A)

...Bi S(B), называемое

 

1

2

r

 

, Bi ,...,Bi

1

2

r

кодом

слова

A .

Слова Bi

называются элементарными кодами. Ограничением

 

 

 

 

1

2

r

 

 

задачи передачи кодов является отсутствие помех. Требуется оценить минимальную среднюю длину кодовой комбинации.

При разработке различных систем кодирования данных получены теоретические результаты, позволяющие получить сообщение с минимальной длиной кодов. Два положения из теории эффективности кодирования известны как теоремы Шеннона.

Первая теорема говорит о существовании системы эффективного кодирования

~

дискретных сообщений, у которой среднее число двоичных символов (букв алфавита B ) на

 

 

 

 

 

~

 

 

 

 

 

 

единицу сообщения (букву алфавита A ) асимптотически стремиться к энтропии источника

сообщения, т. е. кодирование в пределе не имеет избыточности.

 

 

Рассмотрим вновь пример 1 из раздела 1.11, закодировав рассмотренное сообщение

по алгоритму Фано . В таблице 1.12 приведены коды букв в сообщении (слова B , B ,...,B ),

 

 

 

 

 

 

 

 

 

i

i

i

 

 

 

 

 

 

 

 

1

2

r

длина кода ni , вероятности букв сообщения Pi величины ni Pi

и Pi log2 Pi .

 

 

 

 

 

 

 

 

 

 

 

Таблица 1.12

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Но-

Бук-

Код

ni

 

Pi

ni Pi

 

Pi log2 Pi

 

 

 

мер

ва

 

 

 

 

 

 

 

 

 

 

1

ж

10110

5

 

0.0294

0.1470

 

-0.1496

 

 

 

2

и

000

3

 

0.1176

0.3528

 

-0.3632

 

 

 

3

л

0111

4

 

0.0883

0.3532

 

-0.3092

 

 

 

4

-

10111

5

 

0.0294

0.1470

 

-0.1496

 

 

 

5

б

0110

4

 

0.0883

0.3532

 

-0.3092

 

 

 

6

ы

10101

5

 

0.0294

0.1470

 

-0.1496

 

 

 

7

пробел

001

3

 

0.1176

0.3528

 

-0.3632

 

 

 

8

а

10100

5

 

0.0294

0.1470

 

-0.1496

 

 

 

9

у

1000

4

 

0.0589

0.2356

 

-0.2406

 

 

 

10

ш

11000

5

 

0.0294

0.1470

 

-0.1496

 

 

 

11

к

010

3

 

0.1176

0.3528

 

-0.3632

 

 

 

12

с

11001

5

 

0.0294

0.1470

 

-0.1496

 

 

 

13

е

1001

4

 

0.0589

0.2356

 

-0.2406

 

 

 

14

р

11010

5

 

0.0294

0.1470

 

-0.1496

 

 

 

15

н

11011

5

 

0.0294

0.1470

 

-0.1496

 

 

Джино Фано (1871 – 1952) – итальянский математик.

30

Соседние файлы в предмете Информатика