Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика — курс лекций.pdf
Скачиваний:
540
Добавлен:
11.03.2015
Размер:
2.18 Mб
Скачать

приходящуюся в среднем на одно состояние, называют энтропией дискретного источника инфор-

мации.

Hpi log pi

i 1N

(4)

Если снова ориентироваться на измерение неопределённости в двоичных единицах, то основание логарифма следует принять равным двум.

Hpi log2 pi

i 1N

.

(5)

При равновероятных выборах все

H

N

 

p N

1

p log

 

2

 

 

i

i

N

 

i 1

 

 

 

 

 

 

log

2

 

и формула (5) преобразуется в формулу Р. Хартли (2):

1

N

1

log

 

1 log2

N log2

N .

N

N

2

 

 

 

 

 

 

Предложенная мера была названа энтропией не случайно. Дело в том, что формальная структура выражения (4) совпадает с энтропией физической системы, определённой ранее Больцманом. Согласно второму закону термодинамики энтропия замкнутого пространства определяется выра-

жением:

 

1

N

 

m

H

 

 

mi

ln

 

i

M

 

M

 

 

П i 1

 

П

 

 

 

 

, где

— число молекул в данном пространстве;

— число мо-

лекул, обладающих скоростью

. Так как

 

есть вероятность того, что молекула имеет ско-

 

рость , то

можно записать как

H

pi ln

i 1N

pi

. Данная формула полностью совпадает с (4)

— в обоих случаях величина характеризует степень разнообразия системы.

 

 

Используя формулы (3) и (5), можно определить избыточность алфавита источника сооб-

щений —

, которая показывает, насколько рационально применяются символы данного алфавита:

 

 

 

( )

( )

,

(6)

 

 

(

)

 

 

 

 

где

(

) — максимально возможная энтропия, определяемая по формуле (3);

( ) — энтропия

источника, определяемая по формуле (5).

 

 

 

Суть данной меры заключается в том, что при равновероятном выборе ту же информационную нагрузку на знак можно обеспечить, используя алфавит меньшего объёма, чем в случае с неравновероятным выбором.

Меры информации семантического уровня

Для измерения смыслового содержания информации, т.е. её количества на семантическом уровне, наибольшее распространение получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Действительно, для понимания и использования полученной информации получатель должен обладать определенным запасом знаний. Полное незнание предмета не позволяет извлечь полезную информацию из принятого сообщения об этом предмете. По мере роста знаний о предмете растёт и количество полезной информации, извлекаемой из сообщения.

34

Если назвать имеющиеся у получателя знания о данном предмете «тезаурусом» (т.е. неким сводом слов, понятий, названий объектов, связанных смысловыми связями), то количество информации, содержащееся в некотором сообщении, можно оценить степенью изменения индивидуального тезауруса под воздействием данного сообщения.

Тезаурус совокупность сведений, которыми располагает пользователь или система.

Иными словами, количество семантической информации, извлекаемой получателем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой информации.

В зависимости от соотношений между смысловым содержанием информации и тезаурусом пользователя изменяется количество семантической информации , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рисунке 3. Рассмотрим два предельных случая, когда количество семантической информации равно

0:

 

при

пользователь не воспринимает (не понимает) поступающую информацию;

 

при

пользователь «всё знает», и поступающая информация ему не нужна.

Рисунок 3 — Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса ( )

Максимальное количество семантической информации потребитель приобретает при согла-

совании её смыслового содержания со своим тезаурусом ( ), когда поступающая информация понятна пользователю и несёт ему ранее неизвестные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин и .

Относительной мерой количества семантической информации может служить коэффициент содержательности , который определяется как отношение количества семантической информации к её объёму:

35

.

Ещё один подход к семантическим оценкам информации, развиваемый в рамках науковедения, заключается в том, что в качестве основного показателя семантической ценности информации, содержащейся в анализируемом документе (сообщении, публикации), принимается количество ссылок на него в других документах. Конкретные показатели формируются на основе статистической обработки количества ссылок в различных выборках.

Меры информации прагматического уровня

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Она также величина относительная, обусловленная особенностями использования этой информации в той или иной системе.

Одним из первых отечественных ученых к этой проблеме обратился А. А. Харкевич, который предложил принять за меру ценности информации количество информации, необходимое для достижения поставленной цели, т.е. рассчитывать приращение вероятности достижения цели. Так, если

до получения информации вероятность достижения цели равнялась

, а после её получения — ,

то ценность информации определяется как логарифм отношения

 

:

 

.

(7)

 

 

 

 

 

Таким образом, ценность информации при этом измеряется в единицах информации, в данном случае в битах.

Выражение (7) можно рассматривать как результат нормировки числа исходов. В пояснение на рисунке 4 приведены три схемы, на которых приняты одинаковые значения числа исходов 2 и 6 для точек 0 и 1 соответственно. Исходное положение — точка 0. На основании полученной информации совершается переход в точку 1. Цель обозначена крестиком. Благоприятные исходы изображены линиями, ведущими к цели. Определим ценность полученной информации во всех трёх случаях:

а) число благоприятных исходов равно трём:

 

,

 

 

 

 

 

 

 

 

 

и, следовательно,

 

 

 

 

 

 

 

(

 

 

 

 

)

 

 

 

 

 

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

б) имеется один благоприятный исход:

 

 

,

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(

 

 

 

 

 

)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

в) число благоприятных исходов равно четырём:

 

 

 

 

 

,

 

 

 

 

,

 

 

 

 

 

 

(

 

 

 

 

 

 

)

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В примере б) получена отрицательная ценность информации (отрицательная информация). Такую информацию, увеличивающую исходную неопределённость и уменьшающую вероятность достижения цели, называют дезинформацией. Таким образом, в примере б) мы получили дезинформацию в 1,58 двоичной единицы.

36