Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика — курс лекций.pdf
Скачиваний:
540
Добавлен:
11.03.2015
Размер:
2.18 Mб
Скачать

уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи, формируются понятия и представления, выявляется смысл, содержание информации, осуществляется её обобщение.

Проблемы этого уровня чрезвычайно сложны, так как смысловое содержание информации больше зависит от получателя, чем от семантики сообщения, представленного на каком-либо языке.

На прагматическом уровне интересуют последствия от получения и использования данной информации потребителем. Проблемы этого уровня связаны с определением ценности и полезности использования информации при выработке потребителем решения для достижения своей цели. Основная сложность здесь состоит в том, что ценность, полезность информации может быть совершенно различной для различных получателей и, кроме того, она зависит от ряда факторов, таких, например, как своевременность её доставки и использования. Высокие требования в отношении скорости доставки информации часто диктуются тем, что управляющие воздействия должны осуществляться в реальном масштабе времени, т.е. со скоростью изменения состояния управляемых объектов или процессов. Задержки в доставке или использовании информации могут иметь катастрофические последствия.

Меры информации

Для каждого из рассмотренных выше уровней проблем передачи информации существуют свои подходы к измерению количества информации и свои меры информации. Различают соответственно меры информации синтаксического уровня, семантического уровня и прагматического уровня.

Меры информации синтаксического уровня

Количественная оценка информации этого уровня не связана с содержательной стороной информации, а оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. В связи с этим данная мера даёт возможность оценки информационных потоков в таких разных по своей природе объектах, как системы связи, вычислительные машины, системы управления, нервная система живого организма и т.п.

Для измерения информации на синтаксическом уровне вводятся два параметра: объём информации (данных) — (объёмный подход) и количество информации — (энтропийный подход).

Объём информации (объёмный подход). При реализации информационных процессов информация передаётся в виде сообщения, представляющего собой совокупность символов какоголибо алфавита. При этом каждый новый символ в сообщении увеличивает количество информации, представленной последовательностью символов данного алфавита. Если теперь количество информации, содержащейся в сообщении из одного символа, принять за единицу, то объём информации (данных) в любом другом сообщении будет равен количеству символов (разрядов) в этом сооб-

щении. Так как одна и та же информация может быть представлена многими разными способами (с использованием разных алфавитов), то и единица измерения информации (данных) соответственно будет меняться.

Так, в десятичной системе счисления один разряд имеет вес, равный 10, и соответственно единицей измерения информации будет дит (десятичный разряд). В этом случае сообщение в виде -

30

разрядного числа имеет объём данных

дит. Например, четырехразрядное число 2003 имеет

объём данных

дит.

 

В двоичной системе счисления один разряд имеет вес, равный 2, и соответственно единицей измерения информации будет бит (bit binary digit — двоичный разряд). В этом случае сообщение в

виде -разрядного числа имеет объём данных

бит. Например, восьмиразрядный двоичный код

11001011 имеет объём данных

бит.

 

В современной вычислительной технике наряду с минимальной единицей измерения данных «бит» широко используется укрупнённая единица измерения «байт», равная 8 бит. При работе с большими объёмами информации для подсчёта её количества применяют более крупные единицы измерения, такие как килобайт (Кбайт), мегабайт (Мбайт), гигабайт (Гбайт), терабайт (Тбайт):

;

;

;

.

Следует обратить внимание, что в системе измерения двоичной (компьютерной) информации, в отличие от метрической системы, единицы с приставками «кило», «мега» и т.д. получаются путём умножения основной единицы не на , и т.д., а на ,

и т.д.

Количество информации (энтропийный подход). В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого, количество информации в сообщении определяется как мера уменьшения неопределённости состояния данной системы после получения сообщения. Неопределённость может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.

Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо процесса (испытания, измерения и т.д.) неопределённости. При этом в качестве меры неопределённости вводится энтропия , а количество информации равно:

 

,

 

где

— априорная энтропия о состоянии исследуемой системы или процесса,

— апостери-

орная энтропия.

 

Апостериори (от лат. a posteriori — из последующего) — происходящее из опыта (испытания, измерения).

Априори — (от лат. a priori — из предшествующего) — понятие, характеризующее знание, предшествующее опыту (испытанию), и независимое от него.

31

 

В случае когда в ходе испытания имевшаяся неопределённость снята (получен конкретный

результат, т.е.

), количество полученной информации совпадает с первоначальной энтропи-

ей

.

 

Рассмотрим в качестве исследуемой системы дискретный источник информации (источник дискретных сообщений), под которым будем понимать физическую систему, имеющую конечное

множество возможных состояний { }

̅̅̅̅̅̅.

Всё множество

{

} состояний системы в теории информации называют аб-

страктным алфавитом, или алфавитом источника сообщений. Отдельные состояния называют буквами или символами алфавита.

Такая система может в каждый момент времени случайным образом принять одно из конечных множеств возможных состояний — . При этом говорят, что различные состояния реализуются вследствие выбора их источником.

Поскольку одни состояния выбираются источником чаще, а другие реже, то в общем случае он характеризуется ансамблем , т.е. полной совокупностью состояний с вероятностями их появления, составляющими в сумме единицу:

(

), причём

N pi

i 1

1

.

Введём меру неопределённости выбора состояния источника. Её можно рассматривать и как меру количества информации, получаемой при полном устранении неопределённости относительно состояния источника. Мера должна удовлетворять ряду естественных условий. Одним из них является необходимость монотонного возрастания с увеличением возможностей выбора, т.е. числа возможных состояний источника , причем недопустимые состояния (состояния с вероятностями, равными нолю) не должны учитываться, так как они не меняют неопределённости.

Ограничиваясь только этим условием, за меру неопределённости можно было бы взять число состояний, предположив, что они равновероятны. Однако в этом случае при , когда неопределённость отсутствует, такая мера давала бы значение, равное единице. Кроме того, она не отвечает

требованию аддитивности, состоящему в следующем.

Если два независимых источника с числом равновероятных состояний и рассматривать как один источник, одновременно реализующий пары состояний , , то естественно предположить, что неопределённость объединённого источника должна равняться сумме неопределённостей

исходных источников. Поскольку общее число состояний объединённого источника равно

, то

искомая функция должна удовлетворять условию:

 

 

 

 

 

(

)

( )

(

).

(1)

Соотношение (1) выполняется, если в качестве меры неопределённости источника с равнове-

роятными состояниями и характеризующего его ансамбля

принять логарифм числа состояний:

 

 

 

 

(

)

.

 

(2)

Тогда при

( )

и требование аддитивности выполняется.

 

 

 

 

 

32

 

 

 

Указанная мера была предложена американским ученым Р. Хартли в 1928 г. Основание логарифма в формуле (2) не имеет принципиального значения и определяет только масштаб или единицу измерения. В зависимости от основания логарифма применяют следующие единицы измерения:

1. Биты — при этом основание логарифма равно 2:

(

)

.

(3)

2. Наты — при этом основание логарифма равно

:

 

(

)

.

 

3. Диты — при этом основание логарифма равно 10:

( )

.

Так как современная информационная техника базируется на элементах, имеющих два устойчивых состояния, то в информатике в качестве меры неопределенности обычно используют формулу (3). При этом единица неопределённости называется двоичной единицей, или битом, и представляет собой неопределённость выбора из двух равновероятных событий.

Формулу (3) можно получить эмпирически: для снятия неопределённости в ситуации из двух равновероятных событий необходим один опыт и соответственно один бит информации, при неопределённости, состоящей из четырёх равновероятных событий, достаточно двух бит информации, чтобы угадать искомый факт. Эти рассуждения можно продолжить: 3 бита информации соответствуют неопределённости из 8 равновероятных событий, 4 бита — 16 равновероятных событий и т.д. Например, для определения карты из колоды, состоящей из 32 карт, достаточно 5 бит информации, т.е. достаточно задать 5 вопросов с ответами «да» или «нет», чтобы определить искомую карту.

Таким образом, если сообщение указывает на один из

равновероятных вариантов, то оно

несёт количество

информации, равное

. Действительно,

из наших примеров

,

,

и т.д. Ту же формулу можно словесно выразить иначе: количество информа-

ции равно степени, в которую необходимо возвести число 2, чтобы получить число равновероятных вариантов выбора, т.е. , где (бита).

Предложенная мера позволяет решать определённые практические задачи, когда все возможные состояния источника информации имеют одинаковую вероятность.

В общем случае степень неопределённости реализации состояния источника информации зависит не только от числа состояний, но и от вероятностей этих состояний. Если источник информации имеет, например, два возможных состояния с вероятностями 0,99 и 0,01, то неопределённость выбора у него значительно меньше, чем у источника, имеющего два равновероятных состояния, так как в этом случае результат практически предрешён (реализация состояния, вероятность которого равна

0,99).

Американский учёный К. Шеннон обобщил понятие меры неопределённости выбора на случай, когда зависит не только от числа состояний, но и от вероятностей этих состояний (вероят-

ностей

выбора символов

алфавита ). Эту меру, представляющую собой неопределённость,

 

 

33