Информационная метрика. Измерение количества информации.
Никакая инженерная дисциплина не имеет места быть, если невозможно организовать измерение величин, тоже самое имеет место измерение информации. Есть информационная цепь – можно подсчитать число информаций. Неправильно говорить о количестве информации. В информатике принято различать 3 направления, и соответственно этому вести подсчёт разных информаций.
Структурное направление, в котором массивы данных представлены различимыми сообщениями – массивы данных дискретных величин. Если инф. Массивы представлены непрерывными величинами, то предварительно в рамках структурного подхода эту величину необходимо подвергнуть дискретизации. В рамках этого направления количество информации определяется либо числом элементов массива, либо числом комбинаций (кодовые слова). Предполагается дискретное строение информационного массива. У М. Мазура сообщения также нет непрерывных сообщений.
Статистическое направление (подход). Количество информации определяется как функция вероятностей появления сообщения на входе приемника. В качестве меры используется информационная энтропия.
Семантический подход. Предпринимаются усилия измерять содержательность, значимость принятых сообщений, попытки оценить логический опыт. Например, предлагалось измерять содержательность информации длиной программы (числом команд в программе), которая переводит объект из начального состояния в состояние цели. Среди множества программ, считается более содержательной та, которая содержит меньше команд. Считается, что информация, содержащаяся в этой программе более содержательная. Поскольку в настоящее время нет общепринятого научного определения такому понятию как смысл, содержательность, значимость, информации, то измерять смысл информации – дело трудное.
Рассмотрим структурное направление. В рамках этого подхода есть три способа вычисления информации – геометрическая мера, комбинаторные меры, аддитивная мера (мера Хартли). Среди геометрических мы встречаем аналог длины (длина массива, штук), аналог площади (число элементов в матрице х2), аналог объёма (3х мерный массив).
Заметим, что в рамках площади мы определяем максимальную ёмкость информационного массива.
Есть несколько элементов, и мы можем строить из них разные комбинации (кодовые слова). При формировании комбинаций можно менять только состав, тогда мы будем говорить о сочетаниях из n элементов по m.
C[n][m] = n!/m!(n-m)!
Есть комбинации, которые отличаются только порядком следования элементов. P[n] = n!
Очень важным является перестановка элементов с повторениями (знаковые последовательности, слова). P[n] = n!/m[1]!*m[2]!*m[3]!*…*m[k]! k – количество элементов.
Размещения. Из m по n. A[n][m] = m^n
Во всех комбинаторных мерах размер нелинейно зависит от количества элементов. Аддитивная мера позволяет складывать (2 массива), обладает свойством пропорциональности (в неск раз больше/меньше).
Комбинаторные меры не являются аддитивными, геометрические - являются.
В 1928 году Р. Хартли предложил аддитивную меру. J = log[2]N
В настоящее время используются следующие единицы:
Бит n=1 m=2 (m – количество состояний).
Для машины двоичная система удобна потому, что легко реализуются элементы, которые формируют два различимых состояний. И также легко строятся элементы, которые хорошо их различают. Чем больше различается элементов, тем труднее это точно сделать. 1 байт = 8 бит. 8 (2х разрядов). 2^8 = 256 состояний.
2^10 или 1024 байта = 1Кбайт
2^10 или 1024 Кбайт = 1 Мбайт
1024 Мбайт = 1Гбайт
1024 Гбайт = 1Тбайт
Т.о. самая простая информационная система, которая принимает всего 2 состояния, может генерировать один бит информации, для идентификации также нужен 1 бит.
Статистический подход предполагает, что источник сообщений является источником случайных событий (математическая модель). Если машина или человек не способен увязывать события в цепь, то для машины текст обычный будет выглядеть как набор случайных букв.
Если приёмник способен учитывать хотя бы числа вхождений событий
А ~ n[a]
B ~ n[b]
C ~ n[c]
M ~ n[m]
Сумма[i=1, M]n[j]=n
P*[j]=n[j]/n
В математической статистике и теории вероятности установлено, что n>>беск., то p*[j]=n[j]/n -> p[j]
0< p[j] <=1
Предположим, что приёмник знает вероятности событий (состояний источника), и он, зная вероятности, может подсчитать количество информации, которое генерирует источник (получает приёмник).
H=J= -сумма[j=1, M]P[j]log*P[j] энтропия, количество информации, которое необходимо для идентификации любого сообщения в цепи, или любого состояния источника. На самом деле для идентификации редких (маловероятных) сообщений требуется большее количество информации для идентификации. Для идентификации частых сообщений требуется меньшее кол-во информации. Здесь мы измеряем среднее кол-во информации.
Вычисляемая таким же образом мера называется энтропией источника, или информационная энтропия (характеристика источника сообщений). Эта мера характеризует информационную способность источника. Чем больше энтропия, тем больше информации может сгенерировать источник - мера, характеризующая неопределённость состояния источника, степень хаоса, характеристика неупорядоченности.
Мазур не рассматривает информационные цепи бесконечной длины, поэтому он оперирует только с частотами (не с вероятностями). Он различает два вида информации - описательные информации – служат для того чтобы увязать сообщения в цепь, люди пользуются в основном описательными информациями. Для технических систем (АС) также исп. Описательные информации.
D = n = m (при n=m) Если сообщения повторяются, то при n > m
D = П[j=1, m](n/n[j])^(n[j]/n)
Второй вид – идентифицирующие информации, чтобы распознать, сравнить сообщения, отличить одно от другого
J=log[2]D = log[2]n