Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
88
Добавлен:
05.02.2016
Размер:
7.84 Mб
Скачать

31

Сравнивая объемы информации русского текста и английского, мы видим, что на английском языке информации меньше, чем на русском. Но ведь содержание не изменилось! Следовательно, при алфавитном подходе к измерению информации ее количество не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте. С точки зрения алфавитного подхода, в толстой книге информации больше, чем в тонкой. При этом содержание книги не учитывается.

Правило для измерения информации с точки зрения алфавитного подхода: 1) Найти мощность алфавита - N

2) Найти информационный вес одного символа i из уравнения 2i = N

3)Найти количество символов в тексте - К

4)Найти количество информации - I (информационный объем всего сообщения)

Для измерения больших объемов информации используют следующие

единицы:

1Кб = 210 байг= 1024 байга

1Мб =210 Кбакг = 1024 Кб

1Гб = 210 Мбайг = 1024 Мб

4. Информационные уровни документов.

Каким образом можно подсчитать количество информации в документе? Прежде чем попытаться ответить на этот вопрос, нужно сделать два предварительных замечания. Во-первых, следует признать, что в настоящее время отсутствует универсальная мера для измерения количества информации. Есть лишь условные меры, которые характеризуют информацию, содержащуюся в определённом документе, предназначенном для соответствующего потребителя, в конкретной ситуации. И, во-вторых, любой документ является многоуровневой информационной системой, где каждый уровень имеет свои количественные параметры. Есть физический уровень, синтаксический (знаковый), семантический (значимый), структурный, латентный и др.

Для определения количества информации необходимо прежде всего воспользоваться общенаучным методом измерения. Поскольку документированная информация всегда содержится на каком-либо материальном носителе, постольку первое, самое общее представление о её количестве может дать физический уровень, т.е. натуральный (физический) объём, занимаемый информацией. Так, первоначальное представление о документах на бумажных носителях можно получить, измерив их в

32

килограммах, в кубических метрах, а также по количеству единиц хранения (дел) и даже по длине полок в архивохранилищах. Для аудиовизуальных и машиночитаемых документов могут быть использованы такие единицы измерения как длина киноплёнки или магнитной ленты в метрах, количество фотографических кадров, видеокассет, магнитных или оптических дисков и т.п.

Информационный объём письменных документов можно выразить в печатных листах, условных печатных листах, в учётно-издательских и авторских листах, перейдя таким образом на синтаксический (знаковый) уровень. Печатный лист - это оттиск на одной стороне листа бумаги формата 60 * 90 см. В условных печатных листах просчитываются оттиски на бумаге других форматов (например, 70 * 90 см и др.) через специальный коэффициент. Учётно-издательский лист, также как и авторский лист, равен 40 тыс. печатных знаков, включая пробелы между словами, или 3000 см\ графического материала (иллюстраций, карт и т.п.).

В информатике количество информации определяется с помощью такой единицы измерения как бит (двоичная цифра, используемая для кодирования любой информации). Восемь бит составляют 1 байт; 1 килобайт (Кбайт) - 1024 байт; 1 мегабайт (Мбайт) = 1024 Кбайт = 1048576 байт; 1 гигабайт (Гбайт) = около 1 млрд байт.

Однако физический объём документа, также как и количество знаков в нём, т.е. синтаксический уровень, не дают представления о реальном количестве информации в документе. Подсчитать же это реальное количество весьма непросто. Не случайно отдельные авторы вообще считают подобный подсчёт невозможным. В поисках наиболее эффективных путей измерения реального количества документированной информации предлагаются различные способы, используются различные понятия. В частности, некоторые исследователи (Б.В.Бирюков, Г.Г.Воробьёв) предлагают так называемый тезаурусный подход. Для обозначения реального количества информации, вложенного в какой-либо информационный объём (в книгу, газету, официальный документ и т.п.), вводится понятие информационная ёмкость. Реальное же количество информации, извлекаемое конкретным потребителем, обозначается понятием информативность документа.

Содержание всей информации в определённой информационной системе называется ''тезаурус " (от греч. "thesauros" - запас). "С точки зрения информативности тезаурус каждого сообщения делится на три части:

1)основная информативность - то, что дано и что получено;

2)потери информативности - то, что дано, но не получено из-за рассеянности, спешки, незнания языка или предмета;

3)бесполезная информация - информационный шум" .

33

Получатель (приёмник) информации также имеет свой тезаурус, который отличается от тезауруса автора документа, но тоже делится на три части:

1)основная информативность - то, что дано и что получено;

2)простая ассоциативная информативность - то, что автор не дал, но подразумевал и предполагал дать и получатель сумел извлечь, благодаря своей квалификации;

3)сложная ассоциативная информативность - то, что автор не дал, не предполагал давать, но получатель извлёк. Без ассоциативной информативности, кстати, немыслимо эффективное развитие научных исследований, равно как и вообще невозможен творческий процесс во многих других областях человеческой деятельности.

Цифровая оценка информативности осуществляется путём составления двух списков дескрипторов (от англ. "descry" - распознавать), т.е. значимых слов или словосочетаний, несущих смысловую нагрузку и нередко именуемых ключевыми словами. В первый список помещаются все дескрипторы документа, а во второй - дескрипторы получателя, приёмника. Количество

дескрипторов, повторяющихся в обоих списках, служит показателем информативности.

Отношение информативности к информационной ёмкости называется информационной плотностью документа.

Информационная плотность, как правило, меньше единицы, так как в каждом документе содержится определённое количество бесполезной информации для данного конкретного потребителя.

Информационная ёмкость и информативность документа зависят от многих факторов: от языка, стиля (в текстовых документах), от структуры, степени формализации и т.п.

Одним из важнейших внутренних свойств информации является её организация, структура. По способу внутренней организации информацию можно разделить на две группы:

1.логически неупорядоченный набор сведений (данные);

2.логически упорядоченный набор данных.

К примеру, попыткой логически упорядочить имеющуюся основную информацию в области документоведения является данное учебное пособие, которое делится на главы, разделы, абзацы. Повышение уровня внутренней организации любой документированной информации улучшает её восприятие, экономит время потребителя, влияет на эффективность принимаемых решений.

Таким образом, изучение информационных свойств документированной информации, хотя на первый взгляд и может показаться чем-то достаточно далёким от практики документационного обеспечения

34

управления, в действительности тесно связано с этой практикой. Рассмотренные теоретические проблемы необходимо принимать во внимание на многих этапах работы с документами: при использовании унифицированных текстов; в процессе свёртывания информации либо, напротив, преднамеренного создания в необходимых случаях её избыточности; в ходе анализа, критической оценки информации и т.п. Иначе говоря, свойства документированной информации реализуются как раз в процессе непосредственной работы с документами, начиная от их создания и заканчивая архивным хранением и использованием в качестве исторических источников.

5. Парадоксы теории информации.

Теория информации Хартли-Шеннона родилась как теория поддержки для технических систем связи. И в этой сфере доказала свою безусловную полезность. Однако, предложившие ее ученые не могли не понимать, что вводимая ими количественная мера не отражает всей полноты существующих информационных процессов, а не только тех процессов, что характеризуют передачу сигналов по каналам связи. Возможно недаром, у Хартли информация допускает количественную оценку, хотя ничего не сказано о том, насколько исчерпывающей такая оценка может быть.

Сравнение количественной физической теории (механики) с теорией информации, без специальных оговорок, по-видимому незаконно. Механика, по своему происхождению, имеет дело с измеряемыми величинами массы и силы, что даёт возможность оперировать категориями материи и энергии. Но, если по-Винеровски посчитать нетождественность последних двух категорий информации, то отсюда не очевидно, что теория информации тоже будет количественной, и последнее нуждается в специальном доказательстве.

Отсутствие в теории информации дефиниции (определения) самой информации и акцент, который она сделала на количественном исчислении:

1)делают любое её заключение статистическим (см. напр., формулу (1));

2)лишают информацию семантической нагрузки.

Вот несколько примеров, которые это подтверждают:

“Парадокс” с перестановкой букв. Нести информацию могут лишь определённые сочетания букв кода (рабочего алфавита, который может быть считан соответствующим считывающим устройством). Отдельные буквы, или поставленные как попало буквы, не несут информации, для передачи которой создан канал связи. Между тем расчёт по формуле (1) может быть произведён и для одной буквы сообщения! А это явная нелепица. В

35

классической теории информации получается, что слово “буква” несёт столько же информации, сколько и слово “укваб”, а это бессмыслица. Пример, демонстрирующий данный парадокс представлен на рисунке.

“Парадокс” длинных текстов. В длинных текстах смысл сообщения может распределяться неравномерно, однако, согласно записи (1), все элементы текста можно якобы считать осмысленными в равной мере. Этим действительно можно было бы удовлетвориться, если бы каналы связи были абсолютно надёжными, но даже в такой высокоразвитой области техники связи как радиосвязь существует, например, ситуация помех, то есть возможной утери куска передаваемого по каналу текста. И если бы была справедлива оценка типа (1), то риска потерять почти весь смысл или большую часть сообщения при этом не существовало бы.

Подобные сложности замечены давно. Ещё в 1963 году В.С. Флейшман писал, что “возникшая благодаря гениальной интуиции К.Шеннона теория информации испытывает кризис неадекватности физических представлений и своего аппарата” [Флейшман В.С. Конструкторские методы оптимального кодирования каналов с шумами.- М.: Изд. АН СССР, 1963. - 144 с.].

Шенноновская запись и последовавшая за ней теория тем самым “как бы создали возможность для отождествления двух разных по своей природе феноменов - информации, как семантики сообщения, и “информации”, как частоты осуществления какого-либо события, подобного модуляции тока на

36

выходе канала связи” [Корогодин В.И. Информация и феномен жизни. Пущино: Пущинский научный центр АН СССР, 1991. - 204 с., с.11].

Парадокс с расчетом “принятой глазом информации”. В самом простом случае считается “информация” I, которая “содержится” в изображении чёрно-белого негатива. Для этого разлагают негатив-аналог на множество точек чёрного и белого цвета, а так же несколько промежуточных оттенков (градаций). Легко понять, что для разных (и условных) выборов числа градаций, мы получим совершенно разные итоговые значения I. И если в области технических систем считывания изображения можно как-то унифицировать процедуры расчёта, договорившись между собой брать одно и то же количество градаций и закладывать его во все конвенциональные схемы считывающих устройств, то в области живых систем проделать ту же процедуру затруднительно. В самом деле: расчёт “принятой глазом информации” подразумевает использование типовой формулы количества информации [Луизов А.В., Фёдорова Н.С. Глаз как приёмник информации. В кн. “Специальные вопросы светотехники в охране труда”. М.: Наука, 1975.

- 250 с.]:

(4)

где N - число элементов изображения, M - число градаций яркости.

Но так как M глаза остаётся неопределённым, то и вычисления по формуле

(4) можно считать достаточно случайными.

Неудобства выражения информации через частоты (вероятности) осуществления какого-либо события вызывали к жизни несколько новых вариантов теории информации. Накопившихся несоответствий, обсуждавшихся в литературе, казалось бы должно было хватить, чтобы признать Шенноновскую теорию информации локальной теорией, с успехом описывающей процессы в системах связи с заведомо осмысленными передаваемыми текстами.

Выводы:

1)Количественная (классическая) теория информации изначально не нуждалась в дефиниции информации.

2)Определение меры информации (количества информации (1)) и её сходство со статистической мерой создали класс расширений классической теории информации, выходящих за рамки локальной теории, называемой иногда “математической теорией связи”.

37

3) Накоплен массив данных, свидетельствующих о неправомерности указанных расширений. Эти данные касаются процессов коммуникации в обществе и живой природе.

6. Кодирование информации.

Теория кодирования – это раздел теории информации, связанный с задачами кодирования и декодирования сообщений, поступающих к потребителям и посылаемых из источников информации.

Теория кодирования близка к древнейшему искусству тайнописи – криптографии. Над разработкой различных шифров трудились многие известные ученые: философ Ф. Бэкон, математики Д.Кардано, Д. Валлис. Одновременно с развитием методов шифровки развивались приемы расшифровки, или криптоанализа.

В середине ХIХ в. ситуация изменилась. Изобретение телефона и искрового телеграфа поставило перед учеными и инженерами проблему создания новой теории кодирования. Первой ориентированной на технику системой кодирования оказалась азбука Морзе, в которой принято троичное кодирование (точка, тире, пауза).

Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.

Двоичный алфавит состоит из двух цифр 0 и 1.

Цифровые ЭВМ (персональные компьютеры относятся к классу цифровых) используют двоичное кодирование любой информации. В основном это объясняется тем, что построить техническое устройство, безошибочно различающее 2 разных состояния сигнала, технически оказалось проще, чем то, которое бы безошибочно различало 5 или 10 различных состояний.

Поэтому, традиционно для кодирования одного символа используется 1 байт информации.

6. 1. Кодирование символьной (текстовой) информации.

Для кодирования текстов используются различные таблицы перекодировки. Важно, чтобы при кодировании и декодировании одного и того же текста использовалась одна и та же таблица.

38

Таблица перекодировки - таблица, содержащая упорядоченный некоторым образом перечень кодируемых символов, в соответствии с которой происходит преобразование символа в его двоичный код и обратно.

Принято интернациональное соглашение о присвоении каждому символу своего уникального кода. В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange).

В этой таблице представлены коды от 0 до 127 (буквы английского алфавита, знаки математических операций, служебные символы и т.д.), причем коды от 0 до 32 отведены не символам, а функциональным клавишам.

Коды с 128 по 255 выделены для национальных стандартов каждой страны. Этого достаточно для большинства развитых стран.

Для России были введены несколько различных стандартов кодовой таблицы

(коды с 128 по 255): КОИ8-Р, СР1251, СР866, Мас, ISO.

Традиционно для того чтобы закодировать один символ используют количество информации равное 1 байту, т. е. I = 1 байт = 8 бит. При помощи формулы, которая связывает между собой количество возможных событий К и количество информации I, можно вычислить сколько различных символов

можно закодировать (считая, что символы - это возможные события):

К = 2I = 28 = 256,

т. е. для представления текстовой информации можно использовать алфавит мощностью 256 символов.

При длине кода в 2 байта (16 бит) можно закодировать 65536 символов.

Суть кодирования заключается в том, что каждому символу ставят в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255.

Начиная с 1997 г. последние версии Microsoft Windows&Office

поддерживают новую кодировку Unicode, которая на каждый символ отводит по 2 байта, а, поэтому, можно закодировать не 256 символов, а 65536 различных символов.

6.2. Кодирование графической информации.

Всередине 50-х годов для больших ЭВМ, которые применялись в научных

ивоенных исследованиях, впервые в графическом виде было реализовано представление данных. Широкое применение получила специальная область информатики, которая изучает методы и средства создания и обработки изображений с помощью программно-аппаратных вычислительных комплексов, - компьютерная графика.

39

Особенно интенсивно технология обработки графической информации с помощью компьютера стала развиваться в 80-х годах. Графическую информацию можно представлять в двух формах: аналоговой или дискретной.

Путем разбиения графического изображения (дискретизации) происходит преобразование графической информации из аналоговой формы в дискретную. При этом производится кодирование - присвоение каждому элементу конкретного значения в форме кода. При кодировании изображения происходит его пространственная дискретизация. Ее можно сравнить с построением изображения из большого количества маленьких цветных фрагментов (метод мозаики). Все изображение разбивается на отдельные точки, каждому элементу ставится в соответствие код его цвета. При этом качество кодирования будет зависеть от следующих параметров: размера точки и количества используемых цветов. Чем меньше размер точки, а, значит, изображение составляется из большего количества точек, тем выше качество кодирования. Чем большее количество цветов используется (т. е. точка изображения может принимать больше возможных состояний), тем больше информации несет каждая точка, а, значит, увеличивается качество кодирования. Создание и хранение графических объектов возможно в нескольких видах - в виде векторного, фрактального или растрового изображения. Отдельным предметом считается 3D (трехмерная) графика, в которой сочетаются векторный и растровый способы формирования изображений. Она изучает методы и приемы построения объемных моделей объектов в виртуальном пространстве. Для каждого вида используется свой способ кодирования графической информации.

6.2.1. Растровое изображение.

При помощи увеличительного стекла можно увидеть, что черно-белое графическое изображение, например из газеты, состоит из мельчайших точек, составляющих определенный узор - растр. Во Франции в 19 веке возникло новое направление в живописи - пуантилизм. Его техника заключалась в том, что на холст рисунок наносился кистью в виде разноцветных точек. Также этот метод издавна применяется в полиграфии для кодирования графической информации. Точность передачи рисунка зависит от количества точек и их размера. После разбиения рисунка на точки, начиная с левого угла, двигаясь по строкам слева направо, можно кодировать цвет каждой точки. Далее одну такую точку будем называть пикселем (происхождение этого слова связано с английской аббревиатурой "picture element" - элемент рисунка).

40

Растровое изображение похоже на лист клетчатой бумаги, на котором каждая клетка закрашена определённым цветом (и это роднит его с мозаикой, витражами, вышивкой крестом, рисованием «по клеточкам»). Растровая графика предполагает, что изображение состоит из элементарных частей, называемых пикселями («точками»). Они упорядочены по строкам. Количество таких строк на экране образует графическую сетку или растр. Таким образом, растровое изображение – это набор пикселей, расположенных на прямоугольной сетке.

Чем меньше пиксель и больше растр у монитора, тем качественнее его изображение. Наибольшее распространение в современных мониторах получили размеры сетки:

800х600,

1024х768,

1152х864.

Важной характеристикой монитора является также разрешающая способность экрана. Она измеряется как количество пикселей на единицу длины, dpi (dots per inch – «точка на дюйм»). Для экрана обычно это 72 или 96 dpi, (для сравнения - у лазерного принтера – 600 dpi). Чем больше dpi, тем меньше "зернистость" монитора, лучше качество изображения.

Не менее важным признаком изображения является количество цветов, обеспечиваемое видеокартой. Его можно менять программно (в пределах возможностей видеокарты)

выбирая режим цветного изображения:

-чёрно-белое или битовое (0 – белый цвет, 1 – чёрный цвет); -16 цветов (4 бита информации в пикселе, 24); -256 цветов (8 бит информации в пикселе, 28);

-high color (16 бит информации в пикселе, 65 536 цветов);

-true color (32 бита информации в пикселе, 16 777 216 цветов).

Количество различных цветов К и количество битов для их кодирования b связаны формулой К=2b

Объем растрового изображения определяется умножением количества пикселей (на информационный объем одной точки, который зависит от количества возможных цветов. Качество изображения определяется разрешающей способностью монитора. Чем она выше, то есть больше количество строк растра и точек в строке, тем выше качество изображения. В современных ПК в основном используют следующие разрешающие способности экрана: 640 на 480, 800 на 600, 1024 на 768 и 1280 на 1024 точки. Так как яркость каждой точки и ее линейные координаты можно выразить с помощью целых чисел, то можно сказать, что этот метод кодирования позволяет использовать двоичный код для того чтобы обрабатывать графические данные.

Если говорить о черно-белых иллюстрациях, то, если не использовать полутона, то пиксель будет принимать одно из двух состояний: светится

Соседние файлы в папке Информационная безопасность