Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Информатика конспект лекций_2012

.pdf
Скачиваний:
59
Добавлен:
28.03.2015
Размер:
6.29 Mб
Скачать

ит.п.) может содержать разное количество информации для различных людей – в зависимости от их предшествующих знаний, уровня понимания этого сообщения и интереса к нему.

Информация – это определенная совокупность сведений об окружающем мире, событиях, фактах человеческой деятельности, которая является объектом передачи, накопления (хранения) и обработки.

Применительно к компьютерной обработке данных под информацией понимают некоторую последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков

ит.п.), несущую смысловую нагрузку и представленную в понятном компьютеру виде. Каждый новый символ в такой последовательности символов увеличивает информационный объём сообщения.

Предметы, процессы, явления материального или нематериального свойства, рассматриваемые с точки зрения их информационных свойств, называются информационными объектами.

Форма представления информации – сообщение.

Информация передаётся в виде сообщений от некоторого источника информации к её приёмнику посредством канала связи между ними. Источник посылает передаваемое сообщение, которое кодируется в передаваемый сигнал. Этот сигнал посылается по каналу связи. В результате в приёмнике появляется принимаемый сигнал, который декодируется и становится принимаемым сообщением.

Передача информации по каналам связи часто сопровождается воздействием помех, вызывающих искажение и потерю информации.

Однако не любое сообщение есть информация. Информацией является только такое сообщение, которое уменьшает неопределенность в данной конкретной предметной области.

Данные – это составная часть информации, представляющая собой зарегистрированные сигналы. Характеристика, используемая для представления сообщений, называется параметром сигнала. Когда он принимает последовательное во времени конечное число значений, сигнал называется дискретным, а сообщение, передаваемое с помощью таких сигналов – дискретное. Если же источник вырабатывает непрерывное сообщение, то информация называется непрерывной. Любое сообщение может быть представлено как дискретное, т.е посредством последовательности знаков некоторого алфавита. Такой процесс называется дискретизацией. Это особенно важно для вычислительной техники, так как ЭВМ есть цифровая машина и внутреннее представление информации в ней дискретно.

10

Информацию можно: создавать, передавать, воспринимать, использовать, запоминать, принимать, копировать, формализовать, распространять, преобразовывать, комбинировать, обрабатывать, делить на части, упрощать, собирать, хранить, искать, измерять, разрушать и др.

Все эти процессы, связанные с определенными операциями над информацией, называются информационными процессами.

Восприятие информации определяется через некоторый набор ее свойств. Информация достоверна, если она отражает истинное положение дел. Недостоверная информация может привести к неправильному пониманию или принятию неправильных решений.

Достоверная информация со временем может стать недостоверной, так как обладает свойством устаревать, то есть перестаёт отражать истинное положение дел.

Информация полна, если её достаточно для понимания и принятия решений. Как неполная, так и избыточная информация сдерживают принятие решений или могут повлечь ошибки.

Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса, явления и т.п.

Ценность информации зависит от того, насколько она важна для решения задачи, а также того, какое применение в дальнейшем она найдёт в каких-либо видах деятельности человека.

Только своевременно полученная информация может принести ожидаемую пользу. Одинаково нежелательны как преждевременная подача (когда она ещё не может быть усвоена) информации, так и её задержка.

Если ценная и своевременная информация выражена непонятным образом, она может стать бесполезной.

Информация становится понятной, если она выражена языком, на котором говорят те, кому информация предназначается.

Информация должна преподноситься в доступной (по уровню восприятия) форме. Поэтому одни и те же вопросы по-разному излагаются в различных научных изданиях.

Информацию по одному и тому же вопросу можно изложить кратко (сжато, без несущественных деталей) или пространно (подробно, многословно).

Обработка информации – получение одних информационных объектов из других путем выполнения некоторых алгоритмов.

11

Обработка является одной из основных операций, выполняемых над информацией, и главным средством увеличения ее объёма и разнообразия.

Средства обработки информации – это всевозможные устройства

исистемы, созданные человечеством, и, в первую очередь, компьютеры – универсальные машины для обработки информации.

Информационные ресурсы – это идеи человечества и указания по их реализации, накопленные в форме, позволяющей их воспроизводство. Это книги, статьи, патенты, диссертации, научноисследовательская и опытно-конструкторская документация, технические переводы, данные о передовом производственном опыте и др.

Информационные ресурсы (в отличие от всех других видов ресурсов – трудовых, энергетических, минеральных и т.д.) растут тем быстрее, чем больше их расходуют.

Информация является одним из ценнейших ресурсов. Поэтому наряду с материальными ресурсами, для получения конечного продукта ее необходимо подвергнуть обработке по специальным технологиям. Информационная технология – это совокупность средств

иметодов обработки данных для получения информации о состоянии объекта, процесса, явления. «Новая информационная технология» – информационная технология, использующая персональный компьютер, компьютерные сети и средства связи.

Информатизация общества – это организованный социальноэкономический и научно-технический процесс создания оптимальных условий для удовлетворения информационных потребностей и реализации прав граждан, органов государственной власти, органов местного самоуправления организаций, общественных объединений на основе формирования и использования информационных ресурсов.

12

ЛЕКЦИЯ 2. МЕРЫ И ЕДИНИЦЫ ПРЕДСТАВЛЕНИЯ, ИЗМЕРЕНИЯ И ХРАНЕНИЯ ИНФОРМАЦИИ

Количественные характеристики информации

Классификация мер информации представлена на рис.1.

Меры информации

Синтаксическая

 

Семантическая

 

Прагматическая

 

 

 

 

 

Объем данных

VД

Количество информации

,

где H – энтропия

Количество информации

,

где С – коэффициент содержательности

Рис. 1. Классификация мер информации

Синтаксическая мера информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации.

Существуют два основных подхода в определении количества информации. Исторически они возникли почти одновременно. В конце 40-х гг. XX века один из основоположников кибернетики, американский математик Клод Шеннон, развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.

Объём данных (VД) понимается в техническом смысле этого слова как информационный объём сообщения, или как объём памяти, необходимый для хранения сообщения без каких-либо изменений.

Информационный объём сообщения измеряется в битах и равен количеству двоичных цифр («0» и «1»), которыми закодировано сообщение.

В компьютерной практике слово «бит» используется также как единица измерения объёма памяти. Ячейка памяти размером в 1 бит может находиться в двух состояниях («включено» и «выключено») и в неё может быть записана одна двоичная цифра (0 или 1). Понятно,

13

что бит – слишком маленькая единица измерения информации, поэтому пользуются кратными ей величинами. Основной единицей измерения информации является байт. 1 байт равен 8 битам. В ячейку размером в 1 байт можно поместить 8 двоичных цифр, то есть в одном байте можно хранить 256 = 28 различных чисел. Для измерения ещё больших объёмов информации используются следующие величины:

1

Кбайт (один килобайт) = 210 байт = 1024 байта (1 kB);

1

Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайта (1 MB);

1

Гбайт (один гигабайт)

= 210 Мбайт = 1024 Мбайта (1 GB);

1

Тбайт (один терабайт)

= 210 Гбайт = 1024 Гбайта (1 TB);

1

Пбайт (один петабайт) = 210 Тбайт = 1024 Тбайта (1PB);

1

Эбайт (один эксабайт) = 210 Пбайт = 1024 Пбайта (1 EB);

1

Збайт (один зеттабайт) = 210 Эбайт = 1024 Эбайта (1 ZB);

1

Йбайт (один йоттабайт) = 210 Збайт = 1024 Збайта (1 YB).

Пример 1. При двоичном кодировании текста каждая буква, знак препинания, пробел занимают 1 байт. На странице книги среднего формата примерно 50 строк, в каждой строке около 60 символов, таким образом, полностью заполненная страница имеет объём 50x60 = = 3000 байт ≈ 3 Килобайта. Вся книга среднего формата занимает ≈ 0,5 Мегабайт. Один номер четырёхстраничной газеты – 150 Килобайт. Если человек говорит по 8 часов в день без перерыва, то за 70 лет он наговорит около 10 Гигабайт информации. Один чёрнобелый кадр (при 32 градациях яркости каждой точки) содержит примерно 300 Кб информации, цветной кадр содержит уже около 1Мб информации. Телевизионный фильм продолжительностью 1,5 часа с частотой 25 кадров в секунду – 135 Гб.

При вероятностном подходе количество информации I на синтаксическом уровне определяется через понятие энтропии системы.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция H(α), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что неопределенность состояния системы после получения сообщения β стала Hβ(α).

14

Тогда количество информации Iβ(α) о системе, полученной в сообщении β, определится как

Iβ(α) = H(α) - Hβ(α),

то есть количество информации измеряется изменением (уменьшением) неопределенности состояния системы. Если конечная неопределенность Hβ(α) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации будет определяться как Iβ(α) = H(α). Иными словами, энтропия системы Н(а) может рассматриваться как мера недостающей информации.

Энтропия системы H(α), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где – вероятность того, что система находится в i-м состоянии. Для случая, когда все состояния системы равновероятны, т.е. их

вероятности равны , ее энтропия определяется соотношением:

Пример 2. Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передавать разное число состояний отображаемого объекта, что можно предста-

вить в виде соотношения:

N = mn,

где N – число всевозможных отображаемых состояний;

m– основание системы счисления (разнообразие символов, применяемых в алфавите);

n– число разрядов (символов) в сообщении.

Допустим, что по каналу связи передается n-разрядное сообщение, использующее m различных символов. Так как количество всевозможных кодовых комбинаций будет N = mn, то при равновероят-

15

ности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет определяться по формуле Хартли:

I = log N = n log m.

Если в качестве основания логарифма принять m, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = VД, полученных по каналу связи.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит

и дит.

Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие «тезаурус пользователя».

Тезаурус – это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер зависимости количества семантической информации, воспринимаемой потребителем, от тезауруса потребителя показан на рис. 2.

Рис. 2. Характер зависимости количества семантической информации от тезауруса потребителя

16

Рассмотрим два предельных случая, когда количество семантической информации Ic равно 0:

• при пользователь не воспринимает и не понимает посту-

пающую информацию;

• при пользователь все знает, и поступающая информация ему не нужна.

Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения. Следовательно, количество семантической информации в сообщении, т.е. количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему:

.

Прагматическая мера информации (аксиологический подход)

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цепи. Эта мера также является величиной относительной, обусловленной особенностями использования этой информации в той или иной системе.

Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Представим для сопоставления введённые меры информации в табл. 1.

17

 

 

Таблица 1

 

Меры информации

Мера информации

Единица измерения

Пример (для компьютерной

области)

 

 

 

 

 

Синтаксическая:

Степень уменьшения не-

Вероятность события.

-шенноновский

определенности.

 

подход;

 

 

-компьютерный (объ-

Единицы представления

Бит, байт, Кбайт и т.д.

емный) подход

информации

 

 

 

 

Семантическая

Тезаурус.

Пакет прикладных программ,

 

 

персональный компьютер,

 

 

компьютерные сети и т.д.

 

 

Рентабельность, производи-

 

Экономические показа-

тельность, коэффициент

 

тели

амортизации и т.д.

 

 

 

Прагматическая

Ценность использования

Емкость памяти, производи-

 

 

тельность компьютера, ско-

 

 

рость передачи данных и т.д.

 

 

Денежное выражение.

 

 

Время обработки информа-

 

 

ции и принятия решений

 

 

 

18

ЛЕКЦИЯ 3. КОДИРОВАНИЕ ДАННЫХ В ЭВМ

ВЭВМ применяется двоичная система счисления, т.е. все числа

вкомпьютере представляются с помощью нулей и единиц, поэтому компьютер может обрабатывать только информацию, представленную в цифровой форме.

Для преобразования числовой, текстовой, графической, звуковой информации в цифровую необходимо применить кодирование.

Кодирование – это преобразование данных одного типа через данные другого типа. В ЭВМ применяется система двоичного кодирования, основанная на представлении данных последовательностью двух знаков: 1 и 0, которые называются двоичными цифрами (binary digit – сокращенно bit).

Целые числа кодируются двоичным кодом довольно просто (путем деления числа на два). Для кодирования нечисловой информации используется следующий алгоритм: все возможные значения кодируемой информации нумеруются и эти номера кодируются с помощью двоичного кода.

Кодирование чисел

Есть два основных формата представления чисел в памяти компьютера. Один из них используется для кодирования целых чисел, второй (так называемое представление числа в формате с плавающей точкой) используется для задания некоторого подмножества действительных чисел.

Кодирование целых чисел производиться через их представление

вдвоичной системе счисления: именно в этом виде они и помещаются в ячейке. Один бит отводиться при этом для представления знака числа (нулем кодируется знак «плюс», единицей – «минус»).

Для кодирования действительных чисел существует специальный формат чисел с плавающей запятой. Число при этом представляется

ввиде: , где M – мантисса; p – порядок числа N; q – осно-

вание системы счисления. Если при этом мантисса M удовлетворяет условию , то число N называют нормализованным.

Кодирование координат

Закодировать можно не только числа, но и другую информацию, например, о том, где находится некоторый объект. Величины, определяющие положение объекта в пространстве, называются коорди-

19