-
Кодирование данных в эвм выносится на самостоятельное рассмотрение (подготовка докладов)
Виды информации
Информация может существовать в виде:
текстов, рисунков, чертежей, фотографий;
-
световых или звуковых сигналов;
-
радиоволн;
-
электрических и нервных импульсов;
-
магнитных записей;
-
жестов и мимики;
-
запахов и вкусовых ощущений;
-
хромосом, посредством которых передаются по наследству признаки и свойства организмов и т.д.
Данные в компьютере представляются в виде кода, который состоит из единиц и нулей в разной последовательности.
Код – набор условных обозначений для представления информации. Кодирование – процесс представления информации в виде кода.
Кодирование текстовой информации.
Поскольку текст изначально дискретен (он состоит из отдельных символов) для компьютерного представления текстовой информации используется способ, когда все символы кодируются числами, и текст представляется в виде набора чисел – кодов символов, его составляющих. При выводе текста на экран монитора или принтера необходимо восстановить изображения всех символов, составляющих данный текст. Для этого используются так называемые кодовые таблицы символов, в которых каждому коду символа ставится в соответствие изображение символа.
Кодовая таблица – это внутреннее представление символов в компьютере.
Во всем мире в качестве стандарта принята таблица ASCII (American Standard Code for Information Interchange – Американский стандартный код для обмена информацией). Для хранения двоичного кода одного символа выделен 1 байт = 8 бит. Учитывая, что каждый бит принимает значение 0 или 1, количество их возможных сочетаний в байте равно 28 = 256. Значит, с помощью 1 байта можно получить 256 разных двоичных кодовых комбинаций и отобразить с их помощью 256 различных символов. Эти комбинации и составляют таблицу ASCII. Эта таблица состоит из 16 строк и 16 столбцов, пронумерованных от 0 до F в 16-ричной системе счисления. Например, в столбце 4 и строке D таблицы расположена заглавная буква М латинского алфавита. Таким образом, при записи текста с такой буквой, она будет храниться в памяти в виде кода 4D(16) или 77(10). Другие коды: "," – 2C; "j" – 6A; "2" – 32. Такая форма кодирования позволяет представлять буквы в более компактном виде по сравнению с двоичным кодом.
Первые 8 столбцов таблицы кодов или первые 128 символов от 0 (двоичный код 00000000) до 127 (01111111) – цифры, буквы латинского алфавита, управляющие символы. Первые 32 символа являются управляющими и предназначены в основном для передачи команд управления. А последние 8 столбцов таблицы кодов, т.е. коды от 128 (двоичный код 10000000) до 255 (11111111) обычно содержат буквы национальных алфавитов, графические знаки. В большом количестве разновидностей таблицы кодов ASCII первая половина таблицы является неизменной, а вторая - переменной.
Однако 8-битовая кодировка (28) является недостаточной для кодировки всех символов расширенных алфавитов. Все препятствия могут быть сняты при переходе на 16-битовую (216) кодировку Unicode, допускающую 65536 кодовых комбинаций.
Необходимо помнить, что в настоящее время для кодировки русских букв используют пять различных кодовых таблиц (КОИ - 8, СР1251, СР866, Мас, ISO), причем тексты, закодированные при помощи одной таблицы, не будут правильно отображаться в другой кодировке. Наглядно это можно представить в виде фрагмента объединенной таблицы кодировки символов.
Одному и тому же двоичному коду ставится в соответствие различные символы.
Пример:
Двоичный код |
Десятичный код |
КОИ8 |
СР1251 |
СР866 |
Мас |
ISO |
11000010 |
194 |
б |
В |
- |
- |
Т |
Впрочем, в большинстве случаев о перекодировке текстовых документов заботится не пользователь, а специальные программы – конверторы, которые встроены в приложения.
Начиная с 1997 г. последние версии Microsoft Windows&Office поддерживают новую кодировку Unicode. Чтобы определить числовой код символа можно или воспользоваться кодовой таблицей, или, работая в текстовом редакторе MS Word. Для этого в меню нужно выбрать пункт «Вставка» – «Символ», после чего на экране появляется диалоговая панель «Символ». В диалоговом окне появляется таблица символов для выбранного шрифта. Символы в этой таблице располагаются построчно, последовательно слева направо, начиная с символа Пробел (левый верхний угол) и, кончая, буквой «я» (правый нижний угол).
Для определения числового кода символа в кодировке Windows (СР1251) нужно при помощи мыши или клавиш управления курсором выбрать нужный символ, затем щелкнуть по кнопке Клавиша. После этого на экране появляется диалоговая панель Настройка, в которой в нижнем левом углу содержится десятичный числовой код выбранного символа.
Задачи. 1. Два текста содержат одинаковое количество символов. Первый текст записан на русском языке, а второй на языке племени нагури, алфавит которого состоит из 16 символов. Чей текст несет большее количество информации?
Решение. I = К * а (информационный объем текста равен произведению числа символов на информационный вес одного символа). Т.к. оба текста имеют одинаковое число символов (К), то разница зависит от информативности одного символа алфавита (а). 2а1 = 32, т.е. а1 = 5 бит, 2а2 = 16, т.е. а2 = 4 бит. I1 = К * 5 бит, I2 = К * 4 бит. Значит, текст, записанный на русском языке в 5/4 раза несет больше информации. 2. Объем сообщения, содержащего 2048 символов, составил 1/512 часть Мбайта. Определить мощность алфавита.
Решение. I = 1/512 * 1024 * 1024 * 8 = 16384 бит. - перевели в биты информационный объем сообщения. а = I / К = 16384 /1024 =16 бит - приходится на один символ алфавита. 216 = 65536 символов - мощность использованного алфавита. Именно такой алфавит используется в кодировке Unicode, который должен стать международным стандартом для представления символьной информации в компьютере.