Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
основы информационных технологий.doc
Скачиваний:
347
Добавлен:
15.02.2016
Размер:
13.76 Mб
Скачать

Кодирование текстовой информации

При формировании любого текстового (символьного) документахарактерно последовательное использование нескольких видов кодировок и их преобразований. Например, при вводе информации с клавиатуры каждое нажатие клавиши, на которой изображен требуемый символ, вызывает появление так называемого scan-кода, который представляет собой двоичное число, равное порядковому номеру клавиши.

Сам номер нажатой клавиши никак не связан с формой символа, нанесенного на клавише. Опознание символа по его scan-коду и присвоение ему внутреннего кода компьютера производится специальной программой - кодировщиком (драйвером). Соответствие scan-кодов клавиш и кодов представления символов внутри компьютера образует так называемую кодовую таблицу символов. Внутреннее представление символьных данных в компьютере полностью определяется особенностями построения этих кодовых таблиц.

Бурное развитие сетевых технологий, в частности, Интернета, привело к интеграции многих технических, программных и информацион-ных систем с большим количеством стандартов, использующих совершенно разные коды, а соответственно, и разные таблицы кодировок.

Только для русских текстов широко применялись кодировки: KOI-7 и KOI-8r, ASCII, ANSI, Win1251, ISO-8859, кодировка ГОСТ - альтернативная (СР866) и др.

Стандарты КОИ-7 (код обмена информацией, 7-ми битовый) и KOI-8r (восьмибитовый) используются, в основном, в почтовых сообщениях, в E-mail. Они были широко распространены и продолжают применяться на постсоветском пространстве.

До недавнего времени, когда удельный вес приложений MS DOS был определяющим, наиболее часто использовался стандарт ASCII (American Standard Code for Information Interchange) - американский стандартный код передачи информации.

Появление операционной среды Windows с графическим интерфейсом потребовало изменения стандарта и введения другой кодовой таблицы - таблицыANSI (American National Standard Institute - Американский институт национальных стандартов). Графический интерфейс Windows реализует векторный принцип отображения данных на экране дисплея, что позволяет использовать масштабируемые шрифты True Type. По сравнению с таблицей ASCII в ANSI изменилось размещение символов и отсутствуют символы псевдографики, так как в графическом интерфейсе они не нужны. С учетом успехов фирмы Microsoft в продажах на российском рынке своего программного обеспечения, фирмой была разработана русская кодовая страница CP-1251 (Windows-1251), получившая широкое признание и ставшая стандартом de facto.

Кодировка ISO-8859 (кодировка фирмы Sun), хотя и принята в качестве стандарта ГОСТа, но практически в стандартных приложениях не применяется.

Обилие кодовых страниц привело к трудностям адекватного воспроизведения текстовой информации, разработке различных программ-перекодировщиков. Сообщество фирм Unicode предложило новую систему кодирования, основанную на 16-разрядном кодировании символов. В двухбайтовом представлении отпадает необходимость в использовании отдельных кодовых таблиц и их перекодировок. Таблица Unicode позволяет дать уникальный номер любому символу всех национальных алфавитов (символов). Для компенсации возрастающих объемов памяти под программные продукты, представленные в Unicode, при хранении и пересылках файлов применяются процедуры "сжатия" (архивации) данных. Этот стандарт приобретает все большую популярность.