Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теория информации - курс лекций.doc
Скачиваний:
432
Добавлен:
13.03.2015
Размер:
4.65 Mб
Скачать

2. Международные системы байтового кодирования текстовых данных. Универсальная система кодирования текстовых данных

Для успешной работы с информацией недостаточно только условиться о длине кода. Ясно, что способов кодирования, то есть вариантов сопоставления знакам первичного алфавита восьмибитных цепочек очень много. По этой причине для совместимости технических устройств и обеспечения возможности обмена информацией между многими потребителями требуется согласование кодов. Подобное согласование осуществляется в форме стандартизации кодовых таблиц.

Первым таким международным стандартом, который применялся на больших вычислительных машинах, был EBCDIC(ExtendedBinaryCodedDecimalInterchangeCode) – «расширенная двоичная кодировка десятичного кода обмена». Эта система кодирования исторически тяготеет к «большим» машинам.

В персональных компьютерах и телекоммуникационных системах применяется международный байтовый код ASCII(AmericanStandardCodeforInformationInterchange) – «американский стандартный код обмена информацией», разработанный в 1963 году. В своей первоначальной версии это – система семибитного кодирования. Она ограничивалась одним естественным алфавитом (английским), цифрами и набором различных символов, включая «символы пишущей машинки» (привычные знаки препинания, знаки математических действий и др.). В следующей версии фирмаIBMперешла на расширенную 8-битную кодировку.

В первой половине кодовой таблицы ASCII(номера кодов от 0 до 127) первый бит всех кодов 0. В эту часть кодовой таблицыASCIIвходят коды прописных и строчных английских букв, цифры, знаки препинания и знаки математических операций, а также некоторые управляющие коды (номера этих кодов от 0 до 31), вырабатываемые при использовании клавиатуры.

В табл. 15приведены некоторыеASCII-коды:

Табл. 15. Примеры ASCII-кодов

Знак,

Клавиша

Код двоичный

Код десятичный

Знак,

клавиша

Код двоичный

Код десятичный

A (лат)

01000001

65

1

00110001

49

B (лат)

01000010

66

9

00111001

57

Z

01011010

90

[Esc]

00011011

27

0

00110000

48

[Enter]

00001101

13

Вторая часть кодовой таблицы ASCII– она считается расширением основной – охватывает коды в интервале от 128 до 255 (первый бит этих кодов 1). Вторая часть кодовой таблицыASCIIиспользуется для представления символов национальных алфавитов (например, русского), а также символов псевдографики. С помощью символов псевдографики можно создавать таблицы, несложные схемы и др.

Для второй части кодовой таблицы ASCIIтакже имеются стандарты, например, для символов русского языка. Для представления букв русского языка (кириллицы) в рамках кодаASCIIбыло предложено несколько версий. Первоначально был разработан ГОСТ под названиемКОИ-7(код обмена информацией, семизначный), оказавшийся по ряду причин неудачным; ныне он практически не используется.

Как в основной части кодовой таблицы, так и в ее расширении коды букв и цифр соответствуют их лексикографическому порядку (то есть порядку следования в алфавите) – это обеспечивает возможность автоматизации обработки текстов и ускоряет ее.

Для кодирования символов русского языка также существует код Windows-1251. Эта кодировка была введена компаниейMicrosoft. Учитывая распространение операционных систем и других продуктов этой компании в России, она глубоко закрепилась и нашла широкое распространение. Эта кодировка используется на большинстве локальных компьютеров, работающих на платформеWindows.

Другая распространенная кодировка русских символов носит название КОИ-8(код обмена информацией, восьмизначный). Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в Российском секторе глобальной сетиInternet.

Существует международный стандарт, в котором предусмотрена кодировка символов русского алфавита. Этот стандарт кодировки называется ISO(InternationalStandardOrganization– Международный институт стандартизации). На практике данная кодировка используется редко.

На компьютерах, работающих в операционных системах MS-DOS, могут действовать еще две кодировки (кодировкаГОСТи кодировкаГОСТ-альтернативная). Первая из них считалась устаревшей даже в годы появления персональной вычислительной техники, но вторая используется и по сей день.

В настоящее время появился и находит все более широкое применение еще один международный стандарт кодировки – Unicode. Его особенность в том, что в нем использовано 16-битное кодирование, то есть для представления каждого символа отводится 2 байта. Такая длина кода обеспечивает включение в первичный (здесь – компьютерный) алфавит 65536 знаков. Это, в свою очередь, позволяет создать и использовать единую для всех распространенных алфавитов кодовую таблицу.

Переход на данную систему кодирования долгое время сдерживался из-за недостаточности ресурсов средств вычислительной техники (в системе кодирования Unicodeвсе текстовые документы автоматически становятся вдвое длиннее). Во второй половине 90-х годов технические средства достигли необходимого уровня обеспеченности ресурсами, и сегодня мы наблюдаем перевод документов и программных средств на универсальную систему кодирования (Unicode).