Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Учебное пособие.doc
Скачиваний:
96
Добавлен:
03.05.2015
Размер:
2.04 Mб
Скачать

2.4. Представление символьных данных

Все множество символьных данных можно разделить на символы, символьные строки и текстовые документы. Двоичное кодирование символьных данных осуществляется с помощью кодовых таблиц, ста­вящих в соответствие каждому символу одно- или двухбайтовый код. Задача интер­претации кодов затруднена тем, что для каждого языка, как правило, су­ществуют несколько кодовых таблиц. Обусловлено это тем, что кодировки разрабатывались в разные времена в разных странах. Рассмотрим наиболее распространенные кодовые таблицы.

Кодовая таблица АSСП (American Standart Code for Information Interchange) разработана институтом стандартизации США в 1981 г. Для хранения каждого символа в ASCII используется восемь бит или один байт, что позволяет закодировать 28 = 256 различ­ных символов. Первоначально таблица состояла из 128 элементов, отображающих специальные управляющие знаки, такие как перевод строки, про­бел, табуляция и т. д., спецсимволы, знаки арифметических действий, знаки препинания, цифры и буквы латинского алфавита. Эта часть таблицы (с 0 по 127 элемент) получила название основной, или базовой. Старший разряд каждой восьмибитовой последовательности не использовался и был равен нулю. Использование старшего бита позволило кодировать при помощи АSСП символы национальных языков и среди них — кириллицы. Эта часть таблицы (с 128 по 255 элемент) называется расширенной, или дополнительной. АSСП является родоначальником класса так называемых «однобайтовых» кодировок - первые 128 элементов всех современных однобайтовых кодировок полностью совпа­дают с последовательностью элементов АSСП.

Кодировка КОI8 (код обмена информации восьмибитовый) была разработана в середине семидесятых годов специалистами одного из советских НИИ. Кодировка КОI8 была принята Госстандартом СССР в качестве базовой спецификации для обмена электронными документами на русском языке и ей было присвоено соответствие стандарту ГОСТ 19768-74. На сегодняшний день КОI является одной из основных кодировок для серверов, работающих на базе платформы UNIX (например, для http-сервера Арасhе), и широко используется в качестве принятого в российском Интернете формата для сообщений электронной почты. После развала Советского Союза КОI8 преобразовалась в две отдельные кодовые таблицы КОI8-R и КОI8-U, использующиеся для представления символов русского и украинского языков.

Кодировка Windows-1251 была разработана компанией Microsoft. Она получила широкое распространение благодаря популярности операционной системы Microsoft Windows и http-сервера IIS(Internet Information Server).

Кодовые таблицы серии ISO-8859 были разработаны Международной организацией по стандарти­зации (International Standards Organization) с целью унификации представления символов национальных языков в электронной форме. ISO была создана система кодировок серии 8859, каждая из которых предназначена для отображения символов того или иного национального алфавита: для русского ISO-8859-5, для латинского алфавита ISO-8859-1, для арабского ISO-8859-6 и т.д.

Кодировка Macintosh CP (MAC) создавалась в расчете на персональные компьютеры Арр1е Macintosh, работающие под управлением операционной системой МасОS.

Кодировка Unicode и ее разновидность UTF-8 были разработаны с целью объединения всех существу­ющих национальных кодировок в одну. В этих кодовых таблицах для ото­бражения каждого символа используется два байта, что позволяет описать 65 536 символов, а не 256, как ранее. В их число входят цифры, буквы латинского и многих национальных алфа­витов, спецсимволы, знаки арифметических операций и т.д. Кодировка Unicode используется в качестве основной кодировки в операционной системе Microsoft Windows ХР. Все документы в кодировке Unicode вдвое длиннее, что сначала затрудняло ее внедрение.

Символьные строки, по-другому называемые текстовыми, представляют собой последовательность символов. По характеру своего содержания они могут быть как произвольными наборами символов, используемыми, например, в качестве паролей или названий переменных в программировании, так и осмысленными словами и даже целыми текстами. Символьная строка характеризуется длиной - количеством содержащихся в ней символов. Представление символьной строки для компьютерной обработки может быть реализовано в виде набора данных, в начале которого записана длина строки, а затем – само содержание строки.

Текстовые документы являются одним из главных источников информации. Простейшим способом представления текстового документа является символьная строка. Однако не структурированный на логические фрагменты документ, представленный в виде сплошного текста, труден для восприятия. Для облегчения восприятия документа при его отображении используются шрифты различных типов и цветов, текст докумен­та разбивается на абзацы, параграфы, главы. Структурирование текста - взаимное расположение его частей при отображении на экране монитора или печати в специальном виде, удобном для пользователя, называется форматированием. Форматирование текста осуществляется с помощью управляющих символов - тегов, по-другому называемых маркерами, которые хранятся в наборе данных вместе с основным текстом. Обрабатывающие текстовые документы программы форматируют тексты, считывая и обрабатывая теги разметки.