2.4. Представление символьных данных

Все множество символьных данных можно разделить на символы, символьные строки и текстовые документы. Двоичное кодирование символьных данных осуществляется с помощью кодовых таблиц, ставящих в соответствие каждому символу одно- или двухбайтовый код. Задача интерпретации кодов затруднена тем, что для каждого языка, как правило, существуют несколько кодовых таблиц. Обусловлено это тем, что кодировки разрабатывались в разные времена в разных странах. Рассмотрим наиболее распространенные кодовые таблицы.

Кодовая таблица АSСП (American Standart Code for Information Interchange) разработана институтом стандартизации США в 1981 г. Для хранения каждого символа в ASCII используется восемь бит или один байт, что позволяет закодировать 2⁸ = 256 различных символов. Первоначально таблица состояла из 128 элементов, отображающих специальные управляющие знаки, такие как перевод строки, пробел, табуляция и т. д., спецсимволы, знаки арифметических действий, знаки препинания, цифры и буквы латинского алфавита. Эта часть таблицы (с 0 по 127 элемент) получила название основной, или базовой. Старший разряд каждой восьмибитовой последовательности не использовался и был равен нулю. Использование старшего бита позволило кодировать при помощи АSСП символы национальных языков и среди них — кириллицы. Эта часть таблицы (с 128 по 255 элемент) называется расширенной, или дополнительной. АSСП является родоначальником класса так называемых «однобайтовых» кодировок - первые 128 элементов всех современных однобайтовых кодировок полностью совпадают с последовательностью элементов АSСП.

Кодировка КОI8 (код обмена информации восьмибитовый) была разработана в середине семидесятых годов специалистами одного из советских НИИ. Кодировка КОI8 была принята Госстандартом СССР в качестве базовой спецификации для обмена электронными документами на русском языке и ей было присвоено соответствие стандарту ГОСТ 19768-74. На сегодняшний день КОI является одной из основных кодировок для серверов, работающих на базе платформы UNIX (например, для http-сервера Арасhе), и широко используется в качестве принятого в российском Интернете формата для сообщений электронной почты. После развала Советского Союза КОI8 преобразовалась в две отдельные кодовые таблицы КОI8-R и КОI8-U, использующиеся для представления символов русского и украинского языков.

Кодировка Windows-1251 была разработана компанией Microsoft. Она получила широкое распространение благодаря популярности операционной системы Microsoft Windows и http-сервера IIS(Internet Information Server).

Кодовые таблицы серии ISO-8859 были разработаны Международной организацией по стандартизации (International Standards Organization) с целью унификации представления символов национальных языков в электронной форме. ISO была создана система кодировок серии 8859, каждая из которых предназначена для отображения символов того или иного национального алфавита: для русского ISO-8859-5, для латинского алфавита ISO-8859-1, для арабского ISO-8859-6 и т.д.

Кодировка Macintosh CP (MAC) создавалась в расчете на персональные компьютеры Арр1е Macintosh, работающие под управлением операционной системой МасОS.

Кодировка Unicode и ее разновидность UTF-8 были разработаны с целью объединения всех существующих национальных кодировок в одну. В этих кодовых таблицах для отображения каждого символа используется два байта, что позволяет описать 65 536 символов, а не 256, как ранее. В их число входят цифры, буквы латинского и многих национальных алфавитов, спецсимволы, знаки арифметических операций и т.д. Кодировка Unicode используется в качестве основной кодировки в операционной системе Microsoft Windows ХР. Все документы в кодировке Unicode вдвое длиннее, что сначала затрудняло ее внедрение.

Символьные строки, по-другому называемые текстовыми, представляют собой последовательность символов. По характеру своего содержания они могут быть как произвольными наборами символов, используемыми, например, в качестве паролей или названий переменных в программировании, так и осмысленными словами и даже целыми текстами. Символьная строка характеризуется длиной - количеством содержащихся в ней символов. Представление символьной строки для компьютерной обработки может быть реализовано в виде набора данных, в начале которого записана длина строки, а затем – само содержание строки.

Текстовые документы являются одним из главных источников информации. Простейшим способом представления текстового документа является символьная строка. Однако не структурированный на логические фрагменты документ, представленный в виде сплошного текста, труден для восприятия. Для облегчения восприятия документа при его отображении используются шрифты различных типов и цветов, текст документа разбивается на абзацы, параграфы, главы. Структурирование текста - взаимное расположение его частей при отображении на экране монитора или печати в специальном виде, удобном для пользователя, называется форматированием. Форматирование текста осуществляется с помощью управляющих символов - тегов, по-другому называемых маркерами, которые хранятся в наборе данных вместе с основным текстом. Обрабатывающие текстовые документы программы форматируют тексты, считывая и обрабатывая теги разметки.

<<< < Предыдущая 1 2 3 4 5 6 78 / 578 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.05.2015149.5 Кб7тесты-психофизиология дайвинга без ключей.doc
#
19.09.2019308.74 Кб10тим фк 3.doc
#
03.05.2015339.36 Кб157тренажёры в спорте.rtf
#
21.04.2019210.94 Кб9ТФК-материал.doc
#
15.11.2019988.67 Кб22Учебное пособие Омск 2010 Рецензенты.doc
#
03.05.20152.04 Mб96Учебное пособие.doc
#
21.12.2018572.85 Кб13ФГОУ СПО ОМСКИЙ СЕЛЬСКОХОЗЯЙСТВЕННЫЙ ТЕХНИКУМ.docx
#
03.05.2015170.57 Кб27физика.rtf
#
03.05.2015428.03 Кб30Физиология, сп.мед.doc
#
03.05.2015118.78 Кб21философия семинары.doc
#
03.05.2015398.85 Кб1691Философия.doc