Скачиваний:
98
Добавлен:
21.01.2014
Размер:
470.02 Кб
Скачать

3.3.1. Стандарты кодирования символов ascii, ansi, кои-8 и unicode

Представление символов в электронных изданиях базируется на таблицах кодов, в которых каждому из отображаемых на экране символов соответствует код от 0 до 255. Первые 127 кодовых комбинаций используются для латинских букв и цифр, знаков пунктуации и т. д. и, как правило, строятся по единому принципу.

Стандарт представления символов ASCII - это 7-битовое описание кода символа. Поскольку в персональных компьютерах используются байты, состоящие из 8 бит, производители компьютеров часто определяют наборы символов, использующие 256 кодов вместо 128 кодов ASCII. В результате получается «расширенный набор символов» (extended character set), который включает в себя набор символов ASCII и до 128 других символов.

Расширенный набор символов, который Windows и программы для Windows в большинстве случаев используют, называется набор символов ANSI (ANSI character set), фактически он является международным стандартом ISO. Кодовая таблица стандарта ANSI представлена на рис. 3.2.

В нашей стране кодовые комбинации начиная со 128 используются для кодирования символов кириллицы, математических символов и другой информации. Причем для каждой платформы используется свое расположение символов в кодовой таблице. Так, известны кодировки Windows, Mac, DOS-OS/2, ISO (Dec) и КОИ-8. Поэтому приходится осуществлять перекодировки символов кириллицы электронных изданий в зависимости от используемой платформы.

Стандарт кодировки символов UNICODE. Стандарт Unicode был предложен некоммерческой организацией Unicode Consortium, образованной в 1991 г. Для представления каждого символа в этом стандарте используются два байта: один байт для кодирования символа, другой для кодирования признака. Тем самым обеспечивается информационная совместимость данного способа кодирования со стандартом ASСII.

Двухбайтовое описание кодов символов позволяет закодировать очень большое число символов из различных письменностей. Так, в документах Unicode могут соседствовать русские, латинские, греческие буквы, китайские иероглифы и математические символы.

Кодовое пространство Unicode разделено на несколько областей. Область с кодами от 0000 до 007F содержит символы набора Latin 1 (младшие байты соответствуют кодировке ISO 8859-1). Далее идут области, в которых расположены знаки различных письменностей, а также знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем (29000). 6000 кодовых комбинаций оставлено программистам.

3.3.2. Формат pdf

Формат PDF (Portable Document Format) - переносимый формат документов, разработанный компанией Adobe Systems, используется как основа для создания электронных изданий в среде программного пакета Adobe Acrobat. Формат PDF - это файловый текстовой формат, предназначенный для представления публикаций или других документов на любой аппаратной платформе и в любой операционной среде. PDF-файл содержит PDF-публикацию и специальные данные.

PDF-публикация (документ) содержит одну или более страниц. Каждая страница может включать любые компоненты электронного издания: текст, графику и иллюстрации, анимацию, видео- и аудиоинформацию в аппаратно-независимом формате, в виде так называемого страничного описания (page description). PDF-публикация может также содержать информацию, обеспечивающую навигацию в гипертекстовой электронной публикации.

Характерными особенностями PDF-файла являются:

PDF-файл может содержать объекты, подобные гипертекстовым ссылкам, доступные только при интерактивном просмотре;

для упрощения процесса описания страниц PDF не использует конструкции программных языков;

PDF создает определенную структуру файла, которая позволяет программным приложениям иметь доступ к любой части документа;

PDF файл содержит информацию о размерах шрифта и т.п.;

PDF-файл не может быть прямо преобразован в PostScript-публикацию для печати;

PDF-файл строится на основе либо 7-битового ASCII-файла, либо на базе бинарного файла. Если это ASCII-файл, в нем используются только печатные символы 7-битового ASCII-кода, пробел, табуляция, возврат каретки и перевод строки. В случае бинарного файла могут быть использованы все символы 8-битового кода. Считается, что ASCII-код - наиболее удобный для переноса вид кодировки.

Для уменьшения размера файла PDF использует различные методы сжатия изображений:

JPEG - для полноцветных иллюстраций и изображений в градациях серой шкалы;

CCITT - для черно-белых изображений;

LZW - для компрессии и декомпрессии текстового материала.

Обычный PDF-файл содержит четыре раздела:

заголовок (header);

«тело файла» (body);

таблицу перекрестных ссылок (cross-reference table);

trailer.