Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3 Об SGML и HTML.doc
Скачиваний:
2
Добавлен:
22.11.2019
Размер:
330.75 Кб
Скачать

4.3 Тип содержания "text/html"

Документы HTML посылаемые по Интернет как последовательность байт сопровождаются кодировочной информацией (описанной в разделе "символьные кодировки"). Структура передачи, обозначенная термином "сущность сообщения", определена в [RFC2045] и [RFC2068]. Сущность сообщения с типом содержания "text/html" представляет документ HTML.

Тип содержания для документа HTML определяется как следующее:

Имя типа содержания:

text

Имя подтипа содержания:

html

Требуемые параметры:

отсутствуют

Необязательные параметры:

charset

Кодировочные соображения:

допустима любая кодировка.

Соображения безопасности:

Смотрите "Примечание о безопасности".

Необязательный параметр "charset" ссылается на символьную кодировку, используемую для представления документа HTML как последовательность байт. Допустимые значения этого параметра определены в разделе "символьные кодировки". Несмотря на то, что этот параметр необязателен, мы рекомендуем всегда его использовать.

5 Представление документа html

Содержание

  1. Набор символов документа

  2. Символьные кодировки

    1. Выбор кодировки

      • "Примечание о специфических кодировках"

    2. Указание символьной кодировки

  3. Символьные ссылки

    1. Числовые символьные ссылки

    2. Символьные сущностные ссылки

  4. Неотображаемые символы

В этой главе мы обсудим то, как документы HTML представлены в ЭВМ и в Интернет.

Раздел "набор символов документа" раскрывает вопрос, как абстрактные символы могут быть частью документа HTML. Символы включают латинскую букву "A", букву "Й" из Кириллицы, Китайский символ означающий "Вода" и т.п.

Раздел "символьные кодировки" раскрывает вопрос, как те же самые символы могут быть представлены в файле или при их передаче через Интернет. Так как несколько символьных кодировок не в состоянии непосредственно представить все символы, которые авторы могут пожелать включить в свои документы, HTML предлагает механизмы, называемые "символьными ссылками", для организации ссылок на любой символ.

Так как в человеческих языках существует огромное множество символов и обилие способов представления этих символов, следует подобрать подходящий способ, таким образом, чтобы документы могли бы быть поняты средствами просмотра в любой точке Земного шара.

5.1 Набор символов документа

В целях способствования возможности взаимодействия, SGML требует, чтобы каждое приложение (включая HTML), описывало свой "набор символов документа". Набор символов документа состоит из:

  • Репертуара: Набора абстрактных символов, таких как латинская буква "A", буква "Й" из Кириллицы, Китайский символ, означающий "вода" и т.п.

  • Кодовых позиций: Набора целочисленных ссылок на символы в репертуаре.

Каждый документ SGML (включая и каждый документ HTML), является последовательностью символов из репертуара. Компьютерные системы идентифицируют каждый символ по его кодовой позиции (например, в наборе символов ASCII кодовые позиции 65, 66 и 67 соответственно ссылаются на символы 'A', 'B' и 'C').

Набор символов ASCII не достаточен для глобальных информационных систем, таких, как Web. Отсюда -- HTML использует более полный набор символов, называемый Универсальным Набором Символов (Universal Character Set, UCS), описанный в [ISO10646]. Этот стандарт определяет репертуар из тысяч символов, используемых всеми нациями мира.

Набор символов, описанный в [ISO10646], является "Символ в Символ" эквивалентом кодировке "Unicode 2.0" ([UNICODE]). Оба эти стандарта время от времени обновляются новыми символами и все коррективы должны быть согласованы с соответствующими Web- узлами. В данной спецификации, ссылки на ISO/IEC-10646 или Unicode, подразумевают именно эти символьные кодировки. Однако, данная спецификация HTML ссылается на спецификацию Unicode также по поводу других вопросов, например таких, как двунаправленные текстовые алгоритмы.

Тем не менее, алфавит документа не достаточен для того, что бы позволить средствам просмотра корректно интерпретировать документы HTML в том виде, в котором они, как правило, передаются -- кодированными, как последовательность байт в файле или при передаче по сети. Средство просмотра также должно поддерживать особые символьные кодировки, которые использовались для преобразования потока символов конкретного документа в поток байтов.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]