Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3 Об SGML и HTML.doc
Скачиваний:
2
Добавлен:
22.11.2019
Размер:
330.75 Кб
Скачать

5.2 Символьные кодировки

То, что в данной спецификации называется "символьные кодировки" известно в других спецификациях под другими именами (это может стать причиной некоторой путаницы). Однако данная концепция в значительной степени типична для Интернет в целом. Таким же образом, заголовки протоколов, атрибутов и параметров ссылаются на символьные кодировки, имеющие то же самое имя -- "charset" -- и используют такие же значения из реестра [IANA] (смотрите полный список в [CHARSETS]).

Параметр "charset" определяет "символьную кодировку", которая является методом конвертирования последовательности байт в последовательность символов. Эта конверсия естественным образом подходит к схеме активности Сети: серверы посылают документы HTML средствам просмотра в виде потока байт; средства просмотра интерпретирует их как последовательность символов. Метод конверсии может простираться от простого соответствия "один к одному" до комплексного переключения схем или алгоритмов.

Простая технология кодирования "один байт -- один символ" не достаточна для текстовых строк относительно символьного репертуара описанного в [ISO10646]. Имеется несколько различных кодировок, являющихся частью [ISO10646] в дополнении к кодировкам вхождений набора символов (таких как UCS-4).

5.2.1 Выбор кодировки

Авторские инструменты (например, текстовые процессоры) могут кодировать документы HTML в символьных кодировках по их выбору, и выбор, в значительной степени, зависит от соглашений, используемых системным программным обеспечением. Эти инструменты могут применяться в любых удобных кодировках, которые "перекрывают" большинство символов, содержащихся в документе, предусмотренные кодировки корректно отмечены. Случайные символы, которые выпадают из конкретной кодировки, все равно могут быть представлены символьными ссылками. Последние всегда ссылаются на алфавит документа, а не на символьную кодировку.

Cерверы и прокси- серверы могут изменять кодировку документа на лету (это называется перекодировкой), встречая запросы от средств просмотра (смотрите раздел 14.2 в [RFC2068], заголовок "Accept-Charset" запроса HTTP). Серверы и прокси- серверы не будут полезны для документа созданного в символьной кодировке, которая перекрывает весь алфавит документа.

Обычно используемые символьные кодировки в Web включают: ISO-8859-1 (также называемую "Latin-1", применяется для большинства Западно-Европейских языков), ISO-8859-5 (Кириллица), SHIFT_JIS (Японская кодировка), EUC-JP (другая Японская кодировка) и UTF-8 (кодировка ISO 10646, использующая различные номера байт для представления различных символов). Имена кодировок являются нечувствительными к регистру, таким образом, "SHIFT_JIS", "Shift_JIS" и "shift_jis" полностью эквивалентные записи.

Данная спецификация не предписывает, какие кодировки должны поддерживаться средством просмотра.

Согласующиеся средства просмотра должны корректно отображать в Unicode все символы в любой символьной кодировке, которые они (средства) распознают (или должны вести себя так, как будто они их распознают).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]