Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Архив1 / doc92 / 5_классификация СППИ.doc
Скачиваний:
21
Добавлен:
03.08.2013
Размер:
269.31 Кб
Скачать

Национальные варианты ascii

Стандарт ISO 646 (ECMA-6) предусматривает возможность размещения национальных символов на месте @ [ \ ] ^ ` { | } ~. В дополнение к этому, на месте # может быть размещён £, а на месте $ — ¤. Такая система хорошо подходит для европейских языков, где нужны лишь несколько дополнительных символов. Вариант ASCII без национальных символов называется US-ASCII, или «International Reference Version».

Для некоторых языковс нелатинскойписьменностью(русского,греческого,арабского,иврита) существовали более радикальные модификации ASCII. Одним из вариантов был отказ от строчных латинских букв — на их месте размещались национальные символы (для русского и греческого — только заглавные буквы). Другой вариант — переключение между US-ASCII и национальным вариантом «на лету» с помощью символов SO (Shift Out) и SI (Shift In) — в этом случае в национальном варианте можно полностью устранить латинские буквы и занять всё пространство под свои символы.

Впоследствии оказалось удобнее использовать 8-битныекодировки (кодовые страницы), где нижнюю половину кодовой таблицы (0—127) занимают символы US-ASCII, а верхнюю (128—255) — разные другие нужные символы. ВЮникодепервые 128 символов тоже совпадают с соответствующими символами US-ASCII. В настоящее время национальные 7-битные кодировки уже прочно забыты, и «ASCII» практически всегда означает «US-ASCII».

Структурные свойства таблицы

Цифры 0—9 представляются своими двоичными значениями (например, 5=01012), перед которыми стоит 00112. Таким образом,двоично-десятичные числа(BCD) превращаются в ASCII-строку с помощью простого добавления слева 00112к каждому двоично-десятичному полубайту.

Буквы верхнего и нижнего регистров различаются в своём представлении только одним битом, что упрощает преобразование регистра и проверку на диапазон.

Юникод

Юнико́д, или Унико́д (англ.Unicode) — стандарткодированиясимволов, позволяющий представить знаки практически всех письменныхязыков.

Стандарт предложен в 1991 годунекоммерческой организацией «Консорциум Юникода» (англ.Unicode Consortium), объединяющей крупнейшиеIT-корпорации. Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайскиеиероглифы, математические символы, буквыгреческого алфавита,латиницыикириллицы, при этом становятся ненужнымикодовые страницы.

Стандарт состоит из двух основных разделов: универсальный набор символов (UCS, Universal Character Set) и семейство кодировок (UTF, Unicode Transformation Format). Универсальный набор символов задаёт однозначное соответствие символов кодам— элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.

Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCIIс соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F.

Соседние файлы в папке doc92