Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
informatika_1_kurs_otvety_k_ekzamenu.doc
Скачиваний:
23
Добавлен:
14.04.2019
Размер:
1.32 Mб
Скачать

9. Кодирование информации. Кодовая таблица. Система кодирования ascii. Система кодирования unicode.

Кодирование информации в компьютере

Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1). Такое кодирование принято называть двоичным, а сами логические последовательности нулей и единиц - машинным языком. Каждая цифра машинного двоичного кода несет количество информации равное одному биту. Данный вывод можно сделать, рассматривая цифры машинного алфавита, как равновероятные события. При записи двоичной цифры можно реализовать выбор только одного из двух возможных состояний, а, значит, она несет количество информации равное 1 бит. Следовательно, две цифры несут информацию 2 бита, четыре разряда --4 бита и т. д. Чтобы определить количество информации в битах, достаточно определить количество цифр в двоичном машинном коде.

Прямой код совпадает с записью самого числа. В знаковом разряде записывается 0 (знак +) или 1 (знак-), а затем записывается само число.

Обратный код отрицательного числа получается следующим образом: в знаковом разряде записывается единица, а в цифровых разрядах нули

заменяются единицами, а единицы - нулями.

Дополнительный код отрицательного числа получается добавлением

единицы к младшему разряду обратного кода этого числа.

Кодовая таблица - таблица соответствий символов и их компьютерных кодов. В РФ распространены следующие кодировки: WIN1251 (Windows), KOI-8 (Unix), СP866 (DOS), Macintosh, ISO-8859-5 (Unix).

Системы кодирования ASCII. Быстрое развитие коммуникационных средств и технологий для обработки данных в первой половине XX-го века в США сделало очевидной необходимость в создании стандартной системы кодирования для обмена текстовой информацией. Эта система должна была обеспечивать представление всего того набора символов, что имеется в англоязычной пишущей машинке. Американская стандартизирующая ассоциация , ASA, которая позднее сменила название на занялась изучением этой проблемы в конце 1950-х гг. и в конце концов пришла к заключению, что система кодирования, в которой используется 7-битный метод кодирования - когда для представления каждого из символов используется двоичная последовательность длиною в 7 бит, - устраняет необходимость в "сдвиге", используемом в системе кодирования Бодо. Поэтому использования 7-битного метода кодирования будет достаточно для достижения поставленной цели.

В 1963-м году ASA предложила систему кодирования ASCII (American Standard Code for Information Interchange), которая изначально называлась, очевидно, ANSCII (American National Standard Code for Information Interchange). В любом случае, в таблице символов, используемой в системе кодирования ASCII, в том виде, в каком она была заявлена в 1963-м, оставалось много зарезервированных позиций, в том числе для строчных латинских букв, которые на тот момент были пустыми.

Только в 1968-м году они были заполнены, и тогда система кодирования ASCII, в таблице символов которой было 128 позиций - для 32-х управляющих двоичных последовательностей и 96-ти печатаемых символов, - приняла свой окончательный вид, в котором она используется в настоящее время. Более того, несмотря на то, что система кодирования ASCII специально разрабатывалась так, чтобы избежать необходимости в "сдвиге", в её таблицу символов были включены управляющие двоичные последовательности для его обеспечения - в частности, SI (SHIFT IN ) и SO (SHIFT OUT ) для "фиксированного сдвига", а также ES (ESCAPE ) для "нефиксированного сдвига.

Очевидно, управляющий символ SI "эквивалентен" нажатию клавиши фиксатора, SO - повторному её нажатию, то есть снятию с фиксатора. ES, очевидно, можно сравнить с нажатием и удержанием в течение некоторого времени клавиши перевода на верхний регистр без использования фиксатора.

Система кодирования ASCII была принята всеми изготовителями компьютеров в США за исключением корпорации IBM, которая разработала собственную "фирменную" систему кодирования символов для использования в своих больших ЭВМ. А поскольку американские производители компьютеров были в то время крупнейшими поставщиками компьютеров в мире, система кодирования ASCII немедленно стала международным стандартом. Это вызвало необходимость адаптировать систему кодирования ASCII для других языков, использующих латинский алфавит. Эта работа была проделана Международной организацией по стандартизации (ISO), базирующейся в Женеве, Швейцария.

В 1967-м году была выпущена рекомендация ISO 646. Таблица символов, используемая в системе кодирования ASCII, была также использована в качестве базовой при создании 7-битных таблиц символов для языков, не использующих латинский алфавит, например, арабского и греческого*.

В 1969-м году она была сделана основой таблицы символов для японского языка, определённой стандартом JIS. На данный момент существует в общей сложности порядка 180 таблиц символов для различных языков.

Юнико́д (Unicode) — стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков.

Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода», объединяющей крупнейшие IT-корпорации. Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становятся ненужными кодовые страницы.

Стандарт состоит из двух основных разделов: универсальный набор символов (Universal Character Set) и семейство кодировок (Unicode Transformation Format). Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.

Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены коды от U+0400 до U+052F.

Система кодирования Unicode.Универсальная система кодирования (Юникод) представляет собой набор графических символов и способ их кодирования для компьютерной обработки текстовых данных.

Графические символы — это символы, имеющие видимое изображение. Графическим символам противопоставляются управляющие символы и символы форматирования. Графические символы включают в себя следующие группы:

буквы, содержащиеся хотя бы в одном из обслуживаемых алфавитов; цифры; знаки пунктуации; специальные знаки (математические, технические, идеограммы и пр.); разделители.

Юникод — это система для линейного представления текста. Символы, имеющие дополнительные над- или подстрочные элементы, могут быть представлены в виде построенной по определённым правилам последовательности кодов (составной вариант) или в виде единого символа (монолитный вариант).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]