Кодирование текстовых данных

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Брянский государственный университет им. академика И.Г. Петровского

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Лекция№2 Кодирование информации.doc

Скачиваний:

Добавлен:

18.12.2018

Размер:

116.22 Кб

Скачать

☆

<<< < Предыдущая 12 / 52 3 4 5 > Следующая >>>

Кодирование текстовых данных

Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации.

Традиционно для кодирования одного символа используется количество информации = 1 байту (1 байт = 8 битов).

Для кодирования одного символа требуется один байт информации.

Учитывая, что каждый бит принимает значение 1 или 0, получаем, что с помощью 1 байта можно закодировать 2⁸⁼256 различных символов.

Кодирование заключается в том, что каждому символу ставится в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255).

Важно, что присвоение символу конкретного кода – это вопрос соглашения, которое фиксируется кодовой таблицей.

Таблица кодировки

Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется таблицей кодировки.

Для разных типов ЭВМ используются различные кодировки. С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standart Code for Information Interchange) – Американский стандартный код для информационного обмена.

Таблица кодировки ASCII.

Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 (00000000) до 127 (0111111). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы.

Остальные 128 кодов (с 128 по 255) используются в разных вариантах. В русских кодировках размещаются символы русского алфавита.

Символ	Двоичный код	Символ	Двоичный код	Символ	Двоичный код	Символ	Двоичный код
А	10000000	И	10001000	Р	10010000	Ш	10011000
Б	10000001	Й	10001001	С	10010001	Щ	10011001
В	10000010	К	10001010	Т	10010010	Ъ	10011010
Г	10000011	Л	10001011	У	10010011	Ы	10011011
Д	10000100	М	10001100	Ф	10010100	Ь	10011100
Е	10000101	Н	10001101	Х	10010101	Э	10011101
Ж	10000110	О	10001110	Ц	10010110	Ю	10011110
З	10000111	П	10001111	Ч	10010111	Я	10011111

Отсутствие стандартов в этой области привело к множественности одновременно действующих кодировок. Так, например, кодировка символов русского алфавита, известная как кодировка Windows-1251, была введена «извне» – компанией Microsoft, но учитывая широкое распространение операционных систем и других продуктов этой компании на постсоветском пространстве, она глубоко закрепилась и нашла широкое распространение.

В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ-7, КОИ-8, СР1251, СР866, Mac, ISO).

КОИ – код обмена информации семизначный (восьмизначный).

СР – Code Page (кодовая страница).

В настоящее время получил широкое распространение новый международный стандарт Unicode – универсальная система кодирования, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (2¹⁶= 65536) различных символов.

<<< < Предыдущая 12 / 52 3 4 5 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
18.12.2018104.45 Кб157Лекция№10 Антивирусные программы.doc
#
18.12.201862.98 Кб18Лекция№11 Средства коммуникации.doc
#
29.07.2019183.81 Кб40Лекция№13 Табличные процессоры. Табличный проце....doc
#
18.12.201882.94 Кб19Лекция№14 Основные понятия баз данных.doc
#
18.12.2018322.56 Кб19Лекция№16 Публикация WEB-документов.doc
#
18.12.2018116.22 Кб36Лекция№2 Кодирование информации.doc
#
18.12.2018137.22 Кб61Лекция№3 Поколения и классификация ЭВМ.doc
#
25.11.2019740.35 Кб12ЛЕКЦИЯ№3_С++(массивы&указатели).doc
#
18.12.2018405.5 Кб15Лекция№4 Типовой комплект персонального компьют....doc
#
29.07.2019171.52 Кб10Лекция№5 Типовой комплект персонального компьют....doc
#
18.12.2018116.74 Кб73Лекция№6 Программный принцип управления компьют....doc