Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Центральные и переферийные устройства электронно вычислительных средств.pdf
Скачиваний:
274
Добавлен:
02.05.2014
Размер:
6.14 Mб
Скачать

Глава 12. Устройства автоматического считывания текстов

195

серии вправо, положение отсчетов b1 и b2 изменяется по необходимости, и процесс кодирования повторяется для новой серии.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

"Проходной" режим

 

 

 

 

 

 

 

 

 

 

b1

 

 

 

 

 

 

b2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а1

 

 

 

 

 

 

 

 

 

 

а2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

"Вертикальный" режим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

b1

 

 

 

 

b2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а0

 

 

 

 

а1

 

 

 

 

 

 

 

а2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

"Горизонтальный" режим

b1 b2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

а0

 

 

 

 

 

 

 

 

 

а1

 

 

 

 

 

 

а2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 12.10. Схема двумерного кодирования длин серий

Воспроизведение сжатых изображений осуществляется путем декодирования найденного в открываемом архивном файле нужного изображения и высвечивания его на рабочем экране Windows.

12.5. Кодирование текстов для электронных публикаций

При создании файлов электронных версий текущих периодических изданий, книг, препринтов и чисто электронных публикаций в качестве стандарта в данной области выступает протокол TCP/IP и WWW (World Wide Web) сервис Internet, через который осуществляется доступ к информации. Сервис WWW возник в Европе в 1990 году . По данным за 1998 год количество WWW серверов удваивается в среднем каждые три месяца. Первые российские WWW серверы появились в начале 1994 года, к настоящему времени число их превысило тысячу и продолжает расти. В связи с этим возникли проблемы, связанные с представлением на страницах WWW символов из национальных алфавитов и специальных символов, как например, в математических формулах.

Для большинства европейских языков, алфавиты которых созданы на основе латинского, включение в электронные документы дополнительных символов национального алфавита решается с помощью стандарта кодирования UNICODE, в котором используется расширенная кодовая таблица ASCII. В качестве стандарта, принятого ISO, используются 10 расширений кодовой таблицы ISO-8859. В частности, кодовая таблица ISO-8859-5 соответствует кириллическому алфавиту для языков: болгарского, белорусского, македонского, русского, сербского, украинского. Эта кодировка является государственным стандартом. В настоящее время ведется разработка стандартных кодовых таблиц, включающих символы всех языков мира, в том числе китайского и японского.

Однако при передаче электронных версий с русскими кодировками из страны в страну возникают проблемы. Дело в том, что международный кириллический стандарт ISO-8859-5 в нашей стране мало распространен и применяется в основном на различных компьютерах с ОС UNIX и в UNIX-совместимых системах управления базами данных.

Глава 12. Устройства автоматического считывания текстов

196

Широко применяются четыре типа кодовых таблиц (кодовых страниц - charset) ки-

риллицы: КОI8-R, CP866, MACOS и СP1251 (charset=Windows-125 или charset=x-CP1251).

Последний тип кодовой страницы фирмы Microsoft принят в графических системах семейства MS Windows. Кроме них существуют уже совсем забытые кодировки: основная (или болгарская) и ГОСТ.

В разных операционных системах (DOS, UNIX, WINDOWS, MACOS и так далее) внутреннее представление русских букв различается настолько, что текстовый файл, подготовленный в одной из них, не может быть прочитан в другой без перекодировки.

Такое разнообразие кодировок объясняется тем, что в нашей стране количество компьютеров на базе архитектуры, отличной от Intel, составляет лишь доли процента от общего числа компьютеров. И, как следствие этого, в области программного обеспечения мы находимся в условиях экспансии фирмы Microsoft и ее системных продуктов, почему кодировка CP1251 и имеет у нас наиболее широкое распространение.

До тех пор, пока ОС Microsoft работали только в локальных сетях организаций, проблем с совместимостью не возникало. Но после выхода таких продуктов, как MS Windows 95 и MS Windows NT 4.0, продукты этой фирмы вышли в глобальные сети и “силой” навязали пользователям свои стандарты, которые разработчики вынуждены учитывать при создании систем электронных публикаций. Это касается не только русского, но и языков центральной Европы. Разработчики пользовательских оболочек Internet были вынуждены разрабатывать свои средства совместимости (например, программы-просмотрщики) с международными и национальными стандартами, которые не везде работают одинаково хорошо. При переходе с сервера на сервер в Internent необходимо менять настройки просмотрщика; помимо этого теряется возможность копировать фрагменты текста в буфер обмена и переносить их в текстовые процессоры без дополнительной перекодировки. Проблема совместимости сегодня решается на большинстве российских серверов предоставлением пользователю информации во всех кодировках, по крайней мере в KOI8-R и CP1251. Продолжают проводиться дальнейшие работы по нескольким направлениям с целью достижения совместимости, особенно когда в локальной сети находятся клиенты на различных платформах.

Контрольные вопросы к главе 12

1. Что понимается под образом в читающих автоматах?

2.На какие три этапа распадается процесс распознавания образов?

3.Назовите элементную базу считывающих головок.

4.Для чего применяется и в чем заключается стилизация считываемых символов?

5.Что значит термин “кодовое расстояние” и как оно определяется?

6.Какими способами и для чего можно увеличить кодовое расстояние?

7.Как сказывается правильность выбора порога яркости в сканере на достоверности распознавания символа?

8.В чем заключается идентификация считанного символа?

9.Перечислите три основных составляющих искусственного интеллекта и какие из них присущи читающим автоматам.

10.Назовите четыре метода распознавания символов.

11.Каково в среднем время распознавания сканерами одного символа?

12.Какие программные средства поставляются в комплекте со сканерами?

13.По какому методу производится распознавание рукописных символов?

14.Что представляет собой автокорреляционная функция анализируемого символа при считывании?

15.Назовите процент количества ошибок (нераспознанных символов), получаемый на сегодня при распознавании рукописных текстов читающим автоматом

16.В чем состоит сущность сжатия графических изображений рукописного текста по методу сжатого кодирования длин серий (стандартный алгоритм READ)?

17.Какие проблемы возникли с представлением на страницах Internet символов национальных алфавитов и математических формул и как они решаются?

Глава 13. Устройства автоматического ввода изображений

197

Глава 13. УСТРОЙСТВА АВТОМАТИЧЕСКОГО ВВОДА ИЗОБРАЖЕНИЙ

13.1. Устройства автоматического ввода одноконтурных изображений

Устройства автоматического ввода в ЭВМ сложных одноконтурных изображений могут быть использованы при создании геоинформационных атласов, контурных карт, при обработке космических и аэрофотоснимков, при создании чертежей деталей обшивок кораблей, летательных аппаратов и автомобилей, при раскрое дорогостоящих материалов и мехов и в других областях применения, где в качестве исходной информации используются рисунки, чертежи, схемы и другие визуальные изображения, представленные в виде контура, то есть в виде очерчивающей предмет непересекающейся линии. Осуществить ввод таких изображений возможно и с помощью уже рассмотренных сканеров. Но сканеры - стационарное оборудование, временные и аппаратные затраты на ввод сравнительно простых изображений и сцен могут быть неоправданно велики, поэтому продолжают разрабатываться специализированные устройства ввода. В каждом конкретном случае выбирается один из методов ввода; наиболее распространенный из них - метод последовательного выделения и кодирования контуров, иначе называемый методом изопараметрических линий.

Проблема ввода изображений примыкает к рассмотренной ранее проблеме ввода знаков и символов. Отличие состоит лишь в применении более сложных алгоритмов предварительной обработки считанной информации в целях ее сжатия и представления в более компактной форме для дальнейшей переработки, передачи, хранения и воспроизведения.

Рассмотрим метод изопараметрических линий в применении к плоским контурным изображениям. На первом этапе, этапе анализа, изображение раскладывается на элементы с помощью устройства сканирования лазерного луча, подобного рассмотренному в главе, посвященной голографическим устройствам. Возможно также проведение поэлементного разложения с помощью передающей электронно-лучевой трубки (рис.13.1), на экран которой проецируется вводимое контурное изображение

ФС

Фоторезист

 

Н

Uн

К

Uy

Ux

A

Uсчит

t

ОС

 

R

н

 

 

+E a

 

 

Вертик.

Гориз.

 

 

 

Рис. 13.1. Устройство передающей электронно-лучевой трубки

Глава 13. Устройства автоматического ввода изображений

198

Передающая ЭЛТ - это электровакуумный прибор с помещенными внутри колбы (трубки) электродами, контакты которых выведены на наружный цоколь. Подогреваемый электродом накала (Н) катод (К) испускает электроны, которые в виде электронного пучка (луча) направляются в сторону анода (А) под воздействием его высокого потенциала Еа. Электронный пучок сфокусирован с помощью электромагнитного поля фокусирующей системы (ФС), представляющей собой постоянный или электрический магнит. Электронный пучок может перемещаться (“разворачиваться”) а его конец - двигаться по экрану передающей ЭЛТ с помощью отклоняющей системы (ОС). ОС представляет собой либо вертикальную и горизонтальную пары параллельных пластин, расположенных внутри трубки (отклоняющая система электростатического типа, как на рис.13.1), либо пару катушек индуктивности, надетых на трубку (электромагнитная отклоняющая система). В зависимости от формы подаваемых с генераторов развертки отклоняющих напряжений и токов (рис.13.2) луч перемещается либо по строкам, образуя растр наподобие телевизионного, либо сканирует от центра к краям (радиально-круговая развертка), либо по спирали (спиральная развертка).

Ux

Ux

Ux

 

t

 

Uy

Uy

Uy

 

 

 

t

 

а)

б)

в)

Рис. 13.2. Виды разверток ЭЛТ: а - растровая; б - радиально-круговая; в - спиральная

Электронный пучок, достигая точки покрытого фоторезистом экрана, изменяет в этой точке его сопротивление. На сопротивлении нагрузки Rн, включенном последовательно с сопротивлением фоторезистивного слоя, в результате протекания по ним тока, возникает падение напряжения. Если на экран ЭЛТ спроецировать изображение, то сопротивление затемненных и освещенных участков фоторезистивного слоя будет иметь разные значения; при сканировании электронным пучком разноосвещенных участков экрана величина протекающего через сопротивление нагрузки тока также будет разной. С сопротивления нагрузки снимаются импульсы напряжения Uсчит, возникающие в моменты пересечения электронным лучом контура.

Поэлементное разложение и выделение границ одноконтурных изображений осуществляется в полярных координатах с использованием радиально-круговой развертки. Если полюс системы координат поместить в центр тяжести одноконтурного изображения (рис. 13.3), то луч при сканировании по радиусам пересекает контур не более одного раза. Одноконтурное изображение А представляется в виде недвоичного кода

А = А(а1, а2, . . . , аn),

Глава 13. Устройства автоматического ввода изображений

199

где аi - значение длины i-го отсчетного полярного радиуса, n = 360o/γ ,

где γ − шаг

квантования по углу.

 

Рис. 13.3. Одноконтурное изображение Антарктиды, масштаб 1:150000000

 

β =1

β =3

β =500

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 13.4. Стилизация одноконтурных изображений

Если каждую координату - радиус-вектор аi возвести в степень β > 1, то при восстановлении контур претерпит деформацию. Степень деформации зависит от величины β и от формы изображения. Например, при β = 1, 3, 500 вид фигур деформируется, что напоминает стилизацию (рис.13.4). Этот прием помогает сжать информацию, так как число значащих разрядов в коде изображения сокращается, в данном случае до 3 - 5.

На этапе распознавания полученный при считывании код изображения А сравнивается поочередно с кодами эталонов V. При этом производится оценка величины кодового

расстояния

ρ

между характеристическими векторами аi и vi :

 

 

ρ = n

(a i vi )2 ,

 

 

i= 1

 

где аi > 0

и

ei > 0, так как полюс системы координат помещается в центр тяжести

изображения.