Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Каледина лк Полиграфика.pdf
Скачиваний:
378
Добавлен:
28.10.2018
Размер:
19.42 Mб
Скачать

СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ FINEREADER

1.Технологии перевода бумажных документов

вэлектронные

Большинство документов, подлежащих обработке, представляются на бумажном носителе. Поэтому неотъемлемой частью любой системы автоматизации делопроизводства являются компьютерные системы, включающие программы сканирования и оптического распознавания образов документов. Задача распознавания состоит в том, чтобы преобразовать входное (отсканированное) изображение в текст из подвижных символов. Иными словами графическое изображение каждого входного символа заменяется обозначением этого символа, используемым в компьютере (т. е. кодом, понятным компьютерной системе).

С точки зрения перевода документов в электронный вид их условно делят на формализованные, неформализованные и специальные. Формализованные документы — это документы, в которых заранее определена форма: расположение обязательных полей, в которые заносятся данные, например, бланки, накладные, анкеты, картотеки и т. д. Неформализованные документы — это документы произвольной формы: договоры, письма и т. д. К специализированным относятся такие документы как, например, карты и отпечатки пальцев.

Перевод каждого из перечисленных видов документов имеет свою специфику. Если вводятся фотографии, то достаточно электронного изображения. Если документ содержит текст, его необходимо распознать. Если это форматированный текст, то нужно не только распознать текст, но и восстановить формат документа. Если это анкета, то чаще всего сам документ не нужен, а важна только содержащаяся в нем информация. Например, при обработке листов для голосования достаточно информации о том, за кого отдан голос.

Часто человека просят ввести текст раздельными печатными буквами. Такой текст называют рукопечатным. Технологии распознавания рукопечатных символов обозначаются термином ICR (Intelligent Character Recognition). В этом случае требуется распознать символ, вписанный в форму с учетом возможных его отклонений, обусловленных индивидуальными особенностями почерка.

При вводе форм может потребоваться распознавание различных меток и знаков, например, в бюллетенях для голосования просят поставить крестик или другой знак напротив фамилии кандидата, и задача

1

компьютера — распознать, есть в определенном поле какой-либо знак или текст. Технология распознавания такого документа называется

OMR (Optical Mark Recognition).

Технология Data Capture — комплекс мероприятий по переводу бумажных документов в электронный архив для хранения и обеспечения доступа к ним. Данная технология используется, если наряду с распознаванием текстов имеется масса технологических проблем: организация поточного сканирования, распределенная обработка, встраивание решения в корпоративные системы документооборота и т. д.

Технология OCR (Optical Character Recognition — оптическое рас-

познавание знаков) чаще всего используется для распознавания машинописных авторских оригиналов, для создания банков данных переиздаваемых книг, доступных только в виде предыдущих изданий.

С помощью технологии OCR текст, представленный в рукописной или машинописной форме, преобразуется в цифровую форму и тем самым становится пригодным для обработки. Сначала в «процессе отображения» документа, находящегося на бумаге, осуществляется его ввод оптоэлектронными считывающими системами. В процессе считывания документ сканируется и описывается определенной матричной структурой. Значения яркости и цвета каждой точки матрицы записываются в цифровой форме. Документ предстает в виде битовой карты. В дальнейшем битовая структура знака конвертируется в текстовый код.

Черно-белые документы при сканировании описываются одним битом информации на точку изображения. При сканировании цветных оригиналов с разложением на 4 краски необходимо использовать до 32 бит на точку. Разрешение устройств, осуществляющих сканирование, определяет, насколько точно считанное изображение соответствует оригиналу. Для большинства текстовых оригиналов разрешение 300 dpi (dots per inch — точек на дюйм) позволяет получить высокую надежность распознавания знаков при использовании процессов OCR (кегль шрифта, начиная примерно с 4 мм, в зависимости от четкости начертания элементов шрифта). Иллюстрации и текст, набранный шрифтами малых кеглей, требуют разрешения считывания 600 dpi. Для цифрового представления изображения обычно используют формат

TIFF (Tagged-Image File Format).

Процесс OCR охватывает 5 этапов:

1)идентификация текстовых и иллюстрационных блоков с исключением последних;

2)распознавание знака при помощи анализа его формы и сравнения с характерными признаками эталона;

2

3)идентификация слова с помощью массивов словарей;

4)корректура нераспознанных слов или знаков путем отображения их на экране с подтверждением или исправлением оператором;

5)форматирование данных в одном из форматов для вывода, например, ASCII, Word, RTF или PDF, а также запись данных для сохранения.

Доля ошибок оборудования OCR составляет менее 1%.

При загрязнении оригинала, плохо пропечатанных знаках или наличии пятен на оригинале количество ошибок увеличивается. В таких случаях более эффективным может оказаться клавиатурный ввод. Критериями выбора того или иного метода распознавания являются шрифты оригинала, необходимая скорость распознавания, объем и качество словаря, используемые форматы данных и, естественно, цена.

Классификация программ для перевода документов в электронный вид приведена на рис. 1. Из отечественных компаний на рынке наибо-

лее активно работают фирмы ABBYY и Cognitive Technologies.

Программы для перевода документов

в электронный вид

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для

 

 

 

 

 

 

 

Для формализованных

 

 

 

 

неформализованных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

документов

 

 

 

 

 

документов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Персонального

 

 

 

Промышленного

 

 

Персонального

 

 

Промышленного

ввода

 

 

 

ввода

 

 

ввода

 

 

ввода

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рис. 1. Классификация программ для перевода документов в электронный вид

2. Технологические возможности системы оптического распознавания символов FineReader

Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознавания».

Система обладает следующими технологическими возможностями:

1) совместима с большим количеством настольных сканеров;

3

2)распознает отсканированную страницу, включая многоколонный текст и текст со сложным оформлением;

3)позволяет сканировать и записывать изображение как графическое, а потом распознать текст;

4)имеет набор возможностей по записи файлов, позволяющий сканировать серию страниц, причем программа будет осуществлять автозапись и присвоение имен последовательно;

5)может читать изображения, отсканированные другими программами;

6)может обрабатывать документы, отпечатанные типографским способом, на принтерах, печатной машинке;

7)сохраняет первоначальное форматирование;

8)благодаря технологии адаптивного распознавания докумен-

тов ADRT® (Adaptive Document Recognition Technology) ABBYY

FineReader позволяет анализировать и обрабатывать документ целиком, а не постранично. В результате восстанавливается исходная структура документа, включая форматирование, гиперссылки, адреса электронной почты, а также колонтитулы, подписи к картинкам и диаграммам, номера страниц и сноски.

9)ABBYY FineReader распознает документы, написанные на одном или нескольких из 189 языков, включая арабский, вьетнамский, корейский, китайский, японский, тайский и иврит. В программу встроена функция автоматического определения языка документа;

10)имеет внутренний редактор и словарный контроль, в сомнительных случаях в окне встроенного редактора показывается распознанный текст с выделением слов, отсутствующих в словаре, в расположенном рядом окне расширения можно видеть увеличенное изображение отсканированного текста для редактирования.

3.Главное окно и панели инструментов программы

FineReader

При запуске программы FineReader появляется окно (рис. 2), с помощью опций которого выбирается необходимая задача, например, можно осуществить распознавание документа в формате PDF в доку-

мент Word.

4

Рис. 2. Окно начала работы в FneReader

При выборе опций, расположенных на вкладке ОСНОВНЫЕ в правой части окна НОВАЯ ЗАДАЧА можно:

1)выбрать язык распознавания текста;

2)изменить цветовой режим изображения, например, выбрать черно-белое изображение;

3)выбрать команду сканирования изображения;

4)открыть ранее созданное изображение с помощью команды ОТКРЫТЬ PDF/ИЗОБРАЖЕНИЕ, а затем в появившемся окне ОТКРЫТЬ ИЗОБРАЖЕНИЕ (рис. 3) указать нужное изображение;

5)создать документ.

Рис. 3. Окно для открытия изображения

5

Работая с программой FineReader, пользователь всегда имеет дело с некоторым документом. Каждое отсканированное изображение записывается как отдельная страница.

В главном окне программы (рис. 4) отображается текущий откры-

тый документ ABBYY FineReader.

Рис. 4. Главное окно программы Fine Reader

Вокне СТРАНИЦЫ отображаются страницы, входящие в документ FineReader. Возможны два режима отображения страниц: пиктограммы (рис. 4) или таблица со столбцами сведений о страницах документа. Режим можно менять из контекстного меню данного окна, из меню ВИД, из диалога ОПЦИИ (меню СЕРВИС–ОПЦИИ…).

Вокне ИЗОБРАЖЕНИЕ показывается изображение текущей страницы. Это окно позволяет редактировать области на изображении, изображения страниц, свойства текста.

Вокне ТЕКСТ отображается распознанный текст. В нем можно проверять орфографию, форматировать и редактировать текст, полученный в результате распознавания.

Вокне КРУПНЫЙ ПЛАН отображается увеличенное изображение редактируемой строки или обрабатываемого участка изображения. Если в окне ИЗОБРАЖЕНИЕ вы видите общий вид страницы, то в окне КРУПНЫЙ ПЛАН удобно просмотреть изображение более детально,

6

скорректировать тип и положение областей или сравнить неуверенно распознанный символ с его увеличенным изображением. Масштаб изображения в окне КРУПНЫЙ ПЛАН регулируется при помощи па-

нели , расположенной в нижней части этого окна. Возможно перемещение изображения в окнах ИЗОБРАЖЕНИЕ

и КРУПНЫЙ ПЛАН при помощи мыши, удерживая клавишу ПРОБЕЛ. Поменять взаимное расположение окон на экране можно с помощью меню ВИД.

Окна ИЗОБРАЖЕНИЕ, КРУПНЫЙ ПЛАН и ТЕКСТ связаны между собой: при двойном щелчке на изображении в окне ИЗОБРАЖЕНИЕ курсор в окнах КРУПНЫЙ ПЛАН и ТЕКСТ (при наличии распознанного текста) переместится на ту же позицию, что и в окне ИЗОБРАЖЕНИЕ.

В главном окне программы ABBYY FineReader имеется несколько панелей инструментов. Кнопки на панелях — удобное средство доступа к командам программы. Эти же команды можно выполнять из меню программы или с помощью горячих клавиш.

ГЛАВНАЯ ПАНЕЛЬ (рис. 5) содержит фиксированный набор кнопок, позволяющих выполнить все основные действия: открыть документ, отсканировать страницу, открыть изображение, распознать страницы, сохранить результаты и др.

Рис. 5. Главная панель инструментов

Состав панели быстрого доступа (рис. 6) можно настроить, добавив на нее кнопки для выполнения практически любой команды главного меню. По умолчанию эта панель не отображается в главном окне. Чтобы ее отобразить, используется меню ВИД–ПАНЕЛИ ИНСТРУ- МЕНТОВ–ПАНЕЛЬ БЫСТРОГО ДОСТУПА.

Рис. 6. Панель быстрого доступа

Каждое окно имеет свою панель инструментов для удобства работы. Панели инструментов окон СТРАНИЦЫ, ИЗОБРАЖЕНИЕ, ТЕКСТ находятся в верхней части этих окон. Панель инструментов окна СТРАНИЦЫ содержит фиксированный набор кнопок. Панели ин-

7

струментов окон ИЗОБРАЖЕНИЕ и ТЕКСТ можно настроить по своему усмотрению. Панель ИЗОБРАЖЕНИЕ содержит кнопки, позволяющие производить анализ макета страницы (например, создать и отредактировать блоки).

Панель предупреждений (рис. 7) — панель, на которой отображаются предупреждения и сообщения об ошибках, возникающие в процессе работы программы.

Рис. 7. Панель предупреждения

Диалоговое окно ОПЦИИ содержит настройки, позволяющие регулировать настройки открытия, сканирования, распознавания, сохранения документов в различные форматы, вид окон программы, выбирать язык и тип печати входного документа, язык интерфейса программы и др. Данное окно открывается с помощью меню СЕРВИС–ОПЦИИ…, из панели инструментов, диалогов сохранения в различные форматы, диалогов открытия изображений и контекстного меню панели инструментов.

Диалоговое окно ОПЦИИ имеет 6 вкладок: ДОКУМЕНТ (рис. 8), СКАНИРОВАТЬ/ОТКРЫТЬ (рис. 9), РАСПОЗНАТЬ (рис. 10), СОХРАНИТЬ (рис. 11), ВИД (рис. 12), ДОПОЛНИТЕЛЬНЫЕ (рис. 13).

Рис. 8. Вкладка ДОКУМЕНТ диалогового окна ОПЦИИ

8

Рис. 9. Вкладка СКАНИРОВАТЬ/ОТКРЫТЬ диалогового окна ОПЦИИ

Рис. 10. Вкладка РАСПОЗНАТЬ диалогового окна ОПЦИИ

9

Рис. 11. Вкладка СОХРАНИТЬ диалогового окна ОПЦИИ

Рис. 12. Вкладка ВИД диалогового окна ОПЦИИ

10

Рис. 13. Вкладка ДОПОЛНИТЕЛЬНЫЕ диалогового окна ОПЦИИ

На вкладке ДОКУМЕНТ можно настраивать языки документа, тип печати, цветовой режим, свойства документа. Также на этой вкладке указан путь к открытому документу FineReader.

На вкладке СКАНИРОВАТЬ/ОТКРЫТЬ определяются общие опции автоматической обработки документа, а также опции предобработки изображений при сканировании и открытии документов, такие как:

производить или нет автоматический анализ страниц документа (автоматически определять области и их типы);

выполнять ли автоматическое конвертирование изображений страниц;

выполнять ли автоматическую предобработку изображений;

следует ли автоматически определять ориентацию страниц;

разбивать ли сдвоенные страницы.

Также здесь можно выбрать драйвер для сканера и интерфейс сканирования.

На вкладке РАСПОЗНАТЬ содержатся настройки распознавания:

следует ли применять быстрое или детальное распознавание;

следует ли обучить или использовать при распознавании пользовательский эталон;

пользовательские эталоны и языки;

11

Соседние файлы в предмете Полиграфика