- •Система оптического распознавания символов finereader
- •Технологии перевода бумажных документов в электронные
- •Технологические возможности системы оптического распознавания символов FineReader
- •Главное окно и панели инструментов программы FineReader
- •Основные этапы процесса ввода документа в компьютер
- •Распознавание;
- •Сканирование
- •Анализ макета страницы
- •Распознавание
- •Проверка и редактирование текста
- •Сохранение во внешние редакторы и форматы
Анализ макета страницы
Переданное в программу ABBYY FineReader изображение необходимо распознать и преобразовать в текст. Прежде, чем приступить к распознаванию, программа выделяет на изображении области с текстом, картинки, таблицы и штрих-кодами, чтобы указать системе, какие участки изображения надо распознавать и в каком порядке. Области разных типов имеют различные цвета рамок. Анализ страницы может проводиться автоматически одновременно с распознаванием при нажатии кнопки РАСПОЗНАТЬ или вручную до распознавания. При использовании кнопки АНАЛИЗ окна ИЗОБРАЖЕНИЕ производится выбор и определение типа области. Ручное выделение блоков применяется:
для распознавания части страницы;
если автоматическое выделение блоков не устраивает;
для разделения операций сканирования и распознавания.
При обработке изображений выделяют блоки следующих типов:
Зона Распознавания — блок используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку Распознать выделенный блок автоматически анализируется и распознается;
Текст — блок используется для обозначения текста. Он должен содержать только одноколонный текст. Если внутри текста содержатся картинки, необходимо выделить их в отдельные блоки;
Таблица — этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Можно выделить и отредактировать таблицу вручную;
Картинка — этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки;
Штрих-код (только в версии Corporate Edition) — этот блок используется для распознавания штрих-кодов. Т. е., если Ваш документ содержит штрих-код и Вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, то выделите штрих-код в отдельный блок и присвойте ему тип Штрих-код.
Распознавание
Задача распознавания состоит в том, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. Прежде чем приступить к распознаванию текста, необходимо установить основные параметры распознавания: язык распознавания, тип печати распознанного текста и тип страницы. Все страницы документа можно распознать с помощью меню ДОКУМЕНТ–РАСПОЗНАТЬ. Отдельные области можно распознать после выбора этой области и нажатия кнопки РАСПОЗНАТЬ в окне ИЗОБРАЖЕНИЕ.
По умолчанию режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ отключен. Для того чтобы в процессе распознавания проводилось обучение неизвестным символам, отметьте опцию РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ окне ОПЦИИ.
Проверка и редактирование текста
Результат распознавания отображается в окне ТЕКСТ. В данном окне неуверенно распознанные символы выделяются цветом.
Редактировать полученный документ можно непосредственно в окне ТЕКСТ и с помощью встроенного диалога ПРОВЕРКА (меню СЕРВИС–ПРОВЕРКА…), который позволяет просматривать неуверенно распознанные слова, находить орфографические ошибки, добавлять в словарь новые слова, изменять язык словаря.
Одна из возможностей текстового редактора FineReader — это встроенная проверка орфографии. Она позволяет:
находить неуверенно распознанные слова (слова, в которых есть неуверенно распознанные символы);
находить орфографические ошибки (неправильно написанные слова);
добавлять неизвестные системе FineReader слова в словарь для того, чтобы они распознавались уверенно.
Панель инструментов окна ТЕКСТ, расположенная в верхней части этого окна, позволяет открыть диалоговое окно ПРОВЕРКА, предназначенное для проверки орфографии; а также содержит кнопки для проверки орфографии в окне ТЕКСТ.
Для проверки неуверенно распознанного слова в окне ТЕКСТ:
выполняется щелчок мышью на слове в окне ТЕКСТ;
в окне ИЗОБРАЖЕНИЕ отобразится местоположение данного слова на странице, а в окне КРУПНЫЙ ПЛАН можно увидеть увеличенное изображение слова;
если необходимо, редактируется слово в окне ТЕКСТ.
Данный метод удобен для сравнения исходного и полученного документов.
В диалоговом окне Проверка (рис. 14.14) имеются три области. В верхней области показано изображение слова с возможной ошибкой. Средняя область показывает само слово с возможной ошибкой, в строке над этим окном выводится название типа ошибки. В нижней области, Варианты, предлагаются варианты замены данного слова (если таковые имеются). Для вариантов используется словарь, указанный в поле Язык словаря.
Используя диалог проверки, возможно:
пропустить выделенное слово, не изменяя его. Для этого используется кнопка ПРОПУСТИТЬ. При этом со слова снимается выделение цветом;
заменить выделенное слово одним из предложенных вариантов. Для этого используется кнопка ЗАМЕНИТЬ;
добавить выделенное слово в словарь. Для этого применяется кнопка ДОБАВИТЬ. В этом случае при дальнейшей проверке орфографии, если это слово (или одна из его форм) встретится в тексте, оно не будет считаться ошибочным.
Рис. 14.14. Окно ПРОВЕРКА для проверки правописания в программе FineReader
ABBYY FineReader позволяет изменять форматирование символов полученного документа в окне ТЕКСТ с помощью кнопок, расположенных на главной панели инструментов и на панели СВОЙСТВА ТЕКСТА (контекстное меню окна ТЕКСТ–СВОЙСТВА).
В процессе распознавания в документе выделяются стили символов. Все выделенные стили отображаются на панели СВОЙСТВА ТЕКСТА, которые можно изменять. При сохранении текста в формат RTF/DOC/DOCX/ODT все используемые стили сохраняются.
Чтобы применить стиль символов к выделенному фрагменту текста:
выделяется текстовый фрагмент в окне ТЕКСТ;
в его контекстном меню применяется опция СВОЙСТВА;
на открывшейся панели СВОЙСТВА ТЕКСТА в списке СТИЛЬ выбирается нужный стиль.
Чтобы изменить, создать или объединить стили:
в меню СЕРВИС выбирается опция РЕДАКТОР СТИЛЕЙ;
в открывшемся окне РЕДАКТОР СТИЛЕЙ (рис. 14.15) применяется нужный стиль и изменяются его параметры (название стиля, гарнитура, кегль шрифта, стиль начертания шрифта, межбуквенный интервал, масштаб);
Рис. 14.15. Диалоговое окно РЕДАКТОР СТИЛЕЙ
чтобы создать новый стиль, нажимается кнопка НОВЫЙ;
чтобы объединить стили, выделяются несколько стилей и нажимается кнопка ОБЪЕДИНИТЬ…. В открывшемся диалоге выбирается стиль, в который нужно объединить выбранные стили;
после внесения изменений, нажимается кнопка СОХРАНИТЬ.