Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
OCR_FineReader_11.docx
Скачиваний:
12
Добавлен:
03.05.2019
Размер:
2.31 Mб
Скачать
      1. Анализ макета страницы

Переданное в программу ABBYY FineReader изображение необходимо распознать и преобразовать в текст. Прежде, чем приступить к распознаванию, программа выделяет на изображении области с текстом, картинки, таблицы и штрих-кодами, чтобы указать системе, какие участки изображения надо распознавать и в каком порядке. Области разных типов имеют различные цвета рамок. Анализ страницы может проводиться автоматически одновременно с распознаванием при нажатии кнопки РАСПОЗНАТЬ или вручную до распознавания. При использовании кнопки АНАЛИЗ окна ИЗОБРАЖЕНИЕ производится выбор и определение типа области. Ручное выделение блоков применяется:

  1. для распознавания части страницы;

  2. если автоматическое выделение блоков не устраивает;

  3. для разделения операций сканирования и распознавания.

При обработке изображений выделяют блоки следующих типов:

  1. Зона Распознавания — блок используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку Распознать выделенный блок автоматически анализируется и распознается;

  2. Текст — блок используется для обозначения текста. Он должен содержать только одноколонный текст. Если внутри текста содержатся картинки, необходимо выделить их в отдельные блоки;

  3. Таблица — этот блок используется для обозначения таблиц или текста, имеющего табличную структуру. При распознавании программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Можно выделить и отредактировать таблицу вручную;

  4. Картинка — этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую Вы хотите передать в распознанный текст в качестве картинки;

  5. Штрих-код (только в версии Corporate Edition) — этот блок используется для распознавания штрих-кодов. Т. е., если Ваш документ содержит штрих-код и Вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, то выделите штрих-код в отдельный блок и присвойте ему тип Штрих-код.

      1. Распознавание

Задача распознавания состоит в том, чтобы преобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. Прежде чем приступить к распознаванию текста, необходимо установить основные параметры распознавания: язык распознавания, тип печати распознанного текста и тип страницы. Все страницы документа можно распознать с помощью меню ДОКУМЕНТ–РАСПОЗНАТЬ. Отдельные области можно распознать после выбора этой области и нажатия кнопки РАСПОЗНАТЬ в окне ИЗОБРАЖЕНИЕ.

По умолчанию режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ отключен. Для того чтобы в процессе распознавания проводилось обучение неизвестным символам, отметьте опцию РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ окне ОПЦИИ.

      1. Проверка и редактирование текста

Результат распознавания отображается в окне ТЕКСТ. В данном окне неуверенно распознанные символы выделяются цветом.

Редактировать полученный документ можно непосредственно в окне ТЕКСТ и с помощью встроенного диалога ПРОВЕРКА (меню СЕРВИСПРОВЕРКА…), который позволяет просматривать неуверенно распознанные слова, находить орфографические ошибки, добавлять в словарь новые слова, изменять язык словаря.

Одна из возможностей текстового редактора FineReader — это встроенная проверка орфографии. Она позволяет:

  1. находить неуверенно распознанные слова (слова, в которых есть неуверенно распознанные символы);

  2. находить орфографические ошибки (неправильно написанные слова);

  3. добавлять неизвестные системе FineReader слова в словарь для того, чтобы они распознавались уверенно.

Панель инструментов окна ТЕКСТ, расположенная в верхней части этого окна, позволяет открыть диалоговое окно ПРОВЕРКА, предназначенное для проверки орфографии; а также содержит кнопки для проверки орфографии в окне ТЕКСТ.

Для проверки неуверенно распознанного слова в окне ТЕКСТ:

  1. выполняется щелчок мышью на слове в окне ТЕКСТ;

  2. в окне ИЗОБРАЖЕНИЕ отобразится местоположение данного слова на странице, а в окне КРУПНЫЙ ПЛАН можно увидеть увеличенное изображение слова;

  3. если необходимо, редактируется слово в окне ТЕКСТ.

Данный метод удобен для сравнения исходного и полученного документов.

В диалоговом окне Проверка (рис. 14.14) имеются три области. В верхней области показано изображение слова с возможной ошибкой. Средняя область показывает само слово с возможной ошибкой, в строке над этим окном выводится название типа ошибки. В нижней области, Варианты, предлагаются варианты замены данного слова (если таковые имеются). Для вариантов используется словарь, указанный в поле Язык словаря.

Используя диалог проверки, возможно:

  1. пропустить выделенное слово, не изменяя его. Для этого используется кнопка ПРОПУСТИТЬ. При этом со слова снимается выделение цветом;

  2. заменить выделенное слово одним из предложенных вариантов. Для этого используется кнопка ЗАМЕНИТЬ;

  3. добавить выделенное слово в словарь. Для этого применяется кнопка ДОБАВИТЬ. В этом случае при дальнейшей проверке орфографии, если это слово (или одна из его форм) встретится в тексте, оно не будет считаться ошибочным.

Рис. 14.14. Окно ПРОВЕРКА для проверки правописания в программе FineReader

ABBYY FineReader позволяет изменять форматирование символов полученного документа в окне ТЕКСТ с помощью кнопок, расположенных на главной панели инструментов и на панели СВОЙСТВА ТЕКСТА (контекстное меню окна ТЕКСТ–СВОЙСТВА).

В процессе распознавания в документе выделяются стили символов. Все выделенные стили отображаются на панели СВОЙСТВА ТЕКСТА, которые можно изменять. При сохранении текста в формат RTF/DOC/DOCX/ODT все используемые стили сохраняются.

Чтобы применить стиль символов к выделенному фрагменту текста:

  1. выделяется текстовый фрагмент в окне ТЕКСТ;

  2. в его контекстном меню применяется опция СВОЙСТВА;

  3. на открывшейся панели СВОЙСТВА ТЕКСТА в списке СТИЛЬ выбирается нужный стиль.

Чтобы изменить, создать или объединить стили:

  1. в меню СЕРВИС выбирается опция РЕДАКТОР СТИЛЕЙ;

  2. в открывшемся окне РЕДАКТОР СТИЛЕЙ (рис. 14.15) применяется нужный стиль и изменяются его параметры (название стиля, гарнитура, кегль шрифта, стиль начертания шрифта, межбуквенный интервал, масштаб);

Рис. 14.15. Диалоговое окно РЕДАКТОР СТИЛЕЙ

  1. чтобы создать новый стиль, нажимается кнопка НОВЫЙ;

  2. чтобы объединить стили, выделяются несколько стилей и нажимается кнопка ОБЪЕДИНИТЬ…. В открывшемся диалоге выбирается стиль, в который нужно объединить выбранные стили;

  3. после внесения изменений, нажимается кнопка СОХРАНИТЬ.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]