Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы_по_ИТ.doc
Скачиваний:
51
Добавлен:
24.04.2019
Размер:
407.55 Кб
Скачать

Вопрос 17. Ocr. Общая характеристика. Основные принципы. Основные методы.

Оптическое распознавание символов Optical Character Recognition

Общие принципы распознавания:

В ходе сканирования печатного текста получается растровое изображение текста а не сам текст.

OCR – получение текста как последовательности символов из растрового изображения.

Первые исследования в области OCR проводились в 50-е гг 20 века, принципы заложенные в то время используется в большинстве современных систем OCR - Сравнение изображения с имеющимися эталонами и выбор наиболее подходящего.

Современная OCR технология включает в себя 2 аспекта:

  1. Считывание исходного документа универсальным сканером и формирование растрового изображения

  2. Распознавание путем программной обработки изображения

Основные методы OCR

  1. Сопоставление матриц – (сравнение с образцом) распознавание выполняется путем сравнения изображения отсканированного символа с базой данных растровых, успешно работает только с пропорциональными шрифтами, где символы четко отделяются друг от друга. Описание символов с использованием матрицы.

  2. Выделение признаков – распознавание символа основывается на идентификации их универсальных особенностей, что позволяет сделать распознавание независимым от шрифтов. Если считать что все символы могут быть идентифицированы с использованием правил, по которым элементы букв (дуги прямой окружности) присоединяются друг к другу то все символы описываются и распознаются не зависимо от шрифта. Описание правил написания символов. Практические результаты использования этого метода весьма чувствительны к качеству печати. Идентификация битов изображения, относящаяся к шуму (искажения) стала отдельной областью исследований.

Некоторые средства сначала используют сравнение с образцом или выделение признаков для распознавания максимального количества символов, а затем уточняют результат, используя грамматическую проверку получающегося текста.

  1. Прогнозирующее распознавание слов – POWR predictive optical word recognition – анализируется все множество способов, которыми точки изображения могут быть собраны в слово. Каждой возможной интерпретации приписывается некоторая вероятность, к распознаванию подключаются алгоритмы анализа – эксперты – каждый эксперт аккумулирует в себе знания о некоторой тематической области распознавания (о начертании, устранению шума в словарях).

Вопрос 18. Технологический процесс использования abbyy Fine Reader. Принципы ipa.

Технологический процесс ABBYY Fine Reader:

1) Сканирование процесса;

2) Ручная или автоматическая разметка областей, требующая различной обработки;

3) Распознавание, создание и вывод на экран текстового файла с объектами таблицы и рисунок, контроль правильности(ручной, полуавтоматический, автоматический), вывод информации в файл базового формата.(doc,xls, rtf)

4) Сканирование выполняют в цветном режиме или в режиме grayscale, если нет необходимости сохранять цвета, можно также использовать режим цветовой графики lineart, однако при этом есть риск потерять детали существенные для распознавания.

Принципы функционирования Fine Reader(принципы IPA):

1) Принцип целостности Integrity. Объект рассматривается как целое, состоящее из связанных частей, части связаны пространственными отношениями и получают своё толкование в рамках гипотезы об объектах;

2) Принцип целенаправленности Purposefulness. Любая интерпретация данных преследует определённую цель, распознавание представляет собой процесс выдвижения гипотез в объекте и их целенаправленной проверки;

3) Принцип адаптивности Adaptability(информация, полученная в процессе распознавания накапливается и может использоваться в дальнейшем для решения аналогичных задач.