Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Otvety_po_oit.rtf
Скачиваний:
173
Добавлен:
11.02.2015
Размер:
1.04 Mб
Скачать

21. Технологии оптического распознавания

.Технологии оптического распознавания (понятие и области применения OCR, алгоритмы оптического распознавания, характеристики и программы OCR, понятие Intelligent CharacterRecognition, системы распознавания рукописного текста)

OCR (Optical Character Recognition) - технология преобразования графического изображения текста в компьютерный текст с помощью алгоритма распознавания графических образов.

Ocr используется:

1) при сканировании и фотографировании текстов.

2) для ввода больших объемов текстовой информации в компьютер (от 100 и более страниц в день).

3) для рукописного ввода текстовой информации в компьютер.

4) для преобразования одного формата в другой.

Популярны три основные технологии распознавания символов:

- шаблонная (во входном изображении выделяются растровые изображения отдельных символов, сравниваются со всеми шаблонами, имеющимися в базе, выбирается шаблон с наименьшим количеством точек, отличных от входного изображения. Шаблонные системы проще в реализации, устойчивы к дефектам изображения, имеют высокую скорость обработки входных данных, но надежно распознают только те шрифты, шаблоны которых им известны),

- структурная (объект описывается как граф, узлами которого являются элементы входного объекта, а дугами - пространственные отношения между ними. Структурные системы высоко чувствительны к графическим дефектам изображения, нарушающим составляющие элементы. Для этих систем, в отличие от шаблонных и признаковых, до сих пор не созданы эффективные автоматизированные процедуры обучения),

- фонтанное преобразование (совмещает в себе достоинства шаблонной и структурной систем. Любой воспринимаемый объект рассматривается как целое, состоящее из частей, связанных между собой определенными отношениями).

Характеристики ocr:

  • количество ошибок при вводе текста. Допустимой считается величина 10 ошибок на страницу.

  • требовательность к качеству исходного текста.

  • возможность исправления орфографических ошибок для повышения качества ввода.

  • поддержка различных языков. 

  • возможность обучения и настройки на особенности печатных шрифтов и рукописных текстов.

  • скорость распознавания. Желательно, чтобы оно было сопоставимо со временем ввода документа сканером.

Программы ocr:

Наиболее известны такие пакеты, как FineReader, CuneiForm, OmniPage, TextBridge.

ABBYY FineReader - OCR для автоматического ввода текстов, таблиц, форм, анкет и т.п.

ADRT (Adaptive Document Recognition Technology), технология адаптивного распознавания документов уровня IDR (Intelligent Document Recognition).

ABBYY Business Card Reader - мобильное приложение для распознавания визитных карточек, которое автоматически распознает информацию с фотографии визитной карточки, создает новый контакт, записывает контактные данные и дополнительную информацию в нужные поля записной книжки.

  • ICR (Intelligent Character Recognition) - системы для обработки форм, обеспечивающие ввод данных из документов на основе геометрических шаблонов

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]