Вопрос 19. Общий принцип mda. Классификаторы, используемые при распознавании символов в abbyy Fine Reader.

Многоуровневый анализ документа - MDA multilevel document analysis

Выполняется многоуровневая декомпозиция документа - строки разбиваются на слова, слова на буквы и т.д. когда символы выделены и распознаны, выполняется последовательная сборка документа от нижних уровней к высшим. При наличии ошибок при распознавании верхнего уровня (абзац перепутан с иллюстрацией) успешное завершение процесса практически невозможно.

Защита от коллизий MDA в fine reader

Объекты любого уровня распознаются в соответствии с принципами IPA, в первую очередь целенаправленно проверяются гипотезы о типах обнаруженных объектов
Результаты анализа на любом из нижних уровней способны повлиять на действия с объектами верхних уровней

При выделении объектов в процессе перехода от уровня страницы до уровня слова fine reader использует процедуры интеллектуальной фильтрации фоновых структур и адаптивной бинаризации:

Позволяет отделять строки текса от сколь угодно сложного фона
Гибко выбирать оптимальные параметры бинаризации

При выделении символов из слова используются классификаторы (механизмы распознания букв):

Растровый – классифицирует методом сопоставления матриц, эталоны символов строятся тупеем наложения друг на друга большого количества одних и тех же букв в разных вариантах начертания.
Контурный – аналогичен растровому, за исключением того, что для сравнения используется не полный образ эталона, а его контур. Эффективен при распознавание декоративного шрифта.
Признаковый – выполняет сравнение символа с признаками эталона, в качестве признаков могут быть – количество заполненных точек в некотором направлении, периметр контура и т.д. Точность работы зависит от выбора набора признаков. Признаки – выделяемые при анализе растрового изображения.
Структурный – классифицирует методом выделения признаков, т.е. сравнивает набор структурных элементов символа с элементами эталона. Работает медленнее и точнее предыдущих. Признаки – дуги и их сопоставлении.
Признаково-дифференциальный – ориентирован на анализ отличий между схожими объектами.
Структурно-дифференциальный – ориентирован на анализ отличий структуры.

Распознание начинается с растрового и признакового классификатора, которые формируют совокупность гипотез о символе, рассортированных по весу. Для дальнейшей работы с гипотезами используют структурно-дифференциальный и структурный классификатор. При сборке слов из букв используют различные модели слов – словарное слово, не словарное слово, e-mail, URL, цифры с префиксом или суффиксом, регулярное выражение и т.д.

В результате формируется набор гипотез о расшифровке слова.

Окончательное решение принимается в ходе контекстной проверки, которая путем анализа окружения слова позволяет определить язык, предпочтение между буквами и цифрами и т.д.

Из распознанных слов получаются текстовые блоки, которые размещаются на странице в соответствии с положением оригинала. 100% точность распознавания является пока недостижимой, показатели, достигаемые в fine reader - 1-3 ошибки на страницу – являются вполне приемлемыми и позволяют значительно ускорить процесс ввода печатного текста.

<<< < Предыдущая 1 2 3 4 5 6 78 / 208 9 10 11 12 13 14 15 16 17 18 19 20 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.06.20158.16 Mб22ответы по физике с 15 по 23 к 2 семестру.doc
#
03.08.2019157.42 Кб3ответы по экономике.docx
#
28.09.2019258.86 Кб3ответы с 1 по 21 вопрос.docx
#
02.06.2015111.62 Кб14Ответы.doc
#
17.09.2019542.21 Кб11Ответы_БД.doc
#
24.04.2019407.55 Кб51Ответы_по_ИТ.doc
#
22.04.2019230.91 Кб18ответы_сиппо.doc
#
23.12.201882.94 Кб23Отёк лёгких П.doc
#
02.06.2015455.68 Кб92Отечественная литература (Экзамен) Все вопросы.doc
#
26.03.2016275.46 Кб86Отформат Лаб прак общ биол для бак.doc
#
26.03.2016366.67 Кб620Отформат ЛЕКЦ ОБЩ БИОЛ для бак .doc