Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
15 Сканер и его программное обеспечение.docx
Скачиваний:
6
Добавлен:
25.11.2019
Размер:
136.35 Кб
Скачать

Слайд 7. Корреляционный метод распознавания текста. Этапы принятия решения относительно введенного символа

  • найти все допустимые преобразованные описания для первого символа алфавита;

  • найти для этих описаний скалярные произведения V(x) • C(а, ) и определить максимальное значение [max V(x) • C(а, )];

  • сохранить это максимальное значение;

  • повторить все указанные действия для второго символа и всех последующих символов алфавита;

  • найти максимальное значение среди всех сохраненных значений скалярных произведений, т. е. найти max[max V(x) • C(а, )];

  • определить разность между найденным максимальным и ближайшим к нему значением скалярного произведения, сравнить эту разность с пороговым значением;

  • приписать символу «х» значение эталона, для которого найденное скалярное произведение максимально, если эта разность превышает допустимый порог; если же разность меньше допустимого порога, то символ автоматически распознать невозможно.

Корреляционный метод распознавания довольно трудоемок и требует большого объема вычислений, но с появлением ПК это перестало быть сдерживающим фактором. Кроме того, этот метод пригоден для распознавания символов обычных нестилизованных шрифтов, например для автоматического чтения печатных книг, журналов, факсов и т. п.

Слайд 8. Метод распознавания текста по вторичным признакам. Этапы принятия решения относительно введенного символа

Второй метод распознавания по вторичным признакам предназначался для стилизованных шрифтов. Принятие решения о принадлежности вводимого символа тому или иному эталону разбивается на два этапа. На первом этапе выделяется некоторый признак и принимается решение о его наличии в изображении символа. Затем этот этап повторяется для выделения следующего признака и т. д. На втором этапе принимается решение о соответствии вводимого символа одному из эталонных символов алфавита. При распознавании цифровых символов шрифта РОС-А признаками считается наличие вертикального и горизонтального штриха. В результате осмотра изображения символа, осуществляемого сканированием посредством линейки фотодиодов, составляется матрица из единиц и нулей; темному элементу ставится в соответствие единица, а светлому – нуль. Обычно используется несколько фотодиодов для нахождения одного признака, что позволяет избежать ошибок из-за дефектов печати. Если принять число вертикальных штрихов равным десяти, а горизонтальных — трем, то для каждого символа получим 13-разрядный двоичный код. Затем полученный код сравнивается с эталонными кодами всех символов и принимается решение о принадлежности символа тому или иному эталону. Если точного совпадения признаков не произошло, то решение принимается по наименьшему кодовому расстоянию, аналогично правилам исправления ошибок при использовании избыточных кодов. В случае невозможности принятия решения производится отказ от распознавания. Этот метод использовался в устройствах, предназначенных для обработки переписных листов, но в настоящее время он потерял актуальность в связи с почти повсеместным отказом от использования стилизованных шрифтов.

Частота отказов от автоматического распознавания обычно значительно выше частоты ошибок, что достигается установкой соответствующих значений меры сходства. При отказе от автоматического распознавания на экран дисплея можно вывести неопознанный символ для принятия решения вручную, однако это приводит к снижению скорости ввода информации в компьютер. Если же установить меньшую меру сходства, уменьшив частоту отказов от распознавания, то возрастает число ошибок. В зависимости от бумаги и качества текста частота ошибок составляет 0,01 – 0,005%, а частота отказов от распознавания – 0,01 – 0,02%.

8

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]