Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпоры по КИТ (1).doc
Скачиваний:
5
Добавлен:
19.09.2019
Размер:
642.56 Кб
Скачать

Тема6.4)Системы распознавания текстов

OCR-системы оптического распознавания символов. Первая такая система появилась в 1959г и могла распознавать тексты набранные только одним шрифтом(OCR-A, OCR-B). В 70-х гг 20в появилась OCR система, кот распознавала любой шрифт, но требовала предварительного обучения. В 1986г появилась система, кот могла распознавать шрифты без предварительного обучения. Сегодня OCR-система базируется на технологии целостного, целенаправленного, адаптивного распознавания. Целостность – объект воспринимается как единое целое с помощью значимых элементов и отношений между ними. Целенаправленность – распознавание строится как процесс выдвижения и целенаправленных проверок гипотез. адаптивность – способность системы к самообучению. Наиболее известной OCR-системой является Fine Reader. Этот продукт полностью совместим с последними версиями системы Windows. Его версия 6.0. поддерживает 177 языков мира, а также комбинацию рус-анг и др. процесс распознавания происходит без вмешательства человека, человек включается в окончательное редактирование полученного образа. Среди других систем этого класса – CuneiForm. Российская разработка конкурирующая с Fine Reader, о ее достоинствах говорит то, что ряд фирм включила ее в свои офисные пакеты.

3 этапа:

Сканирование-получение граф образа, Распознавание, Верификация.

1) OCR решает классич. задачу распозн. печ. символов. нанес. на бумагу при пом. принтера, плоттера или пишуш. машинки. 2) ICR осущ-ет распознование рукопечатных символов. основное назнач. этих двух систем сэкономить на ввод бумажных док-том в электроред. форму. Данные системы характеризуется точностью распознавания текста, точностью хранения, оформления в док-тах для текстовых процессов для послед. электронной публикации, возможностями по работе с таблицами и многоколонными текстами, простотой использования, надежность и скорость работы, многоязычное распознавание, удобство поиска ошибок и сверки с оригиналом, работа с цветом, экспорт в другие приложения. Лидирует 1) ScanSaft и 2) FineReader (ABBY) – эта прог-ма позвол. распознования текста на 179 языков и имеют проверку орфографии для 36 языков. Это лидер поточности образования. Есть версия для домашних пользователей и небольших офисов и для эфф. организации совм. работы в накопленной сети по распознанию большого кол-ва док-тов, и версия для пользоват. комп. Apple 3) Cuneiform. Она распространяется сосканерами и многофункц. офисными уст-вами, выполняет мн-во различных операций. Данные системы развиваются в таком направлении: отсканир стр, человек должен получ. точную эл. копию исходноко док-та с сохранением шрифтов, распознование картинок, верстки и т. д.

Классификация по специфике перевода в эл вид:

  • Неформатированные(договора, письма)

  • Специализированные(карты)

  • Формализованные(бланки, анкеты)

Классификация программ: Для формализации(Персональный ввод и промышленный ввод), для неформализации(Персональн и промышл ввод.)

Алгоритмы распознавания:

  • Multifont(шрифтовые)

  • Omnifont(шрифтонезависимые)

  • Самообучающиеся

  • Структурные

  • Когнитивного распознавания

Multifont-изображение, накладывающееся на подходящий шаблон, у которого наим кол-во отличается от исслед изображения.

Пакет Fine Reader: Омнифонтовая программа

  • Интуитивно-понятный интерфейс

  • Мощные возможности оптического распознавания текста

  • Очистка страницы от мусора

  • Инстументы для расчистки

Особенность:

  • Высокая мощность

  • Малая чувствит и дефект.

Cunei form:

  • Экспорт распознанного текста с сохранением исходного форматирования

  • Прямой экспорт в офис

  • Печать текста и изображения

  • Поддержка OLE-технологий

  • Сохранение в RTF.TXT, HTML.

OMR-системы:

Abby Form Reader

  • Распознавание формы, заполнение от руки и т.д

  • Выделяет цветом плохо распознанные символы

  • Автоматически проверяет валидность с БД

  • Различные типы форм, благодаря методам удаления изображения форм

  • Экспорт в БД, графич оформление и т.д