- •«Перетворення документів у електронну форму»
- •1. Кодирование данных в компьютере
- •2. Техника сканирования документов
- •2.1. Сканеры: назначение, классификация, принцип действия
- •2.2. Основные характеристики сканеров
- •Рекомендации по эффективному сканированию
- •3. Назначение и возможности программы оптического распознавания текстов finereader
- •3.1. Возможности и характеристики программы FineReader
- •1. Точность распознавания:
- •2. Поддержка формата xml и интеграция с Microsoft Office:
- •3. Улучшена работа FineReader с pdf документами:
- •4. Новые возможности сохранения:
- •5. Удобство использования:
- •6. Профессиональные возможности:
- •3.2. Главное окно программы FineReader
- •Контрольные вопросы
- •Задание на самостоятельную работу
3. Назначение и возможности программы оптического распознавания текстов finereader
3.1. Возможности и характеристики программы FineReader
Персональный компьютер предназначен для работы с документами, имеющими электронную форму. В то же время, часто приходится вводить в компьютер информацию, представленную на бумажных носителях: в книгах, журналах, письмах, служебных записках и т.п., которые, как показывает практика, составляют более 90% поступающих к нам документов. Конечно, можно сесть за клавиатуру компьютера и начать ввод вручную данных с бумажных источников. Хорошо, если это один лист. Его можно ввести за несколько десятков минут. Ну, а если это книга страниц на 300-400? Ручной ввод превращается в каторгу. Естественно, тут же возникает желание, чтобы компьютер сам «научился читать» текст прямо с бумажного листа.
Очевидно, для решения этой проблемы необходимо, в первую очередь, представить в цифровом виде изображение бумажного листа. Эта задача называется сканированием документа и решается она с помощью сканеров, о которых шла речь выше. Вторая проблема заключается в переводе цифрового изображения в текст. Эта проблема разрешается использованием специальных программ оптического распознавания текстов (OCR – Optical Character Recognition). Одной из таких программ является программа FineReader разработки российской компании ABBYY Software Ltd., которая является мировым лидером в данном классе прикладных программ.
FineReader — это омнифонтовая программная система оптического распознавания текстов, позволяющая распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы является высокая точность распознавания (выше 99% - одна ошибка на 100 распознанных букв) и малая чувствительность к дефектам печати.
Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.
Распознавание изображения осуществляется на основе технологии «целостного целенаправленного адаптивного распознавания», что означает:
целостность – объект описывается как целое с помощью значимых элементов и отношений между ними;
целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез;
адаптивность – способность OCR-системы к самообучению.
В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки. Следуя принципу адаптивности, программа самостоятельно «настраивается», используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма.
В результате работы в окне FineReader появится распознанный текст, который можно отредактировать и сохранить в наиболее удобном формате.
Основные характеристики программы FineReade:
Ввод текста и таблиц со скоростью, превышающей в 5-10 раз скорость работы профессиональной машинистки. В зависимости от типов сканера и компьютера распознавание одной страницы текста осуществляется за 20-80 сек.
Точность распознавания выше 99%.
Поддержка 177 языков распознавания, включая основные (английский, испанский, итальянский, немецкий, русский, украинский, французский и др.) и дополнительные языки. Основная группа образована из языков со словарной поддержкой, т.е. для этих языков в программе поддержана проверка распознанного текста. Кроме того обеспечивается распознавание искусственных языков (идо, интерлингва, окциденталь, эсперанто), языков программирования (Basic, С/С++, COBOL, Fortran, JAVA, Pascal, Простые химические формулы).
Распознавание текстов, в которых встречаются любые комбинации поддерживаемых языков. Возможно обучение распознаванию новых символов и распознавание текстов на неизвестных программе языках.
Распознавание многоколоночного текста с картинками (в том числе и цветными) и таблицами с сохранением оформления и раскладки исходной страницы.
Параллельное распознавание нового текста и редактирование ранее отсканированного. Встроенный текстовый редактор позволяет устанавливать тип шрифта и его размер, форматировать текст целиком или его отдельные фрагменты, автоматически создавать различные текстовые стили и т.д.
Наличие встроенной системы проверки орфографии с возможностью пополнения словаря. Интеграция с программой проверки правописания Lingvo.
Автоматическое определение ориентации распознаваемого изображения и разворот страницы в нормальное положение. Автоматический подбор яркости сканирования для обеспечения наилучших условий распознавания светлых и темных участков страницы. Очистка изображения от помех. Поддержка технологии drag&drop («опустил и бросил»).
Работа со всеми типами сканеров, поддерживающих протокол TWAIN. Обработка графических файлов форматов PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG.
Форматы, в которых FineReader сохраняет распознанный текст: Microsoft Word Document (*.DOC), Rich Text Format (*.RTF), Microsoft Word XML Document (*.XML) (только для Microsoft Word 2003), Adobe Acrobat Format (*.PDF), HTML, Microsoft PowerPoint Format (*.PPT), Comma Separated Values File (*.CSV), Простой текст (*.TXT) (FineReader поддерживает различные кодовые страницы (Windows, DOS, Mac, ISO) и кодировку Unicode), Microsoft Excel Speadsheet (*.XLS), DBF.
Автоматическая и ручная сегментации текста, таблиц и рисунков.
Распределенная обработка отсканированного пакета в сети, позволяющая значительно поднять скорость обработки многостраничных документов.
С 2003 года выпускается версия программы ABBYY FineReader 7.0 Professional Edition, обладающая следующими новыми возможностями: