- •Система оптического распознавания символов finereader
- •Технологии перевода бумажных документов в электронные
- •Технологические возможности системы оптического распознавания символов FineReader
- •Главное окно и панели инструментов программы FineReader
- •Основные этапы процесса ввода документа в компьютер
- •Распознавание;
- •Сканирование
- •Анализ макета страницы
- •Распознавание
- •Проверка и редактирование текста
- •Сохранение во внешние редакторы и форматы
Основные этапы процесса ввода документа в компьютер
Процесс ввода документа в компьютер можно подразделить на следующие этапы:
сканирование или открытие цифрового файла;
анализ макета;
Распознавание;
проверка результатов;
сохранение распознанного текста.
Сканирование
Сканирование — процесс ввода в компьютер изображений текстов и различной графической информации с помощью специального устройства — сканера. При этом происходит перевод визуальной информации в цифровую. Сканирование позволяет значительно сократить время на работы в издательстве по набору печатных изданий.
В издательском деле сканер является необходимым устройством. Существуют различные типы сканеров. Наиболее широко распространены планшетные сканеры. В планшетных сканерах сканируемое изображение освещается белым светом. Отраженный свет через уменьшающую линзу попадает на электронный элемент, называемый прибором с зарядовой связью (ПЗС), который «реагирует» на уровень освещенности уровнем напряжения. Значения напряжения легко преобразуются в цифровую форму и представляются в виде пиксельного изображения.
К профессиональным сканерам относятся слайд-сканеры, ориентированные на сканирование слайдов, фотографических негативов, и барабанные сканеры, в которых сразу несколько оригиналов (непрозрачных) закрепляются на барабане, вращающемся с большой скоростью. Считывающий элемент располагается очень близко к оригиналу. Такая конструкция обеспечивает наивысшее качество сканирования. Также используются проекционные сканеры, позволяющие кроме документов сканировать проекции трехмерных предметов.
К основным характеристикам сканеров относятся:
разрешение — параметр сканирования, показывающий, какое количество точек приходится на единицу длины. Обозначается обычно в точках на дюйм dpi, например, 600 dpi, или в пикселах на дюйм — ppi (от англ. pixel per inch), например, 600 ppi. Для профессионального применения характерны следующие показатели: для планшетных сканеров — 1200–3000 dpi; для барабанных: 2400–5000 dpi. Для распознавания текста следует использовать разрешение 300 dpi для кегля 10 и более пунктов, 400–600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов);
глубина распознавания цвета, которая показывает, сколько различных оттенков цветов способно распознать устройство. При сканировании изображения разбиваются на следующие типы:
монохромные черно-белые (Black and White) — для запоминания 1 пиксела требуется всего 1 бит памяти компьютера;
оттенки серого (Grayscale) — для каждого пиксела выделяется 8 битов, поэтому получается 256 = 28 градаций яркости, перекрывающих все оттенки от черного до белого цвета;
полноцветные изображения — для формирования изображения используется 24 бита и более, т. е. более 16 млн. цветов. В полиграфии используются 24–48-битовые сканеры;
ИНДЕКСИРОВАННЫЙ ЦВЕТ (Paletted) — режим с ограниченным количеством цветов (256), используется для изображений предназначенных к размещению в сети Интернет, при этом сканировать достаточно с разрешением 72 dpi.
время сканирования, которое зависит от совершенства механической части устройства и от типа интерфейса для сопряжения с компьютером;
максимальный размер сканируемого документа.
Уровень качества изображения закладывается в процессе сканирования в зависимости от устанавливаемого разрешения. А правильный выбор величины разрешения зависит от назначения изображения и способа его использования. Необходимо находить разумный баланс между качеством, размером файла и временем его обработки, а также учитывать возможности системы обработки.
На этапе сканирования сканер «просматривает» изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.
FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. При этом возможно два варианта взаимодействия программы со сканерами через TWAIN-драйвер:
через интерфейс FineReader: в этом случае для настройки опций сканирования используется диалог программы FineReader НАСТРОЙКИ СКАНЕРА;
через интерфейс TWAIN-драйвера сканера: для настройки опций сканирования используется диалог TWAIN-драйвера сканера.
Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.