Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
OCR_FineReader_11.docx
Скачиваний:
12
Добавлен:
03.05.2019
Размер:
2.31 Mб
Скачать
    1. Основные этапы процесса ввода документа в компьютер

Процесс ввода документа в компьютер можно подразделить на следующие этапы:

  1. сканирование или открытие цифрового файла;

  2. анализ макета;

  3. Распознавание;

  4. проверка результатов;

  5. сохранение распознанного текста.

      1. Сканирование

Сканирование — процесс ввода в компьютер изображений текстов и различной графической информации с помощью специального устройства — сканера. При этом происходит перевод визуальной информации в цифровую. Сканирование позволяет значительно сократить время на работы в издательстве по набору печатных изданий.

В издательском деле сканер является необходимым устройством. Существуют различные типы сканеров. Наиболее широко распространены планшетные сканеры. В планшетных сканерах сканируемое изображение освещается белым светом. Отраженный свет через уменьшающую линзу попадает на электронный элемент, называемый прибором с зарядовой связью (ПЗС), который «реагирует» на уровень освещенности уровнем напряжения. Значения напряжения легко преобразуются в цифровую форму и представляются в виде пиксельного изображения.

К профессиональным сканерам относятся слайд-сканеры, ориентированные на сканирование слайдов, фотографических негативов, и барабанные сканеры, в которых сразу несколько оригиналов (непрозрачных) закрепляются на барабане, вращающемся с большой скоростью. Считывающий элемент располагается очень близко к оригиналу. Такая конструкция обеспечивает наивысшее качество сканирования. Также используются проекционные сканеры, позволяющие кроме документов сканировать проекции трехмерных предметов.

К основным характеристикам сканеров относятся:

  1. разрешение — параметр сканирования, показывающий, какое количество точек приходится на единицу длины. Обозначается обычно в точках на дюйм dpi, например, 600 dpi, или в пикселах на дюйм — ppi (от англ. pixel per inch), например, 600 ppi. Для профессионального применения характерны следующие показатели: для планшетных сканеров — 1200–3000 dpi; для барабанных: 2400–5000 dpi. Для распознавания текста следует использовать разрешение 300 dpi для кегля 10 и более пунктов, 400–600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов);

  2. глубина распознавания цвета, которая показывает, сколько различных оттенков цветов способно распознать устройство. При сканировании изображения разбиваются на следующие типы:

  • монохромные черно-белые (Black and White) — для запоминания 1 пиксела требуется всего 1 бит памяти компьютера;

  • оттенки серого (Grayscale) — для каждого пиксела выделяется 8 битов, поэтому получается 256 = 28 градаций яркости, перекрывающих все оттенки от черного до белого цвета;

  • полноцветные изображения — для формирования изображения используется 24 бита и более, т. е. более 16 млн. цветов. В полиграфии используются 24–48-битовые сканеры;

  • ИНДЕКСИРОВАННЫЙ ЦВЕТ (Paletted) — режим с ограниченным количеством цветов (256), используется для изображений предназначенных к размещению в сети Интернет, при этом сканировать достаточно с разрешением 72 dpi.

  1. время сканирования, которое зависит от совершенства механической части устройства и от типа интерфейса для сопряжения с компьютером;

  2. максимальный размер сканируемого документа.

Уровень качества изображения закладывается в процессе сканирования в зависимости от устанавливаемого разрешения. А правильный выбор величины разрешения зависит от назначения изображения и способа его использования. Необходимо находить разумный баланс между качеством, размером файла и временем его обработки, а также учитывать возможности системы обработки.

На этапе сканирования сканер «просматривает» изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости.

FineReader работает со сканерами через TWAIN-интерфейс. Это единый международный стандарт, введенный в 1992 году для унификации взаимодействия устройств для ввода изображений в компьютер (например, сканера) с внешними приложениями. При этом возможно два варианта взаимодействия программы со сканерами через TWAIN-драйвер:

  1. через интерфейс FineReader: в этом случае для настройки опций сканирования используется диалог программы FineReader НАСТРОЙКИ СКАНЕРА;

  2. через интерфейс TWAIN-драйвера сканера: для настройки опций сканирования используется диалог TWAIN-драйвера сканера.

Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]