Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Пакет лекций.doc
Скачиваний:
9
Добавлен:
14.08.2019
Размер:
5.04 Mб
Скачать

3. Процес сегментації.

Наступний етап оброблення документа — сегментація, коли відбувається розбиття сканованого зображення на окремі фрагменти (блоки). Різні типи блоків обробляються програмою по-різному. Програма FineReader підтримує такі типи блоків:

• текстовий («Текст») — на етапі розпізнавання перетворюється на текст;

• табличний («Таблица») — набір комірок, вміст яких перетворюється на текст окремо;

• зображення («Картинка») — вставляється в документ без зміни як графічний об'єкт;

• що містить штрих-код («Штрих-код») — розпізнається як штрих-код;

• зайвий («Нераспознаваемый») — під час розпізнавання ігнорується.

Процес автоматичної сегментації починається після клацання мишею на кнопці «Анализ макета страницы». При цьому різні типи блоків відображаються у вигляді прямокутних рамок різних кольорів зі своїм номером у лівому верхньому кутку.

Якщо структура сторінки досить складна, то можна скористатися ручною сегментацією або провести корекцію результатів автоматичної сегментації. Новий блок створюється "протягуванням" миші по діагоналі блока, який треба створити.

Для корекції блок спочатку необхідно виділити клацанням мишею (блок 2 на рисунку нижче),

Вікно програми FineReader після сегментації зображення

а потім за допомогою кутових маркерів змінити розмір або позицію поточного блока.

Команди редагування блоків винесено на вертикальній панелі інструментів у вигляді кнопок:

1 2 3 4 5 6 7 8 9 10 11 12

Кнопки (в порядку їх нумерації) дають змогу:

  1. Виконати автоматичну сегментацію.

  2. Виділити і зробити аналіз поточного блоку.

  3. Виділити текстовий блок.

  4. Виділити табличний блок.

  5. Виділити блок малюнку.

  6. Виділити для редагування поточний блок.

  7. Додати вертикальну лінію в табличному блоці.

  8. Додати горизонтальну лінію в табличному блоці.

  9. Вилучити вертикальну лінію із табличного блоку.

  10. Зменшити масштаб перегляду у вікні «Изображение».

  11. Збільшити масштаб перегляду у вікні «Изображение».

У контекстному меню можна вилучити один або всі блоки, змінити тип блока, очистити блок. Після сегментації можна розпочинати розпізнавання тексту.

  1. Розпізнавання тексту

Етап розпізнавання тексту починається після клацання мишею на кнопці «2.Распознать» і повністю автоматизується. З метою зменшення помилок розпізнавання необхідно правильно встановити мову документа, вибравши її зі списку на панелі інструментів за допомогою миші. Якщо документ містить фрагменти на різних мовах, то потрібні мови вибираються встановленням в списку прапорців напроти відповідної мови.

Процес розпізнавання супроводжується забарвленням текстових і табличних блоків у вікні «Изображение» блакитним кольором. Нерозпізнані символи забарвлюються синім кольором. У ході розпізнавання можуть з'являтися повідомлення з рекомендаціями про додаткові настройки з метою підвищення якості розпізнавання, наприклад провести повторне сканування з підвищеною роздільною здатністю. Після завершення розпізнавання текстовий документ відображається у вікні «Текст».

Невпевнено розпізнані слова в тексті позначено блакитним кольором. Кнопки на панелі «Форматирование» дають змогу перейти до наступного та попереднього невпевнено розпізнаних слів. За необхідності невпевнено розпізнані слова можна відредагувати.