Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лінгвістичні основи док-ва.docx
Скачиваний:
14
Добавлен:
26.04.2019
Размер:
200.76 Кб
Скачать

40. Порядок розпізнавання текстових документів

Оскільки потреба в розпізнаванні тексту відсканованих документів достатньо велика, тому є значне число програм, призначених для цієї цілі. Різні наукові методи розпізнавання тексту розвивалися незалежно один від одного, багато які з цих програм використовують цілком різні алгоритми. Ці алгоритми можуть давати різні результати на різних документах. Наприклад, якщо системи OCR спроможні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, що не може перевершити жодна з більш універсальних програм. Сучасні алгоритми розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатні розпізнавати текст кількома мовами. Ті самі алгоритми можна використовувати для розпізнавання латинського, російського, українських, арабського й інших алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт мова йде.

Найбільше широко відомі і поширені програми FineReader і CuneiForm. Ми докладно зупинимося на програмі FineReader, що забезпечує високу якість розпізнавання і зручність застосування. З моменту виходу FineReader 4.0 Std/Pro завоював 26 нагород за точність і простоту використання.

ПРОГРАМА FINEREADER

Програма FineReader - продукт групи компаній ABBYY.

ABBYY - один із головних виробників програмного забезпечення в області лінгвістики, семантики, опрацювання текстів і систем оптичного розпізнавання символів. Група компаній ABBYY складається зі штаб-квартири ABBYY у Москві, ABBYY України (Київ), ABBYY США (Фримонт, Каліфорнія), ABBYY Європи (Мюнхен, Німеччина).

Програмні продукти ABBYY :

  • сімейство систем розпізнавання FINE READER, що дозволяють автоматизувати введення в комп'ютер текстів, таблиць, форм анкет і бланків;

  • FINE READER РУКОПИС забезпечує розпізнавання форм, заповнених друкованими літера від руки;

  • система FINE READER БАНК автоматизує введення платіжних доручень;

  • ABBYY Retrieval & Morphology Engine - інструментарій розроблювача для інтеграції повнотекстового пошуку і лінгвістичних технологій у зовнішні додатки ;

  • система електронних англо-російських і російсько-англійських словників LINGVO.

Програма FineReader призначена для розпізнавання текстів на російському, англійському, німецьких, українських, французькому і багатьох інших мовах, а також для розпізнавання змішаних двомовних текстів.

Програма має ряд зручних можливостей. Вона дозволяє об'єднувати сканування і розпізнавання в одну операцію, працювати з пакетами документів (або з Багатосторінковими документами) і з бланками. Програму можна навчати для підвищення якості розпізнавання погано надрукованих текстів або складних шрифтів. Вона дозволяє редагувати розпізнаний текст і перевіряти його орфографію. FineReader працює з різними моделями сканерів і підтримує стандарт TWAIN.

Перетворення паперового документа в електронний відбувається в три етапи.

  1. Перший етап - сканування. Сканер під керуванням драйвера, що підтримує протокол TWAIN, перетворить документ у сукупність графічних файлів (по числу сторінок). При необхідності користувач може переустановити параметри сканування.

Зображення з листа паперу може бути перетворене в цифрову форму і за допомогою інших засобів, таких, наприклад, як цифрові фотоапарати і цифрової відеокамери.

  1. Другий етап - сегментація тексту. Сегментація це процес виділення в документі однорідних фрагментів (блоків) зображення - тексту, малюнків, таблиць. Блоки опрацьовуються і включаються в документ у порядку нумерації блоків. Сегментація може виконуватися в автоматичному режимі. Якщо вихідний документ має складну структуру - містити ілюстрації, підписи до них, текст розміщається в декількох колонках, то сегментація робить у ручному режимі. У результаті сегментації утворяться файли, що бережуть опис блоків кожної сторінки.

  2. Останній третій етап роботи програми - безпосередньо розпізнавання. Він стосується тільки блоків, що містять текст і таблиці. Графічні блоки просто пересилаються у формований файл. Розпізнаний текст відображається в окремому вікні у виді форматованного текстового документа. Програма виділяє цвітом ті символи, що вона сама розглядає як неоднозначно пізнані. Це спрощує пошук помилок. Цей етап звичайно не потребує втручання користувача, за винятком тих випадків, коли текст неякісно відбитий або набраний невідомим шрифтом. Тоді користувач може "навчити" програму розпізнавати даний текст.

Створений текстовий файл "утрачає зв'язок" із вихідним зображенням і може редагуватися і форматувати незалежно від нього. Засобами програми в отриманому тексті можна також провести перевірку граматики.

Кожний із цих етапів програма FineReader може виконувати як автоматично, так і під контролем користувача. Існує режим, коли всі три етапи виконуються автоматично під керуванням "майстра". У цьому випадку перетворення документа відбувається за один прийом.

Отриманий текст можна зберегти у виді форматованного або неформатованного документа. Передбачено також можливість прямої передачі отриманого тексту в програми Word або Excel, а також у буфер обміну Windows.

Процес сканування, сегментування і розпізнавання багатосторінкового текстового документа достатньо тривалий і не завжди може бути закінчений за один прийом. . FineReader надає можливість розбити цей процес на частині. Робота з перетворення документа може бути передерта на будь-якому етапі. При цьому вся поточна інформація з опрацювання документа - графічні файли, сегментні файли, формований текстовий файл і службові файли записуються в папку з назвою "Пакет". При поновленні роботи всі необхідні файли зчиуються із папки "Пакет" і процес перетворення документа продовжується з перерваного місця.