Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
мультимедіа-конспект лекцій.doc
Скачиваний:
51
Добавлен:
10.11.2019
Размер:
3.14 Mб
Скачать

2.5 Програмне забезпечення систем розпізнавання. Загальні вимоги.

Основне призначення розпізнавальної системи,якою є OCR-система полягає в аналізі растрової інформації (відсканованого символу) і присвоєнні точковому зображенню відповідного символа. Після завершення процесу розпізнавання OCR-системи повинні вміти зберігати форматування вихідних документів, присвоювати в потрібному місці атрибут абзацу, зберігати таблиці, графіку (нерозпізнані малюнки), штрих-коди і т.п. Сучасні програми розпізнавання підтримують всі відомі текстові та графічні формати і формати електронних таблиць, а деякі підтримують такі формати як HTML і PDF.

Робота з OCR-системами, як правило, не викликає особливих складностей. Більшість таких систем мають простий автоматичний режим “Scan&Read”. Крім того, вони підтримують і режим розпізнавання зображень з файлів. Однак для того, щоби досягти кращих можливих результатів, необхідно попередньо вручну настроїти її на конкретний вигляд тексту, а точніше на спосіб і якість накреслення букв та інших символів.

Дуже важливим при роботі з OCR-системою є зручність вибору мови розпізнавання і типу матеріалу, що розпізнається (друкуюча машинка, факс, матричний принтер, газета, та ін.), а також інтуїтивна зрозумілість користувацького інтерфейсу. При розпізнаванні текстів, в яких використовується декілька мов, ефективність розпізнавання залежить від вміння OCR-системи формувати групи мов.

Деякі особливості

При розпізнаванні документів дуже важливо, щоби OCR-система могла вчитись на невпевнено розпізнаних і нерозпізнаних символах. Ця властивість особливо актуальна при розпізнаванні великої кількості сторінок одного документа - навчивши систему один раз, можна пришвидшити процес розпізнавання.

Якими б ефективними не були алгоритми розпізнавання, що використовуються в OCR-системі, при низькій якості зображення уникнути помилок практично неможливо. Тому необхідна перевірка орфографії розпізнаних слів. Для корекції окремих помилок слід організувати взаємодію системи перевірки орфографії та OCR-системи таким чином, щоб забезпечити підбір варіантів символів, які імовірно були розпізнані з помилкою, і таким чином добитися орфографічної коректності слова. Як правило, OCR-системи підтримують велику кількість мов, а підтримка орфографії забезпечується тільки для їх частини. При цьому важливо, щоби існувала можливість поповнення словників вручну користувачем.

Кажучи про швидкість розпізнавання, можна відмітити той факт, що сучасні персональні комп’ютери (з процесорами Pentium і Celeron з тактовою частотою 500..800 MHz і оперативною пам’яттю 64 MB) виконують розпізнавання сторінки формату A4 з текстовим наповненням за 1..3 сек, а при наявності графічних об’єктів - за 20..25 сек. Тому для ефективної роботи з розпізнавання важливіша, все ж таки, точність, оскільки при неточному розпізнаванні виграш у часі буде програний за рахунок часових затрат на усунення помилок.

2.5.1 Програмне забезпечення ocr-систем

FineReader 5 Office (ABBYY) - зручна та потужна програма, яка забезпечує високу точність розпізнавання довільних текстів на білому фоні. Перевірка результата розпізнавання та відтворення оформлення вихідного документа дуже добре вирішені в цій системі. Підтримує велику кількість мов (176) і має вбудовану перевірку орфографії для 30 з них. Підтримує розпізнавання мов програмування.

Recognita Plus 5 (Recognita Corp.) - потужна система розпізнавання із зручною системою статистики і не зовсім продуманим інтерфейсом користувача. Досить добре розпізнає документи із текстами, надрукованими на темно-сірих або кольорових фонах. Підтримує досить велику кількість мов (114), в тому числі всі кириличні. Може зберігати первинне форматування, забезпечує досить точне розпізнавання таблиць.

CuneiForm 2000 Master (Cognitive Technologies) - підтримує декілька алгоритмів розпізнавання, але потребує деякої доробки. Має високу точність відтворення форми вихідного документа, включаючи таблиці та ілюстрації. Розпізнавання та редагування розпізнаного тексту можна проводити на 15 мовах, що підтримуються системою. При цьому має досить посередню точність розпізнавання і не дозволяє розпізнавати багатомовні документи.

TextBridge 9 Pro Business Edition (ScanSoft) - досить оригінальна та високопродуктивна система для розпізнавання англомовних текстів.

Розпізнавання мови

До недавнього часу коректне розпізнавання мови вимагало дорогого обладнання. Але останнім часом ситуація почала мінятись.

Існують англомовні системи розпізнання мови: NaturallySpeaking Delux фірми Dragon Systems, ViaVoice Gold фірми IBM та VoiceXpress фірми Lernout&Hauspie Speech Products. З їх допомогою можна диктувати тексти довільним Windows-аплікаціям, відтворювати записану мову для корекції тексту, а також зачитувати документи, використовуючи синтезований голос. Можна також, з деякими обмеженнями, керувати Windows-аплікаціями за допомогою голосових команд.

Про особливості системи розпізнавання мови можна судити з характеристик пакету Kurzweil Voice for Windows, версія 1.0. Пакет використовується в середовищі Microsoft Windows, забезпечує увід інформації в режимі дискутування, має швидкодію і потужність майже таку , як друкарка середньої швидкості.

При інсталяції програмного забезпечення обирають один із словників на 20 чи на 40 тис. слів(при цьому вимагається 8 чи 16 Мбайт системної пам’яті), системі потрібно 8-розрядне гніздо шини ISA для встановлення оригінальної співпроцесорної плати.

Kurzweil Voice – незалежна від диктора системи. Тобто, можна приступати до її використання без попереднього навчання програми особливостям вашої мови. Такий підхід має і переваги, і недоліки: незалежні від диктора системи легше налаштовувати, але вони менш точні. Тим не менше, Voice демонструє непогану точність. Систему можна потренувати, щоб вона краще розпізнавала слова чи особливості вашої мови. Проте для проведення тренування потрібен файл підкачки для Windows розміром не менше 18 Мбайт.

При використання навушників і мікрофону, що входять до комплекту системи, потрібно, щоб між словами були короткі паузи. Фірма Kurzweil стверджує, що можна досягти швидкості диктування 60 слів за хвилину.

Система “Горинич” являє собою русифіковану версію однієї із самонавчаючих програм, створену фірмою Dragon Systems. Її можна використовувати для диктування текстів на російській та англійській мовах, а також для мовного керування комп’ютером. Словник системи містить 10000 слів, вона розуміє знаки розділення, лапки, цифри, скорочення.