- •4) Графічно-шрифтове оформлення тексту
- •Конец формы
- •5) Загальні вимоги до викладу тексту службового документа
- •6.Загальні знання про автоматичний переклад.
- •7. Засоби та види автоматичного перекладу.
- •8.Засоби єдності лінгвістичної композиції тексту.
- •9 Засоби зв’язку між компонентами надфразової єдності, або складного синтаксичного цілого.
- •10.Зв’язність як головна категорія тексту.
- •11. Зв'язок числівників з іменниками
- •12. Значення наукових досліджень мовознавців для формування сучасних уявлень про текст
- •13. Історичні витоки документної лінгвістики
- •14. Категорія дискретності (членування). Лексичні, граматичні, композиційні засоби зв’язку в тексті.
- •15. Категорія інформативності та засоби її реалізації у тексті
- •16. Категорія континууму та засоби її реалізації у тексті.
- •Категорія цілісності. Співвідношення понять «цілісність тексту» і «завершеність тексту».
- •18.Комп’ютерна лексикографія. Робота зі словниками.
- •19. Конектори і демаркатори як лексичні засоби єдності тексту.
- •21. Лексикографічний аспект метамови.
- •22. Лексична стратифікація тексту службового документа.
- •23. Математичні та комп’ютерні методи і прийоми аналізу тексту.
- •24. Міждисциплінарні зв’язки документної лінгвістики з іншими науками та галузями знань.
- •25. Написання закінчень родового відмінка однини іменників чоловічого роду іі відміни.
- •26. Написання і відмінювання власних особових назв.
- •27. Описовий метод та його прийоми у дослідженні тексту документа.
- •28. Основні етапи: сканування, сегментування тексту, безпосереднє розпізнавання.
- •29. Основні складники тексту.
- •30. Особливості вживання експліцитних та імпліцитних зв’язків у текстах документів. Види імпліцитних зв’язків
- •31. Особливості вираження модальності у текстах службових документів.
- •32. Особливості текстової комунікації.
- •33. Особливості інтерпретації тексту
- •34. Особливості писемного тексту. Його основні риси
- •35. Перевірка правопису.
- •36. Позначення голосних у російських та в інших слов’янських власних назвах. Позначення голосних у російських власних назвах
- •Позначення голосних в інших слов'янських власних назвах
- •37. Позначення цифрової інформації в документах.
- •38. Поняття недоінтерпретації та надінтерпретації тексту.
- •39. Поняття про термін та метамову.
- •40. Порядок розпізнавання текстових документів
- •41. Правила скорочень у текстах документів
- •42 Причини різноманіття дефініцій тексту в науці
- •43 Речення і висловлювання.
- •44. Речення як складова тексту документа.
- •45. Рід і особливості вживання назв осіб за професією, посадою, званням
- •Робота з таблицями у Word-документі.
- •Роль ретроспекції та проспекції у вираженні категорії континууму.
- •Смислові складники тексту та варіанти їх розміщення.
- •Співвідношення понять «текст» і «дискурс».
- •Способи творення та особливості використання документознавчої термінології.
- •51 Стилістична диференціація української лексики.
- •52. Структурний метод та його прийоми дослідження тексту документа
- •53. Структурні типи надфразових єдностей, або складних синтаксичних цілих
- •54. Сутність герменевтичного підходу в лінгвістичному дослідженні тексту
- •55 . Сучасні концепції тексту
- •56. Текст як надфразова єдність, або складне синтаксичне ціле
- •57. Текстове оформлення Word-документа. Створення форм та бланків.
- •58. Текстові редактори і текстові процесори
- •59. Текстоутворювальні ознаки тексту
- •60. Теоретичні основи документної лінгвістики
- •Уніфікація мовних засобів організації тексту службового документа
- •62. Форми та ступінь репрезентації адресанта та адресата у тексті службового документа
40. Порядок розпізнавання текстових документів
Оскільки потреба в розпізнаванні тексту відсканованих документів достатньо велика, тому є значне число програм, призначених для цієї цілі. Різні наукові методи розпізнавання тексту розвивалися незалежно один від одного, багато які з цих програм використовують цілком різні алгоритми. Ці алгоритми можуть давати різні результати на різних документах. Наприклад, якщо системи OCR спроможні розпізнавати тільки стандартний спеціально підготовлений шрифт і дають на цьому шрифті найкращі результати, що не може перевершити жодна з більш універсальних програм. Сучасні алгоритми розпізнавання тексту не орієнтуються ні на конкретний шрифт, ні на конкретний алфавіт. Більшість програм здатні розпізнавати текст кількома мовами. Ті самі алгоритми можна використовувати для розпізнавання латинського, російського, українських, арабського й інших алфавітів і навіть змішаних текстів. Зрозуміло, програма повинна знати, про який алфавіт мова йде.
Найбільше широко відомі і поширені програми FineReader і CuneiForm. Ми докладно зупинимося на програмі FineReader, що забезпечує високу якість розпізнавання і зручність застосування. З моменту виходу FineReader 4.0 Std/Pro завоював 26 нагород за точність і простоту використання.
ПРОГРАМА FINEREADER
Програма FineReader - продукт групи компаній ABBYY.
ABBYY - один із головних виробників програмного забезпечення в області лінгвістики, семантики, опрацювання текстів і систем оптичного розпізнавання символів. Група компаній ABBYY складається зі штаб-квартири ABBYY у Москві, ABBYY України (Київ), ABBYY США (Фримонт, Каліфорнія), ABBYY Європи (Мюнхен, Німеччина).
Програмні продукти ABBYY :
сімейство систем розпізнавання FINE READER, що дозволяють автоматизувати введення в комп'ютер текстів, таблиць, форм анкет і бланків;
FINE READER РУКОПИС забезпечує розпізнавання форм, заповнених друкованими літера від руки;
система FINE READER БАНК автоматизує введення платіжних доручень;
ABBYY Retrieval & Morphology Engine - інструментарій розроблювача для інтеграції повнотекстового пошуку і лінгвістичних технологій у зовнішні додатки ;
система електронних англо-російських і російсько-англійських словників LINGVO.
Програма FineReader призначена для розпізнавання текстів на російському, англійському, німецьких, українських, французькому і багатьох інших мовах, а також для розпізнавання змішаних двомовних текстів.
Програма має ряд зручних можливостей. Вона дозволяє об'єднувати сканування і розпізнавання в одну операцію, працювати з пакетами документів (або з Багатосторінковими документами) і з бланками. Програму можна навчати для підвищення якості розпізнавання погано надрукованих текстів або складних шрифтів. Вона дозволяє редагувати розпізнаний текст і перевіряти його орфографію. FineReader працює з різними моделями сканерів і підтримує стандарт TWAIN.
Перетворення паперового документа в електронний відбувається в три етапи.
Перший етап - сканування. Сканер під керуванням драйвера, що підтримує протокол TWAIN, перетворить документ у сукупність графічних файлів (по числу сторінок). При необхідності користувач може переустановити параметри сканування.
Зображення з листа паперу може бути перетворене в цифрову форму і за допомогою інших засобів, таких, наприклад, як цифрові фотоапарати і цифрової відеокамери.
Другий етап - сегментація тексту. Сегментація це процес виділення в документі однорідних фрагментів (блоків) зображення - тексту, малюнків, таблиць. Блоки опрацьовуються і включаються в документ у порядку нумерації блоків. Сегментація може виконуватися в автоматичному режимі. Якщо вихідний документ має складну структуру - містити ілюстрації, підписи до них, текст розміщається в декількох колонках, то сегментація робить у ручному режимі. У результаті сегментації утворяться файли, що бережуть опис блоків кожної сторінки.
Останній третій етап роботи програми - безпосередньо розпізнавання. Він стосується тільки блоків, що містять текст і таблиці. Графічні блоки просто пересилаються у формований файл. Розпізнаний текст відображається в окремому вікні у виді форматованного текстового документа. Програма виділяє цвітом ті символи, що вона сама розглядає як неоднозначно пізнані. Це спрощує пошук помилок. Цей етап звичайно не потребує втручання користувача, за винятком тих випадків, коли текст неякісно відбитий або набраний невідомим шрифтом. Тоді користувач може "навчити" програму розпізнавати даний текст.
Створений текстовий файл "утрачає зв'язок" із вихідним зображенням і може редагуватися і форматувати незалежно від нього. Засобами програми в отриманому тексті можна також провести перевірку граматики.
Кожний із цих етапів програма FineReader може виконувати як автоматично, так і під контролем користувача. Існує режим, коли всі три етапи виконуються автоматично під керуванням "майстра". У цьому випадку перетворення документа відбувається за один прийом.
Отриманий текст можна зберегти у виді форматованного або неформатованного документа. Передбачено також можливість прямої передачі отриманого тексту в програми Word або Excel, а також у буфер обміну Windows.
Процес сканування, сегментування і розпізнавання багатосторінкового текстового документа достатньо тривалий і не завжди може бути закінчений за один прийом. . FineReader надає можливість розбити цей процес на частині. Робота з перетворення документа може бути передерта на будь-якому етапі. При цьому вся поточна інформація з опрацювання документа - графічні файли, сегментні файли, формований текстовий файл і службові файли записуються в папку з назвою "Пакет". При поновленні роботи всі необхідні файли зчиуються із папки "Пакет" і процес перетворення документа продовжується з перерваного місця.