- •Вопрос 1. Схема абстрактного технологического процесса. Классы информационных технологий, их состав, примеры.
- •3. Логическая и физическая структура документа. Разметка. Виды разметки.
- •Вопрос 4. TeX. Разработчики. Наиболее известные варианты. Преимущества.
- •Вопрос 7. Xml и xhtml. Описание элемента и списка атрибутов в xml. Спецификация описания типа документа в xml, альтернативная dtd.
- •Вопрос 9. Процесс сжатия mp3.Понятие биттрейта. Характеристики стандартных биттейтов при сжатии звука.
- •Вопрос 10. Кодирование стереосигнала в мр3. Форматы хранения аудиоинформации.
- •Вопрос 12. Форматы графических файлов.
- •Вопрос 13. Принцип оцифровки изображения. Режимы цветопередачи при оцифровке изображения. Понятие интерполяционного повышения разрешения. Три основных способа интерполяции. Twain.
- •3 Основные способа интерполяции:
- •Полноцветный
- •Вопрос 15. Моделирование и конфигурирование сцены в процессе построения трехмерной компьютерной модели.
- •Вопрос 17. Ocr. Общая характеристика. Основные принципы. Основные методы.
- •Вопрос 18. Технологический процесс использования abbyy Fine Reader. Принципы ipa.
- •Вопрос 19. Общий принцип mda. Классификаторы, используемые при распознавании символов в abbyy Fine Reader.
- •Вопрос 20. Технологии распознавания речи. Общие принципы распознавания речи. Акустическая и лингвистическая модели.
- •Вопрос 21. Классификация систем распознавания речи. Применение систем распознавания речи.
- •Вопрос 22. Критерии оценки качества озвучивания речи. Факторы, влияющие на озвучивание слов. Основные подходы к озвучиванию речи.
- •Модуль лингвистической обработки.
- •Вопрос 24. Этапы процесса машинного перевода. Фразеологический машинный перевод.
- •26. Защита файлов. Общий подход и подход unix. Организация многопользовательского доступа к файлам.
- •Вопрос 27. Файловая система ntfs.
- •Вопрос 30. Язык sql. Понятие транзакции. Свойства acid-транзакций.
- •Вопрос 31. Основные функции субд. Основные структурные элементы субд. Функции утилит администратора бд.
- •Вопрос 33. Коммутация пакетов. Эталонная модель взаимодействия открытых систем. Базовые сетевые топологии.
- •Вопрос 35. Протоколы электронной почты. Почтовые клиенты. Распределенные файловые системы Internet.
- •Вопрос 36. Распределенные информационные системы Интернет.
- •Вопрос 38. Клиент-серверные архитектуры распределенной обработки данных.
- •Вопрос 40. Схемы размещения и доступа к данным в распределенных бд. Управление параллельной обработкой в распределенной бд.
- •Вопрос 41. Технологии и средства удаленного доступа. Odbc, rpc.
- •Вопрос 42. Dcom.
- •Вопрос 43. Информационная безопасность. Защита информации. Меры информационной безопасности. Наиболее распространенные угрозы. Принципы анализа угроз.
- •Вопрос 44. Меры программно-технической безопасности.
- •Вопрос 45. Криптографические методы защиты информации.
- •Вопрос 46. Компьютерные вирусы и защиты от них. Средства защиты данных в субд. Защита информации в сетях.
Вопрос 19. Общий принцип mda. Классификаторы, используемые при распознавании символов в abbyy Fine Reader.
Многоуровневый анализ документа - MDA multilevel document analysis
Выполняется многоуровневая декомпозиция документа - строки разбиваются на слова, слова на буквы и т.д. когда символы выделены и распознаны, выполняется последовательная сборка документа от нижних уровней к высшим. При наличии ошибок при распознавании верхнего уровня (абзац перепутан с иллюстрацией) успешное завершение процесса практически невозможно.
Защита от коллизий MDA в fine reader
Объекты любого уровня распознаются в соответствии с принципами IPA, в первую очередь целенаправленно проверяются гипотезы о типах обнаруженных объектов
Результаты анализа на любом из нижних уровней способны повлиять на действия с объектами верхних уровней
При выделении объектов в процессе перехода от уровня страницы до уровня слова fine reader использует процедуры интеллектуальной фильтрации фоновых структур и адаптивной бинаризации:
Позволяет отделять строки текса от сколь угодно сложного фона
Гибко выбирать оптимальные параметры бинаризации
При выделении символов из слова используются классификаторы (механизмы распознания букв):
Растровый – классифицирует методом сопоставления матриц, эталоны символов строятся тупеем наложения друг на друга большого количества одних и тех же букв в разных вариантах начертания.
Контурный – аналогичен растровому, за исключением того, что для сравнения используется не полный образ эталона, а его контур. Эффективен при распознавание декоративного шрифта.
Признаковый – выполняет сравнение символа с признаками эталона, в качестве признаков могут быть – количество заполненных точек в некотором направлении, периметр контура и т.д. Точность работы зависит от выбора набора признаков. Признаки – выделяемые при анализе растрового изображения.
Структурный – классифицирует методом выделения признаков, т.е. сравнивает набор структурных элементов символа с элементами эталона. Работает медленнее и точнее предыдущих. Признаки – дуги и их сопоставлении.
Признаково-дифференциальный – ориентирован на анализ отличий между схожими объектами.
Структурно-дифференциальный – ориентирован на анализ отличий структуры.
Распознание начинается с растрового и признакового классификатора, которые формируют совокупность гипотез о символе, рассортированных по весу. Для дальнейшей работы с гипотезами используют структурно-дифференциальный и структурный классификатор. При сборке слов из букв используют различные модели слов – словарное слово, не словарное слово, e-mail, URL, цифры с префиксом или суффиксом, регулярное выражение и т.д.
В результате формируется набор гипотез о расшифровке слова.
Окончательное решение принимается в ходе контекстной проверки, которая путем анализа окружения слова позволяет определить язык, предпочтение между буквами и цифрами и т.д.
Из распознанных слов получаются текстовые блоки, которые размещаются на странице в соответствии с положением оригинала. 100% точность распознавания является пока недостижимой, показатели, достигаемые в fine reader - 1-3 ошибки на страницу – являются вполне приемлемыми и позволяют значительно ускорить процесс ввода печатного текста.