- •Вопрос 1. Схема абстрактного технологического процесса. Классы информационных технологий, их состав, примеры.
- •3. Логическая и физическая структура документа. Разметка. Виды разметки.
- •Вопрос 4. TeX. Разработчики. Наиболее известные варианты. Преимущества.
- •Вопрос 7. Xml и xhtml. Описание элемента и списка атрибутов в xml. Спецификация описания типа документа в xml, альтернативная dtd.
- •Вопрос 9. Процесс сжатия mp3.Понятие биттрейта. Характеристики стандартных биттейтов при сжатии звука.
- •Вопрос 10. Кодирование стереосигнала в мр3. Форматы хранения аудиоинформации.
- •Вопрос 12. Форматы графических файлов.
- •Вопрос 13. Принцип оцифровки изображения. Режимы цветопередачи при оцифровке изображения. Понятие интерполяционного повышения разрешения. Три основных способа интерполяции. Twain.
- •3 Основные способа интерполяции:
- •Полноцветный
- •Вопрос 15. Моделирование и конфигурирование сцены в процессе построения трехмерной компьютерной модели.
- •Вопрос 17. Ocr. Общая характеристика. Основные принципы. Основные методы.
- •Вопрос 18. Технологический процесс использования abbyy Fine Reader. Принципы ipa.
- •Вопрос 19. Общий принцип mda. Классификаторы, используемые при распознавании символов в abbyy Fine Reader.
- •Вопрос 20. Технологии распознавания речи. Общие принципы распознавания речи. Акустическая и лингвистическая модели.
- •Вопрос 21. Классификация систем распознавания речи. Применение систем распознавания речи.
- •Вопрос 22. Критерии оценки качества озвучивания речи. Факторы, влияющие на озвучивание слов. Основные подходы к озвучиванию речи.
- •Модуль лингвистической обработки.
- •Вопрос 24. Этапы процесса машинного перевода. Фразеологический машинный перевод.
- •26. Защита файлов. Общий подход и подход unix. Организация многопользовательского доступа к файлам.
- •Вопрос 27. Файловая система ntfs.
- •Вопрос 30. Язык sql. Понятие транзакции. Свойства acid-транзакций.
- •Вопрос 31. Основные функции субд. Основные структурные элементы субд. Функции утилит администратора бд.
- •Вопрос 33. Коммутация пакетов. Эталонная модель взаимодействия открытых систем. Базовые сетевые топологии.
- •Вопрос 35. Протоколы электронной почты. Почтовые клиенты. Распределенные файловые системы Internet.
- •Вопрос 36. Распределенные информационные системы Интернет.
- •Вопрос 38. Клиент-серверные архитектуры распределенной обработки данных.
- •Вопрос 40. Схемы размещения и доступа к данным в распределенных бд. Управление параллельной обработкой в распределенной бд.
- •Вопрос 41. Технологии и средства удаленного доступа. Odbc, rpc.
- •Вопрос 42. Dcom.
- •Вопрос 43. Информационная безопасность. Защита информации. Меры информационной безопасности. Наиболее распространенные угрозы. Принципы анализа угроз.
- •Вопрос 44. Меры программно-технической безопасности.
- •Вопрос 45. Криптографические методы защиты информации.
- •Вопрос 46. Компьютерные вирусы и защиты от них. Средства защиты данных в субд. Защита информации в сетях.
Вопрос 21. Классификация систем распознавания речи. Применение систем распознавания речи.
Классификация систем распознавания речи:
по назначению – командные системы и системы диктовки текста
по механизмам функционирования – корреляционные детекторы, экспертные системы, вероятностные модели принятия решения, в том числе нейронные сети
по ориентации на пользователя – дикторонезависимые и диктороориентированные, по ориентации на слитную речь – распознающие отдельные слова и слитную речь
Простейшая программа распознавания способна распознавать только относительно не большой набор команд и символов, например цифры 0-9, слова да-нет, команда открыть, создать и тд. Такие программы давно употребляются в компьютерной телефонии для голосового набора номера или организации голосового, а также могут применяться для управления компьютером.
Программы для диктовки текстов первоначально могли распознавать только отдельную речь, в которой после каждого слова требовалось делать паузу. Первые успехи в распознавании слитной речи были сделаны коммерческими системами в 1997 году. Современные системы по мнению разработчиков (ibm, dragon systems) способны распознавать до 95% текста при непрерывной диктовке, тогда как для комфорта требуется 97%.
Наиболее известные системы распознавания: via voice, dragon dictat naturally speaking, voice xpess plus, natural dialogie system.
Многие системы распознавания речи, кроме dragon, работая в ОС Microsoft используют модуль microsoft speech api. Качественных систем русскоязычной речи пока нет. Для их разработок требуется построение модели алгоритмов ориентированных на русскую фонетику и лингвистику. Есть более менее удачные адаптации англоязычных продуктов Горыныч – адаптация dragon.
Перспективы систем распознавания речи
Несмотря на все успехи имеющиеся системы обеспечивают качество недостаточное для профессионального использования, кроме того они нуждаются в длительной настройке, требовательны к аппаратной части, чувствительны к наличию шума. Вопреки заявлениям производителей имеющиеся системы обеспечивают скорость диктовки порядка 0,5 слов в секунду, когда скорость проф. машинистки около 2 слов в секунду, а спонтанной – 2,5 слов в секунду. Высоких показателей достигают с проф. диктором, известно что постановка произношения занимает до нескольких лет, а обучения работы на клавиатуре до 2 месяцев. Необходимость подстраиваться под особенность систем может способствовать к появлению проф. заболеваний. Применение систем остается узкоспециализированными областями.
Вопрос 22. Критерии оценки качества озвучивания речи. Факторы, влияющие на озвучивание слов. Основные подходы к озвучиванию речи.
Технология генерации речи
Критерии оценки качества метода озвучивания речи.
Качество речи прямо пропорционально объему потребляемому синтезатором речи от ресурса. Качество характеризуется естественностью звучания, фонетической разборчивостью, комфортностью восприятия и временем привыкания. Естественность звучания характеризует то, на сколько близок синтезируемый звук к человеческой речи. Частые негативные эффекты: металлический призвук, отсутствие интонационного отделения, резкость или затянутость некоторых звуков.
Фонетическая разборчивость характеризует насколько слушателю трудно лили легко разбирать фонемы произносимые синтезатором. Фонетическая разборчивость может быть достаточно высокой, в том числе выше естественной речи.
Комфортность восприятия и время привыкания относят к субъективным показателям. Произнесение слов зависит от: расположения в предложении, знаков препинания и типа грамматической конструкции, смысла слова.
Подходя к озвучиванию речи: построение действующей модели речепроизводящей системы человека (артикуляционный синтез); моделирование акустического сигнала как такового: формантный синтез и компилятивный синтез.
Обобщенная функциональная система синтезатора речи.
Модуль лингвистической обработки – производиться определение языка для многоязычной системы и отфильтровываются непроизносимые символы. Выполняется нормализация текста, то есть разделение его на слова и остальные последовательности символов, подключаются специальные подблоки озвучивания цифр.
Модуль лингвистического анализа - во многих языках в частности в русском существует достаточно регулярные правильно чтения: правило соответствия между буквенными фонемами, которые могут требовать расставления ударений.
Подходы к формированию фонем:
1)автоматический фонемный транскриптор – перевод каждой буквы или словосочетания в некоторую фонему в соответствии с системой контекстных правил. Эффективной метода очень невысока, в случае если есть множество исключений, для этого формируют словарь. 2) Морфемный анализ слова – фонемы переводятся в морфы. Трудности связаны с наличием пограничных явлений на стыках морф.
Модуль формирования просодических характеристик – относятся его тональное, акцентное и ритмические характеристики. Блоки формирования просодических характеристик: расстановка синтагматических границ (пауз), приписывание ритмических и акцентных характеристик (длительности и энергия) и приписывание тональных характеристик (частота основного тона). При расстановке синтагматических границ определяются части высказывания (синтагмы), внутри которых энергетические и тональные характеристики ведут себя единообразно и которые человек может произнести на одном дыхании. При отсутствии пауз на границах слушающему кажется, что говорящий задыхается. Самое простое решение – ставить границы в соответствие со знаками пунктуации. Адекватная передача тональных характеристик – очень сложная задача, поскольку сопряжена его эмоциональная окраска, поэтому приписывание тональных характеристик как правило выполняется в рамках гипотезы о нейтральности интонации. Имеются множество продуктов для генерации речи, многие из них используют microsoft speech api.
Билет 23.
Обобщенная функциональная структура синтезатора речи.
Основные модули: