Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы_по_ИТ.doc
Скачиваний:
51
Добавлен:
24.04.2019
Размер:
407.55 Кб
Скачать

Вопрос 21. Классификация систем распознавания речи. Применение систем распознавания речи.

Классификация систем распознавания речи:

  • по назначению – командные системы и системы диктовки текста

  • по механизмам функционирования – корреляционные детекторы, экспертные системы, вероятностные модели принятия решения, в том числе нейронные сети

  • по ориентации на пользователя – дикторонезависимые и диктороориентированные, по ориентации на слитную речь – распознающие отдельные слова и слитную речь

Простейшая программа распознавания способна распознавать только относительно не большой набор команд и символов, например цифры 0-9, слова да-нет, команда открыть, создать и тд. Такие программы давно употребляются в компьютерной телефонии для голосового набора номера или организации голосового, а также могут применяться для управления компьютером.

Программы для диктовки текстов первоначально могли распознавать только отдельную речь, в которой после каждого слова требовалось делать паузу. Первые успехи в распознавании слитной речи были сделаны коммерческими системами в 1997 году. Современные системы по мнению разработчиков (ibm, dragon systems) способны распознавать до 95% текста при непрерывной диктовке, тогда как для комфорта требуется 97%.

Наиболее известные системы распознавания: via voice, dragon dictat naturally speaking, voice xpess plus, natural dialogie system.

Многие системы распознавания речи, кроме dragon, работая в ОС Microsoft используют модуль microsoft speech api. Качественных систем русскоязычной речи пока нет. Для их разработок требуется построение модели алгоритмов ориентированных на русскую фонетику и лингвистику. Есть более менее удачные адаптации англоязычных продуктов Горыныч – адаптация dragon.

Перспективы систем распознавания речи

Несмотря на все успехи имеющиеся системы обеспечивают качество недостаточное для профессионального использования, кроме того они нуждаются в длительной настройке, требовательны к аппаратной части, чувствительны к наличию шума. Вопреки заявлениям производителей имеющиеся системы обеспечивают скорость диктовки порядка 0,5 слов в секунду, когда скорость проф. машинистки около 2 слов в секунду, а спонтанной – 2,5 слов в секунду. Высоких показателей достигают с проф. диктором, известно что постановка произношения занимает до нескольких лет, а обучения работы на клавиатуре до 2 месяцев. Необходимость подстраиваться под особенность систем может способствовать к появлению проф. заболеваний. Применение систем остается узкоспециализированными областями.

Вопрос 22. Критерии оценки качества озвучивания речи. Факторы, влияющие на озвучивание слов. Основные подходы к озвучиванию речи.

Технология генерации речи

Критерии оценки качества метода озвучивания речи.

Качество речи прямо пропорционально объему потребляемому синтезатором речи от ресурса. Качество характеризуется естественностью звучания, фонетической разборчивостью, комфортностью восприятия и временем привыкания. Естественность звучания характеризует то, на сколько близок синтезируемый звук к человеческой речи. Частые негативные эффекты: металлический призвук, отсутствие интонационного отделения, резкость или затянутость некоторых звуков.

Фонетическая разборчивость характеризует насколько слушателю трудно лили легко разбирать фонемы произносимые синтезатором. Фонетическая разборчивость может быть достаточно высокой, в том числе выше естественной речи.

Комфортность восприятия и время привыкания относят к субъективным показателям. Произнесение слов зависит от: расположения в предложении, знаков препинания и типа грамматической конструкции, смысла слова.

Подходя к озвучиванию речи: построение действующей модели речепроизводящей системы человека (артикуляционный синтез); моделирование акустического сигнала как такового: формантный синтез и компилятивный синтез.

Обобщенная функциональная система синтезатора речи.

Модуль лингвистической обработки – производиться определение языка для многоязычной системы и отфильтровываются непроизносимые символы. Выполняется нормализация текста, то есть разделение его на слова и остальные последовательности символов, подключаются специальные подблоки озвучивания цифр.

Модуль лингвистического анализа - во многих языках в частности в русском существует достаточно регулярные правильно чтения: правило соответствия между буквенными фонемами, которые могут требовать расставления ударений.

Подходы к формированию фонем:

1)автоматический фонемный транскриптор – перевод каждой буквы или словосочетания в некоторую фонему в соответствии с системой контекстных правил. Эффективной метода очень невысока, в случае если есть множество исключений, для этого формируют словарь. 2) Морфемный анализ слова – фонемы переводятся в морфы. Трудности связаны с наличием пограничных явлений на стыках морф.

Модуль формирования просодических характеристик – относятся его тональное, акцентное и ритмические характеристики. Блоки формирования просодических характеристик: расстановка синтагматических границ (пауз), приписывание ритмических и акцентных характеристик (длительности и энергия) и приписывание тональных характеристик (частота основного тона). При расстановке синтагматических границ определяются части высказывания (синтагмы), внутри которых энергетические и тональные характеристики ведут себя единообразно и которые человек может произнести на одном дыхании. При отсутствии пауз на границах слушающему кажется, что говорящий задыхается. Самое простое решение – ставить границы в соответствие со знаками пунктуации. Адекватная передача тональных характеристик – очень сложная задача, поскольку сопряжена его эмоциональная окраска, поэтому приписывание тональных характеристик как правило выполняется в рамках гипотезы о нейтральности интонации. Имеются множество продуктов для генерации речи, многие из них используют microsoft speech api.

Билет 23.

Обобщенная функциональная структура синтезатора речи.

Основные модули: