Вопрос 21. Классификация систем распознавания речи. Применение систем распознавания речи.

Классификация систем распознавания речи:

по назначению – командные системы и системы диктовки текста
по механизмам функционирования – корреляционные детекторы, экспертные системы, вероятностные модели принятия решения, в том числе нейронные сети
по ориентации на пользователя – дикторонезависимые и диктороориентированные, по ориентации на слитную речь – распознающие отдельные слова и слитную речь

Простейшая программа распознавания способна распознавать только относительно не большой набор команд и символов, например цифры 0-9, слова да-нет, команда открыть, создать и тд. Такие программы давно употребляются в компьютерной телефонии для голосового набора номера или организации голосового, а также могут применяться для управления компьютером.

Программы для диктовки текстов первоначально могли распознавать только отдельную речь, в которой после каждого слова требовалось делать паузу. Первые успехи в распознавании слитной речи были сделаны коммерческими системами в 1997 году. Современные системы по мнению разработчиков (ibm, dragon systems) способны распознавать до 95% текста при непрерывной диктовке, тогда как для комфорта требуется 97%.

Наиболее известные системы распознавания: via voice, dragon dictat naturally speaking, voice xpess plus, natural dialogie system.

Многие системы распознавания речи, кроме dragon, работая в ОС Microsoft используют модуль microsoft speech api. Качественных систем русскоязычной речи пока нет. Для их разработок требуется построение модели алгоритмов ориентированных на русскую фонетику и лингвистику. Есть более менее удачные адаптации англоязычных продуктов Горыныч – адаптация dragon.

Перспективы систем распознавания речи

Несмотря на все успехи имеющиеся системы обеспечивают качество недостаточное для профессионального использования, кроме того они нуждаются в длительной настройке, требовательны к аппаратной части, чувствительны к наличию шума. Вопреки заявлениям производителей имеющиеся системы обеспечивают скорость диктовки порядка 0,5 слов в секунду, когда скорость проф. машинистки около 2 слов в секунду, а спонтанной – 2,5 слов в секунду. Высоких показателей достигают с проф. диктором, известно что постановка произношения занимает до нескольких лет, а обучения работы на клавиатуре до 2 месяцев. Необходимость подстраиваться под особенность систем может способствовать к появлению проф. заболеваний. Применение систем остается узкоспециализированными областями.

Вопрос 22. Критерии оценки качества озвучивания речи. Факторы, влияющие на озвучивание слов. Основные подходы к озвучиванию речи.

Технология генерации речи

Критерии оценки качества метода озвучивания речи.

Качество речи прямо пропорционально объему потребляемому синтезатором речи от ресурса. Качество характеризуется естественностью звучания, фонетической разборчивостью, комфортностью восприятия и временем привыкания. Естественность звучания характеризует то, на сколько близок синтезируемый звук к человеческой речи. Частые негативные эффекты: металлический призвук, отсутствие интонационного отделения, резкость или затянутость некоторых звуков.

Фонетическая разборчивость характеризует насколько слушателю трудно лили легко разбирать фонемы произносимые синтезатором. Фонетическая разборчивость может быть достаточно высокой, в том числе выше естественной речи.

Комфортность восприятия и время привыкания относят к субъективным показателям. Произнесение слов зависит от: расположения в предложении, знаков препинания и типа грамматической конструкции, смысла слова.

Подходя к озвучиванию речи: построение действующей модели речепроизводящей системы человека (артикуляционный синтез); моделирование акустического сигнала как такового: формантный синтез и компилятивный синтез.

Обобщенная функциональная система синтезатора речи.

Модуль лингвистической обработки – производиться определение языка для многоязычной системы и отфильтровываются непроизносимые символы. Выполняется нормализация текста, то есть разделение его на слова и остальные последовательности символов, подключаются специальные подблоки озвучивания цифр.

Модуль лингвистического анализа - во многих языках в частности в русском существует достаточно регулярные правильно чтения: правило соответствия между буквенными фонемами, которые могут требовать расставления ударений.

Подходы к формированию фонем:

1)автоматический фонемный транскриптор – перевод каждой буквы или словосочетания в некоторую фонему в соответствии с системой контекстных правил. Эффективной метода очень невысока, в случае если есть множество исключений, для этого формируют словарь. 2) Морфемный анализ слова – фонемы переводятся в морфы. Трудности связаны с наличием пограничных явлений на стыках морф.

Модуль формирования просодических характеристик – относятся его тональное, акцентное и ритмические характеристики. Блоки формирования просодических характеристик: расстановка синтагматических границ (пауз), приписывание ритмических и акцентных характеристик (длительности и энергия) и приписывание тональных характеристик (частота основного тона). При расстановке синтагматических границ определяются части высказывания (синтагмы), внутри которых энергетические и тональные характеристики ведут себя единообразно и которые человек может произнести на одном дыхании. При отсутствии пауз на границах слушающему кажется, что говорящий задыхается. Самое простое решение – ставить границы в соответствие со знаками пунктуации. Адекватная передача тональных характеристик – очень сложная задача, поскольку сопряжена его эмоциональная окраска, поэтому приписывание тональных характеристик как правило выполняется в рамках гипотезы о нейтральности интонации. Имеются множество продуктов для генерации речи, многие из них используют microsoft speech api.

Билет 23.

Обобщенная функциональная структура синтезатора речи.

Основные модули:

<<< < Предыдущая 1 2 3 4 5 6 7 8 910 / 2010 11 12 13 14 15 16 17 18 19 20 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.06.20158.16 Mб22ответы по физике с 15 по 23 к 2 семестру.doc
#
03.08.2019157.42 Кб3ответы по экономике.docx
#
28.09.2019258.86 Кб4ответы с 1 по 21 вопрос.docx
#
02.06.2015111.62 Кб14Ответы.doc
#
17.09.2019542.21 Кб13Ответы_БД.doc
#
24.04.2019407.55 Кб51Ответы_по_ИТ.doc
#
22.04.2019230.91 Кб18ответы_сиппо.doc
#
23.12.201882.94 Кб23Отёк лёгких П.doc
#
02.06.2015455.68 Кб92Отечественная литература (Экзамен) Все вопросы.doc
#
26.03.2016275.46 Кб86Отформат Лаб прак общ биол для бак.doc
#
26.03.2016366.67 Кб624Отформат ЛЕКЦ ОБЩ БИОЛ для бак .doc