- •1. Методы идентификации
- •1.1 Первый подход
- •1.2 Второй подход
- •1.3 Характеристики обоих способов
- •2. Защита от перехвата парольной фразы
- •3. Оценка биометрического метода
- •3.1 Достоинства
- •3.2 Недостатки
- •4. Выделяют несколько основных способов распознавания речи:
- •4.1 Распознавание отдельных команд.
- •4.2 Распознавание по грамматике.
- •4.3 Поиск ключевых слов в потоке слитной речи.
- •4.4 Распознавание слитной речи на большом словаре (lvcsr – large vocabulary continuous speech recognition).
- •Наиболее сложной является технология распознавания слитной речи на большом словаре.
- •Обеспечение высокого качества распознавания
- •5. Синтез речи
- •Синтез речи VitalVoice обладает целым рядом преимуществ таких как:
- •5.1 Тематически заданный синтез
- •5.2 Тематически открытый, универсальный синтез
- •6. Шумоочистка
- •Методы адаптивной обработки решают следующие проблемы:
- •Для основных групп помех и искажений разработаны отдельные методы:
Обеспечение высокого качества распознавания
Качество распознавания зависит от двух факторов – структуры каркаса системы распознавания речи (набора программных модулей и алгоритмов, использующихся при распознавании) и качества моделей – акустических, языковых, тематических.
Все модели обучаются с использованием большого объема материала. Так, для акустических моделей используются сотни часов записей речи тысяч дикторов. Для повышения устойчивости распознавания к помехам и искажениям, при обучении используются записи в различных каналах и различных условиях. Для обучения языковых моделей и моделей тематик используются текстовые корпуса объемом от сотен миллионов словоформ до нескольких миллиардов. Подготовка такого объема обучающего материала – это сложная и кропотливая работа. «Центр речевых технологий» в течение нескольких десятилетий накапливал обучающий материал и на данный момент обладает уникальный по своим объемам, разнообразию и качеству набором записей и текстов, способных обеспечить высочайшее качество распознавания речи.
5. Синтез речи
Синтез речи — это технология, которая дает возможность прочитать текст (документ, письмо, смс) естественным человеческим голосом. Для того, чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне тембра, плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков.
Методы
Сегодня существует три основных направления синтеза: дифонный подход (дифон — это звук от середины одной фонемы до середины соседней фонемы), аллофонный подход (реализация фонемы в окружении контекста слева и справа) и технология Unit Selection (выбор звуковых элементов из речевой базы). Но каждый из них в отдельности имеет свои недостатки:
Дифонный подход позволяет делать разборчивый, но неестественный по тембру речевой сигнал. В тембре синтезированной речи не узнается тембр диктора-донора.
19
Аллофонный подход — естественность голоса несколько выше, чем в дифонном подходе за счет большего набора звуковых элементов. Однако, как и в дифонном синтезе голос получается довольно роботизированным, и в нем трудно узнать голос диктора-донора.
Unit Selection — естественность тембра речи высока и в синтезированный голос сохраняет тембровую окраску голоса диктора-донора. Однако из-за ограничений на размер голосовой базы некоторые тексты (слова и их сочетания) произносятся с заметными искажениями вплоть до полного выпадения отдельных звуков.
Технология гибридного синтеза от ЦРТ
Специалистами компании «Центр речевых технологий» была разработана новая технология гибридного синтеза речи, объединившая в себе достоинства дифонного, аллофонного и Unit Selection подходов и исключившая их недостатки. Синтез речи VitalVoice использует сложные лингвистические алгоритмы анализа текста и обработки выходного сигнала, что позволяет достичь максимального приближения к реальной речи.
Особое внимание уделяется интонации и паузации синтетической речи, ведь именно эти
параметры во многом обеспечивают естественность голоса. Блок лингвистической обработки позволяет автоматически расшифровывать множество вариантов сокращений, используемых в текстах на русском языке. В большинстве случаев он без дополнительных тегов разметки (которые активно используются в большинстве других систем синтеза) справляется со всеми видами записей дат, чисел, адресов, аббревиатур. Синтезатор справляется и с чтением латиницы, которая часто встречается, например, в новостных текстах. В словаре VitalVoice содержится более 300 фразеологизмов, с помощью которых синтезатор понимает, что, например, выражение «ни пуха ни пера» — это единая смысловая конструкция с особой интонацией.
20
Важным достижением специалистов Центра речевых технологий является уникальная автоматизированная технология создания голоса, включающая методику выбора диктора-донора, подготовку специальных текстов, процедуру записи фонограмм, проведение разметки. Разметка речи происходит на 9 уровнях, включающих в себя идеальную и реальную транскрипцию, орфографию, интонацию и паузацию, речевые особенности диктора и т.д. Данная технология позволяет в короткие сроки подготовить новый голос с минимальными ресурсами и при этом обеспечить высокое качество синтезированного голоса «на заказ».
Создание голоса