Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
4.b._Konspekt2.doc
Скачиваний:
115
Добавлен:
22.08.2013
Размер:
5.43 Mб
Скачать

3. Синтезаторы речи

3.1 Разновидности синтезаторов речи

Устройство, осуществляющее преобразование символьного предста-вления информации принятого в ЭВМ в звуковой сигнал, принято называть синтезатором речи.

Как может быть это ни странно, но процесс формирования речи реализуется технически проще, чем процесс распознавания речи.

Синтезаторы речи различают по исходному речевому материалу. Это может быть:

а) Предварительно закодированная (сжатая по возможности) в виде слов, слогов, фраз или сегментов человеческая речь;

б) Искусственные речеподобные звуки, сформированные электрон- ным устройством.

Вне зависимости от используемого в синтезаторе метода процесс преобразования символьного сообщения в речевой сигнал состоит из 2-х основных этапов:

1-й этап – конструирование речевого сообщения;

2-й этап – собственно речевой синтез.

Конструирование речевого сообщения (РС)заключается в выработке некоторой последовательности команд управления средствами собственно синтезатора. Конструирование РС может выполняться программным путём с использованием аппаратуры, встроенной в синтезатор.

Собственно речевой синтез РСвыполняется аппаратурой речевого синтезатора.

Одним из существенных различий синтезаторов состоит в том, ЧТО именно является объектом кодирования (сжатия): фронт речевой волны (временное описание речевого сигнала),спектр сигала илисо-стояние речевого тракта.

Все синтезаторы могут быть подразделены на 2 разновидности:

а) Синтезаторы, работающие по образцам (компилятивный синтез);

б) Синтезаторы, формирующие речь по правилам (фонетический синтез).

К первой разновидности могут быть отнесены устройства, использу-ющие:

- Кодирование речи с последующим восстановлением;

- КЛП-методы –математическое восстановление речи;

Ко второй разновидности могут быть отнесены синтезаторы, исполь- зующие:

- Формантный синтез речи;

- Фонемный синтез речи.

На практике самое широкое распространение получили три основ-ные технологии синтеза речи:

1. Методы кодирования-восстановления формы речевых сигналов (компилятивные методы);

2. Аналоговые методы синтеза формантных частот (фонетические методы).

3. Методы цифрового моделирования голосового тракта (компиля-тивные методы)

а) Методы кодирования-восстановления формы речевых сигналов

Эти методы являются одними из элементарных подходов к синтезу речи. По существу компьютер данном случае просто служит устройством для записи и хранения человеческой речи, которая подвергается предварительной обработке (кодированию), а затем преобразованию (вос-становлению) и выводится на динамик [4].

У этих методов есть серьёзный недостаток: для хранения речевых сообщений в их непосредственной форме нужна память большого обёма.

Хотя речь, полученная таким способом, приближается по качеству к очень хорошей, требования к объёму памяти часто оказываются неприем-лемыми.

Тем не менее, когда словарь не очень велик ( 20 – 30 слов или фраз) данный метод весьма привлекателен, так как не требует большого количества дополнительной аппаратуры.

б) Аналоговые методы синтеза формантных частот

Выше было дано определение формантной частотыречевого сигнала. Для удовлетворительного распознавания и синтеза речи достаточно использовать 3 из 6-и старших формант. Тем не менее, использование формантных частот даёт неестественное звучание речи, что объясняется особенностью источника речи. В устройствах этого типа естественная речь человека не используется, так как синтез речи основан на электронном моделировании голосового тракта человека, поэтому синтезатор «говорит» голосом робота. Кратко процесс синтеза заключает-ся в следующем.

Орфографический текст разбивается на фонемы, которые преобра-зуются в фонетическое описание текста, затем формируются последова-тельности управляющих слов, которые используются для управления собственно синтезатором.

Отличительной особенностью этого метода является принципиаль-ная возможность создания синтезатора с неограниченным словарём, так как в основу его положена элементарная частичка речи – фонема. Рос-кошь неограниченного словаря никакому другому типу синтезаторов не доступна. Это в значительной степени искупает основной недостаток синтезатора – неестественное звучание речи.

в) Синтезаторы третьего типа используют метод цифрового модели-рование голосового тракта человека.

Наиболее распространённая реализация этого метода известна под названием Линейного Предиктивного Кодирования (ЛПК), а синтезато-ры называют ЛПК-синтезаторами.(термин «предиктивный» означаетпредсказательный).

ЛПК синтезаторы обладают по сравнению с другими типами синте- заторов преимуществами, связанными с относительной простотой их реа-лизации в виде цифровых микросхем, меньшей стоимостью их производ-ства и меньшей эквивалентной скоростью передачи информации. Словарь в ЛПК-синтезаторе создаётся (как и в синтезаторов первой группы) с участием говорящего человека; закодированная таким образом челов-ческая речь на этапе синтеза не подвергается прямому восстановлению. Она обрабатывается специальным цифровым анализатором, и в результа- рте такого анализа образуются так называемые предикторные коэффици-енты – параметры, которые используются непосредственно для управле-ния собственно синтезатором. Предикторные коэффициенты представля- ют собой частотные и голосовые коэффициенты речи. Такой подход позволяет значительно снизить объём необходимой памяти.

Соседние файлы в предмете Системы ввода и вывода данных