Вопрос 20. Технологии распознавания речи. Общие принципы распознавания речи. Акустическая и лингвистическая модели.

Технологии распознавания речи

С теоретической точки зрения представление речи виде текста является крайней степенью сжатия звукового речевого сигнала.

Первый серьезный прорыв в 1986 г в DARPA – defense advanced research project agency (агентство перспективный исследований министерства обороны США)

Успех был связан с применением скрытой Марковской модели - HMM – hidden Markov model для моделирования озвучивания фонем в контексте.

Была реализована идея об ограниченности фонемного ряда и об ограниченности зависимости фонем от контекстного окружения.

Технологии распознавания речи – STT – speech to text – наибольшее применение находят в специфических областях, где голосовые команды являются наиболее приемлемым или даже единственно возможным решением – это удаленный доступ к автоматическим справочным системам, управление удаленным ПК или портативным мобильным устройством

Принципы распознавания речи

Даже подходы к структурной декомпозиции процесса распознавания речи и соответствующих механизмов разняться. Преобладает следующий подход:

Системы распознавания речи состоят из двух компонентов:

Акустической – отвечает за представление речевого сигнала
Лингвистической – интерпретирует информацию получаемую от акустической модели и отвечает за представление результата распознавания

Акустическая модель путем использования преобразования Фурье представляет звуковой сигнал временной последовательностью частотных характеристик, что позволяет отсеять посторонние шумы и несущественные созвучия.

Лингвистический блок содержит следующие слои (уровни):

Фонетический
Фонологический
Морфологический
Лексический
Синтаксический
Семантический

Каждый уровень подразумевает существование соответствующей модели (фонетической и т.д.) являющейся частью лингвистической модели. В эти модели вкладывается априорная информация о структуре и закономерностях языка. Лингвистическая модель является для каждого языка уникальной.

На фонетическом уровне производится преобразование звукового сигнала в последовательность фонем – т.е. минимальным звуковых единиц языка. Фонемы, присутствующие в реальном звуковом речевом сигнале являются аллофонами – варианты фонем зависящие от звукового окружения.

Результаты распознавания аллофонов сопоставляются с базой фонем, эффективность распознавания зависит от полноты базы (наличие в ней вариантов фонем, произнесенных людьми с различными особенностями произношения), эту часть системы распознавания называют системой независящей от говорящего.

При необходимости она дополняется системой зависящей от говорящего, ее можно натренировать на конкретного диктора, она фиксирует в своей базе основные речевые особенности и формирует профиль говорящего.

Выполнятся уточнение вариантов вырабатываемых фонетической модели при помощи ограничений. Ограничения описывают возможность сочетание фонем (аллофонов) и их вероятности. Для описания ограничений используют мат аппарат цепей Маркова. На морфологическом уровне фонемы складываются в морфемы (слогоподобные единицы речи). Лексическая модель поддерживает информацию о словах и словоформах и корректирует результаты работы морфологического уровня с точки зрения допустимости слов. На синтаксическом уровне получаются предложения. Семантический уровень предназначен для формирования модели отношений между объектами использованными в речи.

<<< < Предыдущая 1 2 3 4 5 6 7 89 / 209 10 11 12 13 14 15 16 17 18 19 20 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
02.06.20158.16 Mб22ответы по физике с 15 по 23 к 2 семестру.doc
#
03.08.2019157.42 Кб3ответы по экономике.docx
#
28.09.2019258.86 Кб4ответы с 1 по 21 вопрос.docx
#
02.06.2015111.62 Кб14Ответы.doc
#
17.09.2019542.21 Кб13Ответы_БД.doc
#
24.04.2019407.55 Кб51Ответы_по_ИТ.doc
#
22.04.2019230.91 Кб19ответы_сиппо.doc
#
23.12.201882.94 Кб23Отёк лёгких П.doc
#
02.06.2015455.68 Кб92Отечественная литература (Экзамен) Все вопросы.doc
#
26.03.2016275.46 Кб86Отформат Лаб прак общ биол для бак.doc
#
26.03.2016366.67 Кб625Отформат ЛЕКЦ ОБЩ БИОЛ для бак .doc