Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ответы_по_ИТ.doc
Скачиваний:
51
Добавлен:
24.04.2019
Размер:
407.55 Кб
Скачать

Вопрос 20. Технологии распознавания речи. Общие принципы распознавания речи. Акустическая и лингвистическая модели.

Технологии распознавания речи

С теоретической точки зрения представление речи виде текста является крайней степенью сжатия звукового речевого сигнала.

Первый серьезный прорыв в 1986 г в DARPA – defense advanced research project agency (агентство перспективный исследований министерства обороны США)

Успех был связан с применением скрытой Марковской модели - HMM – hidden Markov model для моделирования озвучивания фонем в контексте.

Была реализована идея об ограниченности фонемного ряда и об ограниченности зависимости фонем от контекстного окружения.

Технологии распознавания речи – STT – speech to text – наибольшее применение находят в специфических областях, где голосовые команды являются наиболее приемлемым или даже единственно возможным решением – это удаленный доступ к автоматическим справочным системам, управление удаленным ПК или портативным мобильным устройством

Принципы распознавания речи

Даже подходы к структурной декомпозиции процесса распознавания речи и соответствующих механизмов разняться. Преобладает следующий подход:

Системы распознавания речи состоят из двух компонентов:

  1. Акустической – отвечает за представление речевого сигнала

  2. Лингвистической – интерпретирует информацию получаемую от акустической модели и отвечает за представление результата распознавания

Акустическая модель путем использования преобразования Фурье представляет звуковой сигнал временной последовательностью частотных характеристик, что позволяет отсеять посторонние шумы и несущественные созвучия.

Лингвистический блок содержит следующие слои (уровни):

  1. Фонетический

  2. Фонологический

  3. Морфологический

  4. Лексический

  5. Синтаксический

  6. Семантический

Каждый уровень подразумевает существование соответствующей модели (фонетической и т.д.) являющейся частью лингвистической модели. В эти модели вкладывается априорная информация о структуре и закономерностях языка. Лингвистическая модель является для каждого языка уникальной.

На фонетическом уровне производится преобразование звукового сигнала в последовательность фонем – т.е. минимальным звуковых единиц языка. Фонемы, присутствующие в реальном звуковом речевом сигнале являются аллофонами – варианты фонем зависящие от звукового окружения.

Результаты распознавания аллофонов сопоставляются с базой фонем, эффективность распознавания зависит от полноты базы (наличие в ней вариантов фонем, произнесенных людьми с различными особенностями произношения), эту часть системы распознавания называют системой независящей от говорящего.

При необходимости она дополняется системой зависящей от говорящего, ее можно натренировать на конкретного диктора, она фиксирует в своей базе основные речевые особенности и формирует профиль говорящего.

Выполнятся уточнение вариантов вырабатываемых фонетической модели при помощи ограничений. Ограничения описывают возможность сочетание фонем (аллофонов) и их вероятности. Для описания ограничений используют мат аппарат цепей Маркова. На морфологическом уровне фонемы складываются в морфемы (слогоподобные единицы речи). Лексическая модель поддерживает информацию о словах и словоформах и корректирует результаты работы морфологического уровня с точки зрения допустимости слов. На синтаксическом уровне получаются предложения. Семантический уровень предназначен для формирования модели отношений между объектами использованными в речи.