- •Практикум (лабораторный)
- •1.2. Частотный анализ в базисе Фурье
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •3. Расчет распределения энергий отрезков сигнала по частотному диапазону
- •4. Анализ распределения энергий звуков по частотному диапазону
- •5. Исследование спектрограммы фрагмента фразы
- •6. Сопоставительный анализ полученных результатов
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •3. Сопоставительный анализ полученных результатов
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •1. Вычисление вектора субполосного преобразованияна основе использования банков ких-фильтров
- •2. Обратное субполосное преобразование (синтез)на основе использования банков ких-фильтров
- •3. Оценка влияния элайзинга на результат субполосного преобразования
- •4. Субполосное преобразование отрезка речевого сигнала методом, основанным на использовании базиса собственных векторов матрицы субполосного анализа
- •Контрольные вопросы к защите
- •4.2. Выбор порядка модели авторегрессии
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •Контрольные вопросы к защите
- •Способ оценки результатов
- •Лабораторная работа №5. Исследование методов обнаружения и кодирования пауз в речевых сообщениях (технология vad) Требования к содержанию, оформлению и порядку выполнения
- •Теоретическая часть
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •1. Кодирование пауз
- •2. Восстановление пауз
- •3. Оценка эффективности работы алгоритма кодирования пауз
- •Контрольные вопросы к защите
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •Контрольные вопросы к защите
- •Способ оценки результатов
- •Расчетно-графическое задание. Прототип информационной технологии сжатия речевых данных
2. Восстановление пауз
При восстановлении пауз на участки идентифицированные как паузы и каким-либо образом закодированные, добавляются к сигналу в соответствии с сохраненными данными. Причем при восстановлении пауз можно заполнить отрезки, соответствующие паузам постоянным (средним) значением, но для заполнения периодов молчания рекомендуется генерировать комфортный шум, поскольку «гробовая» тишина ассоциируется у слушателя скорее с неисправностью аппаратуры, чем с паузой в разговоре.
Для иллюстрации результатов следует привести графики фрагментов исходного сигнала, сигнала без пауз и сигнала с восстановленными паузами, а также записать соответствующие wav-файлы для оценки эффективности работы алгоритма «на слух».
Пример.
На рисунке 5.2. показаны сигналы (фрагмент лекции, записанный на диктофон) – исходный (красный) и с восстановленными после кодирования паузами (синий), наложенный на него. При восстановлении, для наглядности, паузы заполнялись нулями, т.о. хорошо видны отрезки сигнала (красный график), которые при кодировании были идентифицированы как паузы.
Рис. 5.2.
На рисунке 5.3. показан пример обработки одного слова «аппроксимация».
Рис. 5.3.
Из рисунка видно, что данный алгоритм определяет паузы не только между отдельными фразами, как в предыдущем примере, но и внутри одного слова. Но необходимо иметь в виду, что в составе речи присутствуют короткие фонемы, соответствующие взрывным звукам – г, к, п, б, д и т.п., длительность которых не превышает 20...25 мс. Срезание таких фонем нежелательно, так как это может снизить разборчивость речи. Кроме того энергия невокализованных звуков (глухие согласные ф, х, ш, с и т. д.) мала и незначительно отличается от энергии шума (паузы). Поэтому имеет смысл ограничить длительность фрагмента, идентифицируемого как пауза, неким минимальным значением (например, паузы могут быть закодированы и удалены только если их длительность не менее 200-700 мс)
3. Оценка эффективности работы алгоритма кодирования пауз
Оценка эффективности работы алгоритма подобного рода достаточно сложна. Один из подходов к решению данной задачи состоит в вычислении вероятностей правильного и ложного обнаружения пауз и коэффициента сжатия.
1. Вычисление оценки вероятности правильного обнаружения паузы проводится на достаточно большом (не менее 10N)участке сигнала заведомо относящегося к паузедлинойNпаузаотсчетов по формуле
,
где Dнеп– количество значений величин энергииРне превышающихпорогН,N– количество отсчетов на одном участке анализа.
2. Вычисление оценки вероятности ложного обнаружения паузы проводится на на достаточно большом (не менее 10N)участке сигнала заведомо относящегося к речидлинойNречьотсчетов по формуле
,
где Dп– количество значений величин энергииРпревышающихпорогН.
3. Вычисление коэффициента сжатия осуществляется по формуле (5.1)
По результатам выполнения работы заполните таблицу 5.1.
Таблица 5.1.
|
VИС, отсчетов |
VБП, отсчетов |
Ксж |
поп |
лоп |
Диалог |
|
|
|
|
|
Слитная речь |
|
|
|
|
|