- •Практикум (лабораторный)
- •1.2. Частотный анализ в базисе Фурье
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •3. Расчет распределения энергий отрезков сигнала по частотному диапазону
- •4. Анализ распределения энергий звуков по частотному диапазону
- •5. Исследование спектрограммы фрагмента фразы
- •6. Сопоставительный анализ полученных результатов
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •3. Сопоставительный анализ полученных результатов
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •1. Вычисление вектора субполосного преобразованияна основе использования банков ких-фильтров
- •2. Обратное субполосное преобразование (синтез)на основе использования банков ких-фильтров
- •3. Оценка влияния элайзинга на результат субполосного преобразования
- •4. Субполосное преобразование отрезка речевого сигнала методом, основанным на использовании базиса собственных векторов матрицы субполосного анализа
- •Контрольные вопросы к защите
- •4.2. Выбор порядка модели авторегрессии
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •Контрольные вопросы к защите
- •Способ оценки результатов
- •Лабораторная работа №5. Исследование методов обнаружения и кодирования пауз в речевых сообщениях (технология vad) Требования к содержанию, оформлению и порядку выполнения
- •Теоретическая часть
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •1. Кодирование пауз
- •2. Восстановление пауз
- •3. Оценка эффективности работы алгоритма кодирования пауз
- •Контрольные вопросы к защите
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •Контрольные вопросы к защите
- •Способ оценки результатов
- •Расчетно-графическое задание. Прототип информационной технологии сжатия речевых данных
Контрольные вопросы к защите
Для каких целей используется метод линейного предсказания?
Каким образом метод линейного предсказания согласуются с моделью речеобразования?
Каким уравнением отсчеты речевого сигнала связаны с сигналами возбуждения?
Что представляет собой системная функция предсказателя p-го порядка?
Как определяются коэффициенты akиз уравнений Юла–Уокера?
Как определяются коэффициенты корреляции?
Каким методом определить порядок модели линейного предсказания? В чем он заключается?
Как осуществляется синтез сигнала?
Способ оценки результатов
Оценка производится по зачетной системе.
Зачет за выполнение лабораторной работы ставится за правильно выполненную работу и правильные ответы на контрольные вопросы. Не зачитывается работа в том случае, если не выполнено хотя бы одно из заданий работы, или при выполнении допущены грубые ошибки.
Лабораторная работа №5. Исследование методов обнаружения и кодирования пауз в речевых сообщениях (технология vad) Требования к содержанию, оформлению и порядку выполнения
Отчет о выполнении лабораторной работы должен содержать все выполненные задачи и ответы на контрольные вопросы.
Теоретическая часть
Наиболее простым классификатором речевого сигнала является детектор активности речи(VAD—VoiceActivityDetector), который выделяет во входном речевом сигнале активную речь и паузы.
В системах, где уровень фонового шума очень низок, для определения участков тишины можно использовать простой энергетический порог сигнала. Иллюстрация работы такой разновидностиVADпредставлена на рисунке 5.1. Входной аналоговый сигнал поступает на вход устройства сравнения, в котором измеряется его амплитуда, и сравнивается с заданным пороговым значением. При превышении амплитудой входного сигнала заданного порога, сигнал поступает на вход кодека и кодируется по определенному алгоритму (интервал Т2 – Т3). Если амплитуда входного сигнала ниже порогового значения (Т1 – Т2), то в момент времени Т1 передается только служебная информация (длиной в несколько бит) о начале паузы, а в момент Т2 о ее окончании.Для выбора порогового значения необходимо постоянно отслеживать уровень шума.
В системах, где существует переменный фоновый шум, нужно использовать более сложный алгоритм.
Рис. 5.1. Обнаружение пауз речевого сигнала с помощью энергетической характеристики речевого сигнала
Более подробно технология VADописаны в теоретической части УМК §5.2.1.
Общая постановка задачи
1. Осуществить обнаружение и кодирование пауз речевого сигнала с использованием технологии VAD.
2. Оценить эффективность работы алгоритма.
Методические указания к выполнению работы
В данной работе можно реализовать любой вариант технологии VAD. В качестве примера приведем наиболее простую реализацию – с использованием энергетического порога.
1. Кодирование пауз
Пример.
Для реализации алгоритма обнаружения и кодирования пауз необходимо выполнить следующие действия:
1. Создать и (или) загрузить звуковой файл формата *.wav, содержащий некоторое количество периодов молчания (пауз).
2. Задать начальные параметры: 1) длину анализируемого отрезка N(значение подобрать эмпирически, исходя из предварительного анализа длительности звуков и пауз в речевых сигналах); 2) начальное значение энергетического порогаН, которое должно быть максимальным (т.е. настолько большим, чтобы первый отрезок идентифицировался как пауза, поскольку мы предполагаем, что любой звуковой сигнал начинается с периода молчания).
3. Создать цикл анализа отрезков сигнала.
4. В теле цикла для отрезка анализа:
4.1. вычислять величину энергии сигнала любым способом, например
;
4.2. сравнивать величину энергии с пороговым значением, т.е. проверять условие P<H;
4.3. если условие выполняется, то отрезок сигнала идентифицируется как пауза и следует: а) вычислить усредненное значение энергии Рср(с учетом значений предыдущих отрезков анализа); б) вычислить значение порога, уточненное по среднему значению энергииН=КРср(здесьК– коэффициент определенный эмпирически); в) кодировать паузу (для кодирования пауз можно использовать различные способы, например запомнить номер отрезка анализа, или запоминать номер начального отсчета и длину паузы); г) удалить отрезок паузы из исходного вектора;
4.4. если условие не выполняется, то перейти к анализу следующего отрезка.
5. Сохранить сигнал с удаленными паузами и данные кодирования пауз.
6. Определить коэффициент сжатия
Ксж=VБП/VИС, (5.1)
где VИС– длина (в отсчетах) вектора исходных данных,VБП– длина (в отсчетах) вектора данных с удаленными паузами.