Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Практикум по ОРД.doc
Скачиваний:
45
Добавлен:
13.04.2015
Размер:
1.4 Mб
Скачать

Контрольные вопросы к защите

  1. Для каких целей используется метод линейного предсказания?

  2. Каким образом метод линейного предсказания согласуются с моделью речеобразования?

  3. Каким уравнением отсчеты речевого сигнала связаны с сигналами возбуждения?

  4. Что представляет собой системная функция предсказателя p-го порядка?

  5. Как определяются коэффициенты akиз уравнений Юла–Уокера?

  6. Как определяются коэффициенты корреляции?

  7. Каким методом определить порядок модели линейного предсказания? В чем он заключается?

  8. Как осуществляется синтез сигнала?

Способ оценки результатов

Оценка производится по зачетной системе.

Зачет за выполнение лабораторной работы ставится за правильно выполненную работу и правильные ответы на контрольные вопросы. Не зачитывается работа в том случае, если не выполнено хотя бы одно из заданий работы, или при выполнении допущены грубые ошибки.

Лабораторная работа №5. Исследование методов обнаружения и кодирования пауз в речевых сообщениях (технология vad) Требования к содержанию, оформлению и порядку выполнения

Отчет о выполнении лабораторной работы должен содержать все выполненные задачи и ответы на контрольные вопросы.

Теоретическая часть

Наиболее простым классифи­катором речевого сигнала является де­тектор активности речи(VAD—VoiceActivityDetector), который выделяет во входном речевом сигнале активную речь и паузы.

В системах, где уровень фоново­го шума очень низок, для определения участков тишины можно использовать простой энергетический порог сигна­ла. Иллюстрация работы такой разновидностиVADпредставлена на рисунке 5.1. Входной аналоговый сигнал поступает на вход устройства сравнения, в котором измеряется его амплитуда, и сравнивается с заданным пороговым значением. При превышении амплитудой входного сигнала заданного порога, сигнал поступает на вход кодека и кодируется по определенному алгоритму (интервал Т2 – Т3). Если амплитуда входного сигнала ниже порогового значения (Т1 – Т2), то в момент времени Т1 передается только служебная информация (длиной в несколько бит) о начале паузы, а в момент Т2 о ее окончании.Для выбора порогового значения необходимо постоянно отслеживать уровень шума.

В системах, где существует переменный фоновый шум, нужно использовать более сложный алгоритм.

Рис. 5.1. Обнаружение пауз речевого сигнала с помощью энергетической характеристики речевого сигнала

Более подробно технология VADописаны в теоретической части УМК §5.2.1.

Общая постановка задачи

1. Осуществить обнаружение и кодирование пауз речевого сигнала с использованием технологии VAD.

2. Оценить эффективность работы алгоритма.

Методические указания к выполнению работы

В данной работе можно реализовать любой вариант технологии VAD. В качестве примера приведем наиболее простую реализацию – с использованием энергетического порога.

1. Кодирование пауз

Пример.

Для реализации алгоритма обнаружения и кодирования пауз необходимо выполнить следующие действия:

1. Создать и (или) загрузить звуковой файл формата *.wav, содержащий некоторое количество периодов молчания (пауз).

2. Задать начальные параметры: 1) длину анализируемого отрезка N(значение подобрать эмпирически, исходя из предварительного анализа длительности звуков и пауз в речевых сигналах); 2) начальное значение энергетического порогаН, которое должно быть максимальным (т.е. настолько большим, чтобы первый отрезок идентифицировался как пауза, поскольку мы предполагаем, что любой звуковой сигнал начинается с периода молчания).

3. Создать цикл анализа отрезков сигнала.

4. В теле цикла для отрезка анализа:

4.1. вычислять величину энергии сигнала любым способом, например

;

4.2. сравнивать величину энергии с пороговым значением, т.е. проверять условие P<H;

4.3. если условие выполняется, то отрезок сигнала идентифицируется как пауза и следует: а) вычислить усредненное значение энергии Рср(с учетом значений предыдущих отрезков анализа); б) вычислить значение порога, уточненное по среднему значению энергииН=КРср(здесьК– коэффициент определенный эмпирически); в) кодировать паузу (для кодирования пауз можно использовать различные способы, например запомнить номер отрезка анализа, или запоминать номер начального отсчета и длину паузы); г) удалить отрезок паузы из исходного вектора;

4.4. если условие не выполняется, то перейти к анализу следующего отрезка.

5. Сохранить сигнал с удаленными паузами и данные кодирования пауз.

6. Определить коэффициент сжатия

Ксж=VБП/VИС, (5.1)

где VИС– длина (в отсчетах) вектора исходных данных,VБП– длина (в отсчетах) вектора данных с удаленными паузами.