- •Практикум (лабораторный)
- •1.2. Частотный анализ в базисе Фурье
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •3. Расчет распределения энергий отрезков сигнала по частотному диапазону
- •4. Анализ распределения энергий звуков по частотному диапазону
- •5. Исследование спектрограммы фрагмента фразы
- •6. Сопоставительный анализ полученных результатов
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •3. Сопоставительный анализ полученных результатов
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •1. Вычисление вектора субполосного преобразованияна основе использования банков ких-фильтров
- •2. Обратное субполосное преобразование (синтез)на основе использования банков ких-фильтров
- •3. Оценка влияния элайзинга на результат субполосного преобразования
- •4. Субполосное преобразование отрезка речевого сигнала методом, основанным на использовании базиса собственных векторов матрицы субполосного анализа
- •Контрольные вопросы к защите
- •4.2. Выбор порядка модели авторегрессии
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •Контрольные вопросы к защите
- •Способ оценки результатов
- •Лабораторная работа №5. Исследование методов обнаружения и кодирования пауз в речевых сообщениях (технология vad) Требования к содержанию, оформлению и порядку выполнения
- •Теоретическая часть
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •1. Кодирование пауз
- •2. Восстановление пауз
- •3. Оценка эффективности работы алгоритма кодирования пауз
- •Контрольные вопросы к защите
- •Общая постановка задачи
- •Методические указания к выполнению работы
- •Контрольные вопросы к защите
- •Способ оценки результатов
- •Расчетно-графическое задание. Прототип информационной технологии сжатия речевых данных
Практикум (лабораторный)
Лабораторная работа №1. Исследование временных и частотных характеристик звуков речи
Требования к содержанию, оформлению и порядку выполнения
Отчет о выполнении лабораторной работы должен содержать все выполненные задачи и ответы на контрольные вопросы.
Теоретическая часть
Для выполнения всех лабораторных работ можно воспользоваться любой программной системой, позволяющей анализировать речевые сигналы. В данном учебном пособии используются программная система MATLABиAdobeAudition.
1.1. Краткий обзор возможностей и интерфейса системы звукозаписи Adobe Audition
Adobe Auditionявляется многофункциональной специализированной системой для звукозаписи.
На рисунке 1.1 представлено рабочее окно программы с обозначением основных элементов.
Рис 1.1. Рабочее окно программы
Главное меню содержит все функции, необходимые для работы с файлами.
На панель инструментов выносятся различные элементы главного меню, это упрощает работу с звуковыми данными. Для того чтобы вынести какой-либо элемент на панель инструментов необходимо щелкнуть по панели правой кнопкой мыши и в появившемся контекстном меню выбрать необходимый элемент.
На рисунке 1.2 показана панель действий, на которой находятся следующие кнопки:
Рис 1.2. Панель действий
Stop- останавливает воспроизведение
Play- начинает воспроизведение
Pause- пауза
Play from cursor to end of file- начинает воспроизведение от бегунка
Play looped- постоянно воспроизводит выделенный участок
Zoominhorizontally- увеличивает по горизонтали
Zoomouthorizontally- уменьшает по горизонтали
Zoomoutfullbothaxis- предает сигналу исходный вид
Zoominvertically- увеличивает по вертикали
Go to beginning or previous cue- переход в начало или предыдущей закладке
Rewind-переводит бегунок назад
Fastforward- переводит бегунок вперед
Go to end or next cue- переход в конец или к следующей закладке
Record- начинает записывать сигнал
Zoomtoselection- увеличивает выделенную область
Zoom in to left edge of selection- увеличивает выделенную область, сдвигая её к левому краю
Zoom in to right edge of selection- увеличивает выделенную область, сдвигая ее к правому краю
Zoom out vertically- уменьшает по вертикали
Рассмотрим рабочую область более подробно (рис. 1.3).
Рис 1.3. Рабочая область
Она имеет вертикальную и горизонтальную оси. На вертикальной оси откладываются значения амплитуды сигнала, а на горизонтальной оси отображается длительность сигнала.
Значения длительность могут отображаться с помощью различных единиц измерения, но чаще всего используется длительность в отсчетах и длительность в единицах времени (мм/сс/мс).
Для того, чтобы перейти от одной единицы измерения к другой необходимо щелкнуть правой кнопкой мыши по горизонтальной оси, в появившемся контекстном меню выбрать строку DisplayTimeFormatи выбрать необходимые для работы единицы измерения (Decimal-время,Samples-отсчеты). Пример приведен на рисунке 1.4:
Рис 1.4. Переход от одной единицы измерения к другой
При выделении какого-либо участка сигнала этот участок выделяется белым фоном, большие белые цифры показывают начало участка.
Под горизонтальной осью имеется вспомогательная панель, на которой отображаются следующие значения (табл. 1.1):
Таблица 1.1.
|
Begin |
End |
Length |
Sel |
Показывает значение, на котором находится бегунок |
Если выделена область, то показывает значение равное концу области |
Если выделена область, то показывает длину выделенной области |
View |
Показывает начало видимой рабочей области |
Показывает конец видимой рабочей области |
Показывает длину видимой рабочей области |
Чтобы начать работу с файлами можно либо загрузить существующий речевой материал, либо записать свой.
Для загрузки необходимо в главном меню выбрать File Open As, затем выбрать имеющийся у вас файл, после выбора файла откроется диалоговое окно, в котором необходимо будет указать следующие параметры (рис. 1.5):
Sample rate- частота дискретизации (Гц)
Channels- канальное звучание
Resolution- битовое представление данных (Биты)
Рис 1.5. Выбор параметров файла.
Обычно частота дискретизации выбирается равной 8000 Гц и битовое представление 16 бит.
Если необходимо создать свои речевые данные, то необходимо в главном меню выбрать File New, далее появиться диалоговое окно, представленное на рис 1.5. После этих операций программой будет создан пустой файл, для записи необходимо нажать на кнопкуRecord, на панели действий. После того как вы произнесли всё необходимое, нажмите на кнопкуStop, находящуюся на той же панели.
Далее в главном меню выберете File Save Asи в появившемся диалоговом окне (рис. 1.6) введите имя файла в строке «Имя файла», а в ниспадающем меню строки «Тип файла» выберете тип –WindowsPCM(*.wav).
Рис. 1.6. Сохранение данных
Программа AdobeAuditionпозволяет строить спектрограммы сигналов.
Спектрограммой (spectrogram) сигнала называется его мгновенный спектр, зависящий от времени. Для вычисления спектрограммы вектор сигнала разбивается на сегменты (возможно с перекрытием) Для каждого сегмента вычисляется мгновенный спектр, набор спектров всех сегментов и образует спектрограмму.
Для того чтобы построить спектрограмму при помощи AdobeAuditionнеобходимо выполнить следующие действия: в главном меню выбратьвкладку View Spectral View либо нажать на клавиатуре клавишу F9.
Рис.1.7 спектральное отображение сигнала.
Рис.1.8 спектрограмма сигнала.