Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ФОСМС2015fokin_12345

.pdf
Скачиваний:
27
Добавлен:
11.06.2015
Размер:
7.6 Mб
Скачать

Элементы GUI ИМ по практике АДИКМ

Графические окна служат для отображения:

Осциллограммы исходного речевого сигнала , квантованного речевого сигнала и сигнала ошибки

Спектрограммы исходного речевого сигнала

и сигнала ошибки

Гистограмма сигнала ошибки

 

Заглавие GUI служит для отображения информации об исходном речевом сигнале и параметрах его АДИКМ преобразования Элементы управления (кнопки) выполняют следующие функции:

Кнопка выбора расположения папок с речевыми файлами ( )

Выпадающий список для выбора речевого файла

Окно задания числа бит на выборку квантователя АДИКМ ( = 2 − 5)

Окно задания коэффициента предсказателя первого порядка (−1 ≤ ≤ +1)

Окно задания представления осциллограммы: = 1 – по оси времени номера выборок,= 2 – по оси времени секунды

Окно минимального размера шага квантования (по умолчанию = 16)

Окно максимального размера шага квантования (по умолчанию = 1600)

Окно отображения ОСШ кодера АДИКМ ( программа оценивает и отображает SNR)

Кнопка запуска кодера АДИКМ на выполнение ( )

Кнопка проигрывания исходного речевого сигнала ( )

Кнопка проигрывания квантованного речевого сигнала

( )

Кнопка проигрывания сигнала ошибки ( )

 

Кнопка увеличения масштаба осциллограмм ,

и

( ): для

 

увеличения масштаба следует нажать кнопку и появившимся курсором (левой

кнопкой мыши) обозначить начало и конец осциллограммы, подлежащей увеличению масштаба.

Кнопка закрытия GUI АДИКМ

41

 

Инструкции к выполнению практики по АДИКМ

1.Открыть папку \3. adpcm в каталоге Matlab

2.Запустить на выполнение файл adpcm_GUI25.m

3.В открывшемся окне GUI выбрать каталог с фрагментами речевых сигналов

4.Выбрать из выпадающего списка файл с фрагментом речевого сигнала и выполнить кодирование АДИКМ выбранного файла

5.Изучить влияние параметров АДИКМ кодирования на качество воспроизведения

закодированного фрагмента речевого сигнала на примере представленной ИМ.

6.Изучить механизм формирования сигналов АДИКМ , , , , по схеме на рис. 1 на примере фрагмента, записанного в файл adpcm_encode.txt

42

Исследование механизма формирования сигналов АДИКМ

43

Тема 4.1. LPC. Теория

Цель: Изучить принципы работы

Задачи:

сформировать сигналы LPC; построить их осциллограммы и сделать выводы

План:

Постановка задачи кодирования LPC

Схема синтезатора речи

Метод LPC

Особенности реализации LPC (G.721, G.726)

Особенности реализации LPC (G.728, G.729)

Особенности реализации LPC (G.723)

Содержание отчета: определяется задачами и планом практического занятия

ДЗ: оценить ччч

44

Постановка задачи кодирования LPC

Рассмотренные ранее методы передачи речи с предсказанием и адаптацией оперируют речевым сообщением как некоторым колебательным процессом инвариантно к физическим (физиологическим) особенностям источника звука. Дальнейшее повышение степени компрессии с сохранением высокого качества воспроизведения возможно на основе учета природы человеческой речи и особенностей ее восприятия человеческим ухом. Достигнутое высокое качество предсказания позволяет осуществить непосредственно синтез речевого сообщения на приемном конце на основе передачи текущих значений параметров сообщения, соответствующих выбранной модели голосовой системы.

Широко используемый в настоящее время метод кодирования с линейным предсказанием (Linear Predictive Coding, LPC) работает с блоками отсчетов, для каждого из которых вычисляется и передается частота основного тона, его амплитуда и информация о типе возбуждающего воздействия. При этом предполагается модель голосовой системы человека в виде синтезирующего линейного фильтра, возбуждаемого в любой момент времени одним из двух возможных типов возбуждающего воздействия: шумовым (формируемым генератором шума) или

тоновым (формируемым в виде квазипериодической последовательности импульсов

на частоте основного тона). По существу все системы, использующие метод LPC, отличаются лишь способами генерирования возбуждающего воздействия и выбора параметров моделирующего фильтра.

45

Схема синтезатора речи

В соответствии с такой моделью формирования речевого сообщения находящийся на приемном конце линии связи синтезатор речи предусматривает генерирование возбуждающего воздействия того или иного типа с последующей его обработкой с помощью цифрового синтезирующего фильтра, соответствующего принятой модели формирования речи. При этом вид и текущие значения уровня возбуждающего воздействия и параметров синтезирующего фильтра содержатся в поступающем сигнале.

46

Метод LPC

При передаче речи соответствующий анализатор формирует данные, содержащие информацию о возбуждающем воздействии (вид воздействия, частота основного тона, коэффициент усиления) и о весовых коэффициентах формирующего синтезируемую речь фильтра. При этом обычно применяется метод "анализ через синтез" (Analysis-by-Synthesis, AbS), когда на основе формируемых данных производится синтез речевого сообщения (синтезирующим фильтром, аналогичным используемому при восстановлении речи), которое сравнивается в процессе передачи с истинным сообщением, а сигнал ошибки не передается (как в рассмотренных ранее методах), а используется в процессе анализа для постоянного уточнения формируемых данных. Полученные таким образом данные преобразуются кодирующим устройством в кодовое слово (от 10 до 80 бит в зависимости от используемого метода).

47

Особенности реализации LPC (G.721, G.726)

При реализации анализатора применяются алгоритмы, подобные используемым в методе АДИКМ. Обновление кодового слова требуется не реже, чем один раз в 15—30 мс. Приемлемый уровень разборчивости может быть достигнут при 4,8 Кбит/с и даже 2,4 Кбит/с.

При реализации метода LPC существенным является сокращение времени алгоритмической задержки ∆з (интервал времени между моментами появления сообщения на входе передающего устройства и появления синтезированной речи на выходе приемного устройства при непосредственном подключении указанных устройств друг к другу) и снижение скорости передачи выходного потока данных.

В соответствии с рекомендацией G.728 задержка ∆з не должна превышать 5 мс, скорость передачи выходного потока данных (передача кодовых слов) должна быть равна 16 Кбит/с, а качество синтезируемой речи на выходе тракта передачи не должно быть ниже, чем при использовании методов, удовлетворяющих требованиям рекомендаций G.721 и G.726.

48

Особенности реализации LPC (G.728, G.729)

Реализация рекомендации G.728 осуществляется с использованием специальных модификаций метода LPC, относящихся к классу LD-CELP (Low Delay Code Excited Linear Prediction). В типичном кодеке, удовлетворяющем рекомендации G.728, пять выборочных значений входного речевого сообщения (при частоте дискретизации 8 кГц) формируют кадр длительностью 0,625 мс, на основании анализа которого (метод AbS) формируется кодовое слово длиной 10 бит (скорость передачи 16 Кбит/с). Это кодовое слово включает информацию об индексе кодового вектора, выбираемого из соответствующей кодовой библиотеки (Codebook) и определяющего возбуждающее

воздействие, а также об уровне этого воздействия. Аналогичная библиотека имеется и в приемной части кодека. Результирующая задержка ∆з составляет не более 2 мс.

Дальнейшее снижение скорости передачи выходных данных обеспечивается при реализации рекомендации G.729, известной как метод CS-ACELP (Conjugate Structure Algebraic Code Excited Linear Prediction). В этом случае входной цифровой поток,

соответствующий речевому сообщению на частоте дискретизации 8 кГц и длине кодовых комбинаций 16 бит (скорость 128 Кбит/с), преобразуется в поток выходных данных, имеющий скорость передачи 8 Кбит/с. Входной поток разделяется на кадры

длительностью 10 мс (80 выборочных значений речи), каждый из которых составляется

из двух субкадров по 5 мс. Один раз на протяжении кадра обновляются параметры

синтезирующего фильтра и дважды (один раз на каждом субкадре) параметры возбуждающего воздействия, так что реализуемая задержка в передаче речи не превышает 5 мс.

49

Особенности реализации LPC (G.723)

Кроме рассмотренных стандартизованных методов получили распространение также и различные фирменные методы кодирования с предсказанием, такие как адаптивное кодирование с предсказанием (Adaptive Predictive Coding, APC) компании Bell,

линейное предсказание с векторным возбуждением (Vector Sum Excited Linear Prediction, VSELP) компании Motorola, линейное предсказание с предиктивным кодовым возбуждением (Predictive Code Excited Linear Prediction, PCELP,) DSP Group.

Метод VSELP, реализующий скорость 8 Кбит/с, предложен компанией Motorola в качестве стандарта для цифровых сотовых систем США.

Метод квантования по максимуму правдоподобия (Multipulse Maximum Likelihood

Quantization, MP-MLQ) принят в качестве базового при разработке рекомендации

G.723 для передачи речи в видеотелефонии в рамках рекомендации

Н.324.

Этот

метод использует анализатор типа LPC 10-го порядка с алгоритмом

AbS

и

рассчитан на скорости выходного цифрового потока 4,8; 6,4; 7,2 и 8,0 Кбит/с. Рекомендация G.723.1 предусматривает скорости 5,3; 6,3 Кбит/с, причем на меньшей скорости используется метод ACELP (Algebraic-Code-Excited Linear-Prediction).

Длительность кадра составляет 30 мс при общем времени задержки 37,5 мс.

50

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]