Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Анализ фонем,курсовой проект.doc
Скачиваний:
22
Добавлен:
08.05.2015
Размер:
1.23 Mб
Скачать

4 Анализ речевых сигналов кодером речи

Введение

В работе целью исследования было показать различные изменения статистических характеристик фонем речи в процессе кодирования речи методом RPE/LPC/LTP. Для этого анализировались сигналы, относящиеся к различным классам фонем (гласные «У», полугласные «Р», согласные носовые «М», согласные взрывные невокализированные «П», фрикативные вокализированные «Ж»). Физические процессы, лежащие в основе формирования этих фонем, существенно отличаются. Математически они описываются различными системами линейных и нелинейных уравнений. Поэтому статистические характеристики различных классов фонем существенно отличаются. Сформированные сигналы можно отнести к квазипериодическим (гласные и полугласные), сигналам со смешанным спектром (вокализированные), квазишумовым (невокализированные) и другие.

Различия в формировании анализируемых фонем существенным образом влияют на характеристики сигналов в процессе их кодирования. Параметры обеляющих РФ определяются величиной корреляции сигналов, которые зависят от формы и ширины полосы спектров анализируемых сигналов. При этом следует учитывать, что количество звеньев РФ кратковременного и долговременного предсказания фиксировано. Поэтому синтезируемые модели линейного предсказания кодируемых процессов не имеют оптимального порядка. Особенно на характеристики модели влияет ограниченность длины выборки (160 отсчетов). Следует также отметить, что в большинстве случаев при кодировании речи определяются статистические характеристики не только «чистых» фонем, а переходные участки от одной фонемы к другой, не установившиеся начальные и конечные участки фонем. На статистические характеристики речи оказывает влияние интонация, звуковые помехи окружающей среды и другие факторы.

4.1 Исследование статистических характеристик фонем различных классов в процессе кодирования речи

4.1.1 Исследование гласной фонемы «У»

Для исследования использовался алгоритмический макет, выполненный с помощью разработанной программы в среде MATLAB. На рис. 4.1 представлен сигнал фонемы «У», поступающий на вход блока LPC. Как видно из графика, сигнал гласной является стационарным процессом. В нем присутствует колебания с несколькими различными частотами, что проявится в форме корреляционной функции и СПМ.

Рисунок 4.1 – Мгновенные значения фонемы «У»

Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 4.2. Как видно из графика период основного тона составляет 130 отсчетов. В корреляционной функции также присутствуют колебания с различной частотой. Это приводит к росту порядка модели АР и многомодовости параметрической СПМ. Большой интервал затухания корреляционной функции свидетельствует об узкополосности сигнала фонемы «У». Квазипериодичность корреляционной функции свидетельствует о квазидетерминированности гласных фонем.

Рисунок 4.2 – Корреляционная функция фонемы «У»

На рис. 4.3 представлена СПМ, полученная преобразованием Фурье от корреляционной функции фонемы (рис. 4.2). Из графика видно наличие нескольких низкочастотных мод (150 – 400 Гц). Дисперсия оценки значительна, т.к. не использовалось сглаживающее окно.

Рисунок 4.3 – СПМ фонемы «У», полученная преобразованием Фурье корреляционной функции

Параметрическая оценка спектра на основе модели авторегрессии 16 порядка представлена на рис. 4.4. Как видно из графика параметрический спектр АР(16) фонемы имеет две основные моды на частотах (примерно 200 Гц и 2400 Гц). Сравнение графиков спектра на рис. 4.3 и 4.4 показывает достоинство параметрической оценки спектра, имеющей меньшую дисперсию. Однако для 16 порядка отсутствует разрешение пика в районе 200 Гц. Для повышения разрешающей способности на рис. 4.5 приведен график СПМ, полученный по АР(50). Анализ графика показывает наличие двух мод на низкой частоте (рис. 4.3). Однако при высоких порядках проявляется недостаток параметрических спектров, заключающийся в появлении ложных пиков небольшой высоты. Поэтому для сложных сигналов с многомодовым спектром и близко расположенными пиками необходимо тщательно подбирать порядок модели.

Рисунок 4.4 - Параметрическая СПМ фонемы «У» найдена по модели авторегрессии при р=16

Рисунок 4.5 - Параметрическая СПМ фонемы «У» найдена по модели авторегрессии при р=50

В процессе кодирования фонемы сигнал подвергается обелению. Восьмизвенный решетчатый фильтр краткосрочного предсказания существенно преобразовывает входной коррелированный процесс в квазишумовой сигнал. Т.к. в кодере речи стандарта GSM порядок фильтра не адаптируется к кодируемому процессу, то на выходе LPC сигнал не является истинным белым шумом. Таким образом, на выходе фильтра получается не ошибка предсказания, а частично коррелированный остаток предсказания. Мгновенные значения остатка предсказания на выходе блока LPC представлены на рис. 4.6. Как видно из графика, процесс является существенно обеленным.

Рисунок 4.6 - Сигнал фонемы «У» на выходе блока LPC

Частичная коррелированность остатка предсказания фонемы «У» видна на графике корреляционной функции, представленной на рис. 4.7. На близость анализируемого процесса к белому шуму указывает быстрое спадание к нулю корреляционной функции при малых сдвигах. В то же время наличие значительных колебаний корреляционной функции вокруг нулевой линии свидетельствует о наличии слабой корреляции. Значительные пики для сдвигов 130, 260 отсчетов указывают на наличие периода основного тона в корреляционной функции остатка предсказания. Это связано с тем, что восьмизвенным фильтром невозможно обелить процесс, имеющих колебания с большим периодом (для фонемы «У» 130 отсчетов).

Рисунок 4.7 – Корреляционная функция фонемы «У» на выходе блока LPC

Спектр Фурье фонемы «У» на выходе блока LPC представлен на рис. 4.8. Как видно из графика, он несколько отличается от равномерного спектра белого шума. Аналогичный вид (рис. 4.9) имеет СПМ, полученная по модели АР(50).

Рисунок 4.8 – Спектр Фурье фонемы «У» на выходе блока LPC

Рисунок 4.9 - Параметрическая СПМ фонемы «У» найдена по модели авторегрессии при р=50

При прохождении остатка предсказания фонемы «У» через трехзвенный решетчатый фильтр долговременного предсказания происходит его дальнейшее обеление. Это наглядно видно из графика корреляционной функции остатка предсказания на выходе блока LTP, показанного на рис. 4.10. Анализ графика показывает уменьшение дисперсии корреляционной функции. Однако пики с периодом основного тона остаются значительными.

Рисунок 4.10 – Корреляционная функция фонемы «У» на выходе блока LTP

Параметрическая оценка спектра остатка предсказания на выходе блока LTP показана на рис. 4.11. Из графика видно наличие слабых пиков, особенно на низких частотах. Отличие остатка предсказания от белого шума требует его передачи после прореживания на приемник мобильной станции абонента.

Рисунок 4.11 – Параметрическая СПМ фонемы «У» на выходе блока LTP

4.1.2 Исследование полугласной фонемы «Р»

На рис. 4.12 представлен сигнал фонемы «Р» на входе блока LPC. Как видно из графика, сигнал полугласной является квазистационарным процессом. В нем присутствует колебания с несколькими различными частотами, что проявится в форме корреляционной функции и СПМ.

Рисунок 4.12 – Мгновенные значения фонемы «Р»

Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 4.13. Как видно из графика период основного тона определить для этой фонемы сложно. В корреляционной функции присутствуют неоднородные низкочастотные колебания. Большой интервал затухания корреляционной функции свидетельствует об узкополосности сигнала фонемы «Р». Квазипериодичность корреляционной функции свидетельствует о квазидетерминированности полугласной фонемы.

Рисунок 4.13 - Корреляционная функция фонемы «Р»

На рис. 4.14 представлена СПМ, полученная преобразованием Фурье от корреляционной функции фонемы (рис. 4.13). Из графика видно наличие нескольких низкочастотных мод (150 – 250 Гц). Дисперсия оценки значительна, т.к. не использовалось сглаживающее окно.

Рисунок 4.14 – СПМ фонемы «Р», полученная преобразованием Фурье корреляционной функции

Параметрическая оценка спектра на основе модели авторегрессии 10 порядка представлена на рис. 4.15. Как видно из графика параметрический спектр АР(10) фонемы имеет основную моду на частоте примерно 200 Гц. Сравнение графиков спектра на рис. 4.14 и 4.15 показывает достоинство параметрической оценки спектра, имеющей меньшую дисперсию. Для повышения разрешающей способности, получен спектр по модели АР(16) (рис.4.16). Однако и для 16 порядка отсутствует разрешение пика в районе 200 Гц. Однако при высоких порядках проявляется недостаток параметрических спектров, заключающийся в появлении ложных пиков небольшой высоты. Поэтому для сложных сигналов с многомодовым спектром и близко расположенными пиками необходимо тщательно подбирать порядок модели.

Рисунок 4.15 - Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=10

Рисунок 4.16 - Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=16

Восьмизвенный решетчатый фильтр краткосрочного предсказания преобразовывает входной коррелированный процесс в квазишумовой сигнал. Т.к. в кодере речи стандарта GSM порядок фильтра не адаптируется к кодируемому процессу, то на выходе LPC сигнал не является истинным белым шумом. Таким образом, на выходе фильтра получается не ошибка предсказания, а частично коррелированный остаток предсказания. Мгновенные значения остатка предсказания на выходе блока LPC представлены на рис. 4.17. Как видно из графика, процесс является существенно обеленным.

Рисунок 4.17 - Мгновенные значения фонемы «Р» на выходе блока LPC

Частичная коррелированность остатка предсказания фонемы «Р» видна на графике корреляционной функции, представленной на рис. 4.18. На близость анализируемого процесса к белому шуму указывает быстрое спадание к нулю корреляционной функции при малых сдвигах. В то же время наличие значительных колебаний корреляционной функции вокруг нулевой линии свидетельствует о наличии слабой корреляции.

Рисунок 4.18 – Корреляционная функция фонемы «Р» на выходе блока LPC

Спектр Фурье фонемы «Р» на выходе блока LPC представлен на рис. 4.19. Как видно из графика, он несколько отличается от равномерного спектра белого шума. Аналогичный вид (рис. 4.20) имеет СПМ, полученная по модели АР(16).

Рисунок 4.19 - СПМ фонемы «Р» на выходе блока LPC

Рисунок 4.20 - Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=16

При прохождении остатка предсказания фонемы «Р» через трехзвенный решетчатый фильтр долговременного предсказания происходит его дальнейшее обеление. Это наглядно видно из графика корреляционной функции остатка предсказания на выходе блока LTP, показанного на рис. 4.21. Анализ графика показывает уменьшение дисперсии корреляционной функции.

Рисунок 4.21 – Корреляционная функция фонемы «Р» на выходе блока LTP

Параметрическая оценка спектра остатка предсказания на выходе блока LTP показана на рис. 4.22. Из графика видно наличие слабых пиков, особенно на низких частотах. Отличие остатка предсказания от белого шума требует его передачи после прореживания на приемник мобильной станции абонента.

Рисунок 4.22 - Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=16 на выходе блока LTP

4.1.3 Исследование согласной носовой фонемы «М»

На рис. 4.23 представлен сигнал фонемы «М» на входе блока LPC. Как видно из графика, сигнал согласной носовой является стационарным процессом. В нем присутствует колебания с несколькими различными частотами, что проявится в форме корреляционной функции и СПМ.

Рисунок 4.23 - Мгновенные значения фонемы «М»

Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 4.24. Как видно из графика период основного тона составляет 125 отсчетов. В корреляционной функции присутствуют неоднородные низкочастотные колебания. Большой интервал затухания корреляционной функции свидетельствует об узкополосности сигнала фонемы «М». Квазипериодичность корреляционной функции свидетельствует о квазидетерминированности согласной носовой фонемы.

Рисунок 4.24 – Корреляционная функция фонемы «М»

На рис. 4.25 представлена СПМ, полученная преобразованием Фурье от корреляционной функции фонемы (рис. 4.24). Из графика видно наличие ярко выраженной низкочастотной моды на частоте 150 Гц. Дисперсия оценки спектра весьма значительна, т.к. не использовалось сглаживающее окно.

Рисунок 4.25 - СПМ фонемы «М», полученная преобразованием Фурье корреляционной функции

Параметрическая оценка спектра на основе модели авторегрессии 10 порядка представлена на рис. 4.26. Как видно из графика параметрический спектр АР(10) фонемы имеет основную моду на частоте примерно 150 Гц. Сравнение графиков спектра на рис. 4.25 и 4.26 показывает достоинство параметрической оценки спектра, имеющей меньшую дисперсию.

Рисунок 4.26 - Параметрическая СПМ фонемы «М» найдена по модели авторегрессии при р=10

Восьмизвенный решетчатый фильтр краткосрочного предсказания преобразовывает входной коррелированный процесс в квазишумовой сигнал. Т.к в кодере речи стандарта GSM порядок фильтра не адаптируется к кодируемому процессу, то на выходе LPC сигнал не является истинным белым шумом. Таким образом, на выходе фильтра получается не ошибка предсказания, а частично коррелированный остаток предсказания. Мгновенные значения остатка предсказания на выходе блока LPC представлены на рис. 4.27. Как видно из графика, процесс является существенно обеленным.

Рисунок 4.27 - Сигнал фонемы «М» на выходе блока LPC

Частичная коррелированность остатка предсказания фонемы «М» видна на графике корреляционной функции, представленной на рис. 4.28. На близость анализируемого процесса к белому шуму указывает быстрое спадание к нулю корреляционной функции при малых сдвигах. В то же время наличие значительных колебаний корреляционной функции вокруг нулевой линии свидетельствует о наличии слабой корреляции.

Рисунок 4.28 – Корреляционная функция фонемы «М» на выходе блока LPC

Спектр Фурье фонемы «М» на выходе блока LPC представлен на рис. 4.29. Как видно из графика, он несколько отличается от равномерного спектра белого шума. Аналогичный вид (рис. 4.30) имеет СПМ, полученная по модели АР(10).

Рисунок 4.29 - СПМ фонемы «М» на выходе блока LPC

Рисунок 4.30 - Параметрическая СПМ фонемы «М» найдена по модели авторегрессии при р=10

При прохождении остатка предсказания фонемы «М» через трехзвенный решетчатый фильтр долговременного предсказания происходит его дальнейшее обеление. Это наглядно видно из графика корреляционной функции остатка предсказания на выходе блока LTP, показанного на рис. 4.31. Анализ графика показывает уменьшение дисперсии корреляционной функции.

Рисунок 4.31 - Корреляционная функция фонемы «М» на выходе блока LTP

Параметрическая оценка спектра остатка предсказания на выходе блока LTP показана на рис. 4.32. Из графика видно наличие слабых пиков, особенно на низких частотах. Отличие остатка предсказания от белого шума требует его передачи после прореживания на приемник мобильной станции абонента.

Рисунок 4.32 - Параметрическая СПМ фонемы «М» на выходе блока LTP

В табл. 4.1 представлены параметры, при которых проводились исследования преобразования фонем в кодере речи, а также результаты расчета коэффициентов отражения фильтров кратковременного и долговременного предсказания. Указаны также порядки модели АР, используемые при построении параметрических спектров. Из таблицы видно, что, несмотря на близость параметрических спектров для многих фонем, коэффициенты отражения имеют заметные отличия. Эти отличия формируют разные фонемы в процессе декодирования речевого сигнала.

2-й вариант

3.2 Структура декодера речи в стандарте GSM

Структурная схема декодера речи в стандарте GSM представлена на рис. 3.6. В декодере речевой сигнал восстанавливается по откликам последовательности регулярного импульсного возбуждения двухступенчатым синтезирующим фильтром.

Рисунок 3.6 - Структурная схема декодера речи стандарта GSM.

Рассмотрим кратко структуру и работу декодера - синтезатора речи показанного на рис. 3.6. Из канала связи данные с помощью демультиплексора распределяются по различным блокам декодера. На блок RPE декодера поступают номер последовательности , максимальное значение импульса выборки , представляющей собой прореженный остаток предсказания. Здесь отсчеты выборки масштабируются и дополняются нулями в точках децимации. Восстановленная таким образом выборка подается на LTP - синтезатор. Его функции выполняет генератор с передаточной функцией . На него подаются с демультиплексора коэффициенты отражения долговременного предсказания и период основного тона . Синтезированный сигнал с восстановленной долговременной составляющей, подается на блок LPC синтезатора, представляющий собой генератор кратковременного предсказания на РФ восьмого порядка с передаточной функцией . Коэффициенты отражения на этот РФ поступают с демультиплексора через преобразователь коэффициента логарифма площади в по формуле

.

Сигнал с выхода LPC-синтезатора для уменьшения шумов квантования поступает на постфильтр, на выходе которого получают декодированный речевой сигнал .

Кодеры с линейным предсказанием создают речь хорошего и отличного качества при скоростях передачи 9,6 кбит/с и выше. При скоростях ниже 9,6 кбит/с качество речи становится хуже из-за увеличения шумов квантования. Для уменьшения их влияния осуществляется так называемая постфильтрация, с помощью которой изменяется спектр речевого сигнала так, что субъективно уменьшает восприятие шума квантования.

Постфильтр получается с помощью LPC - анализатора, в котором содержится инверсный фильтр

.

Рассмотрим взвешенный инверсный фильтр

.

Коэффициент взвешивания не изменяет положение формантных частот, а изменяет только ширину формантных областей. Взвешенный инверсный фильтр определяет полюса фильтра. Нули постфильтра определяет взвешенный инверсный фильтр вида

При этих обозначениях передаточная характеристика постфильтрапримет вид

,

где и - коэффициенты взвешивания; и - порядок взвешивающих фильтров.

Эти параметры постфильтра обеспечивают необходимый вид спектральной характеристики постфильтра и формирование формантных областей. При одних значениях области формант обостряются, при других - расширяются. При значениях постфильтр имеет провалы в местах расположения формант, т. е. происходит искажение формантной структуры. Поэтому должно соблюдаться условие .

Постфильтр распределяет шумы квантования таким образом, что их величина становится больше в формантных областях и меньше междуформантными областями в спектральных впадинах. Таким путем уменьшается субъективное восприятие шума. В местах расположения формант шумы квантования маскируются речевым сигналом.

Но одновременно постфильтр искажает речевой сигнал. Параметры постфильтра выбираются так, чтобы не допустить больших искажений речи и по возможности уменьшить шумы квантования. Параметры постфильтра и были определены экспериментально прослушиванием речи на выходе кодера. Они оказались равными =0.95, =0.5…0.7. При этих значениях и получено повышение сегментального отношения сигнал/шум на 7…8 дБ и повышение разборчивости речи. Таким образом, постфильтрация позволяет не только улучшить качество звучания, но и повысить разборчивость речевого сигнала на выходе кодера.

Теоретически время задержки речевого сигнала в кодеке равно длительности сегмента и составляет 20 мс. Реальное время задержки, с учетом операций канального кодирования и перемежения, а также физического выполнения рассматриваемых операций, составляет 70 - 80 мс.

3.3 Решетчатый фильтр модели СВСП

На рис. 3.7 показана схема трехзвенного РФ долговременного предсказания.

Рисунок 3.7 – РФ долговременного предсказания

Для нахождения коэффициентов отражения РФ долговременного анализа используется формула:

где - длина выборки, - порядок фильтра, - длина подвектора, - ошибка прямого преобразования, - ошибка обратного преобразования.

Работа РФ с использованием модели СВСП характеризуется графиками на рис. 3.8 и рис. 3.9 корреляционных функций сигналов на выходе блоков LTP для фонемы “O”. Сравнение графиков показывает, что корреляционная функция сигала на выходе обеляющего РФ с использованием представления СВСП заметно снижает дисперсию корреляционной функции, уменьшает уровень пика при сдвиге, равном периоду ОТ.

Рисунок 3.8 - Корреляционная функция сигнала на выходе блока LTP

Рисунок 3.9 - Корреляционная функция сигнала на выходе блока LTP в представлении СВСП

3.4 Генерация случайных процессов с использованием решетчатых фильтров

Обеляющий и формирующий решетчатые фильтры обратимы. Если на вход обеляющего РФ подается коррелированный случайный процесс, т. е. , то на выходе получаем ошибку предсказания типа белого шума . В случае же когда на выход обеляющего РФ подается случайный процесс типа белого шума, то есть , то на его входе формируется коррелированный случайный процесс, т. е. . Свойство обратимости РФ, например, эффективно применяется для анализа и синтеза речевого сигнала в кодеках речи.

Для генерации коррелированного случайного процесса можно использовать формирующий фильтр на базе РФ с обратной связью. Структура такого генератора приведена на рис. 3.10. Работа генератора на РФ описывается системой двух уравнений

(3.7)

(3.8)

Применение для генерации РФ гарантирует стабильность работы генератора, т.к., что является необходимым условием, чтобы передаточная функция была минимально фазовой функцией и ее полюсы находились внутри единичного круга на комплексной плоскости.

Рисунок 3.10 - Генератор коррелированного случайного процесса на решетчатом фильтре с обратной связью

Генерирование случайного процесса возможно, когда известны коэффициенты отражения. Оценки коэффициентов отражения реальных сигналов получают по приведенным выше формулам. В качестве порождающего процесса используют гауссов или негауссов БШ.

3.5 Кодек речи с использованием метода представления сигнала в виде СВСП

На рис. 3.11 представлена структурная схема кодека речевого сигнала, где для учета долговременных изменений речи применен метод представления сигнала в виде СВСП. Отличие данного кодека, от используемого на практике, это отсутствие блока вычисления периода основного тона. Такой метод кодирования-декодирования речи должен сократить количество вычислений процессора обработки сигнала, при этом сохранив качество речи, существующей на данный момент системы мобильной связи GSM 06.10.

Рисунок 3.11 – Структурная схема кодека речи

X(t) - аналоговый сигнал; fd – частота дискретизации; АЦП - аналого-цифровой преобразователь; LPC - (eng. Linear Predictive Coding) фільтр кратко временного предсказания; LTP - (eng. Long Term Prediction) фільтр долговременного предсказания; RPE - (eng. Regular Pulse Excition) регулярное импульсное возбуждение; РФ – решетчатый фильтр; X1(t) - оцифрованный сигнал; X2(t), X3(t) - остатки предсказания РФ кратковременного и долговременного анализа; X5(t), X6(t) - восстановленные остатки предсказания фильтров LPC и LTP соответственно; X7(t) - Восстановленная речь в цифровом виде.

4 РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ КОДЕКА РЕЧЕВОГО СИГНАЛА

Введение

В данном разделе представлено исследование работы кодека речи на разных этапах прохождения сигнала через функциональные блоки обработки информации. Структурная схема кодека была показана на рис. 3.11. Для моделирования использовалась программа, разработанная в среде MATLAB.

4.1 Исследования работы кодека для фонемы «О»

На рис. 4.1 представлен график мгновенных значений оцифрованной фонемы с частотой дискретизации 8 кГц. Из графика видно, что сигнал является стационарным процессом, в котором присутствуют колебания с несколькими частотами.

Рисунок 4.1 –Мгновенное значение фонемы «О»

На рис.4.2 показан график АКФ выборки фонемы «О». Пик, приходящийся на 151 отсчет, характеризует наличие в сигнале периода основного тона.

Рисунок 4.2 – АКФ фонемы«О»

ПСПМ, полученная по модели АР(8), показана на рис. 4.3.

Рисунок 4.3 – ПСПМ фонемы«О»

При сжатии речи, оцифрованный сигнал поступает на блок кратковременного предсказания, где получают выборочные оценки восьми коэффициентов отражения РФ, представленных на рис. 4.4. С ростом индекса коэффициентов отражения РФ их величина убывает, т.к. сигнал существенно обеляется.

Рисунок 4.4 – Коэффициенты отражения фильтра LPC для фонемы «О»

АКФ остатка предсказания LPC для фонемы «О» показана на рис. 4.5. На рис. 4.5 видно, что период основного тона находится на 151 отсчете КФ и его уровень равный 0.2835. Восьмизвенный РФ не может скомпенсировать полностью колебания с периодом основного тона из-за большого периода колебаний.

Рисунок 4.5 –АКФ остатка предсказания LPC для фонемы «О»

Остаток кратковременного предсказания поступает на РФ долговременного предсказания. В качестве фильтра применяется РФ третьего порядок. Длина подвектора для сигнала, являющегося ошибкой долговременного предсказания, представленного в виде СВСП, равна 68 отсчетов. Такая длина позволяет учесть в коэффициентах РФ третьего порядка, долговременные изменения в речи с периодом основного тона более сотни отсчетов. На рис. 4.6 представлены три коэффициента отражения РФ.

Рисунок 4.6 – Коэффициенты отражения фильтра LTP с использованием СВСП представления

АКФ остатка предсказания показана на рис. 4.7. Несмотря на то, что уровень пика корреляционной функции со сдвигом, равном периоду основного тона снизился незначительно, громоздкие операции по определению периода основного тона не использовались. Это существенно экономит вычислительные затраты процессора при анализе речевых сигналов. Математическое ожидание модулей коэффициентов предсказания равно 0.075102. Из рисунка 4.7 видно, что РФ обелил частично сигнал, но сохранил информацию об основном тоне в коэффициентах отражения. Поэтому необходимо использовать в качестве порождающего процесса остаток долговременного предсказания, обработанный блоком RPE.

Рисунок 4.7 – АКФ остатка предсказания LTP

Остаток долговременного предсказания поступает на RPE блок, где происходит прореживание ошибки предсказания по схеме: первые 10 значений остаются неизменными, т.к. при воспроизведении, такое количество показало наилучшее качество. Процедура децимации производится в соотношении один к трем.

На рис. 4.8 показан график АКФ сигнала, дополненного нулями, на выходе блока RPE.

Рисунок 4.8 – АКФ на выходе блока RPE

ПСПМ сигнала поступающего в мультиплексор показана на рис. 4.9. Нижний уровень на графике соответствует нижнему уровню рис. 4.3. Как видно из рис. 4.9 в мультиплексор подается практически белый шум.

Рисунок 4.9 – ПСПМ сигнала поступающего в мультиплексор

На приемной стороне принятый сигнал демультиплексируется. На вход генератора долговременного предсказания поступает сигнал, который был на выходе блока RPE и коэффициенты отражения блока LTP. На рис. 4.10 показана АКФ сигнала на выходе генератора долговременного предсказания.

Рисунок 4.10 – АКФ на выходе генератора LTP

Затем сгенерированный сигнал с восстановленными долговременными изменениями поступает на генератор кратковременного предсказания. На рис. 4.11 изображен график АКФ восстановленной фонемы, а её ПСПМ показана на рис. 4.12.

Рисунок 4.11 – АКФ восстановленной фонемы

Рисунок 4.12 – ПСПМ восстановленной фонемы

Если сравнить графики на рис. 4.2 и рис. 4.3; рис. 4.3 и рис. 4.12, то не сложно заметить, что синтезированный сигнал соответствует кодируемому. Некоторые отличия связаны с некоторой потерей информации.

3-й вариант

4 РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ КОДЕКА РЕЧЕВОГО СИГНАЛА

Введение

В данном разделе представлено исследование работы кодека речи на разных этапах прохождения сигнала через функциональные блоки обработки информации. Структурная схема кодека была показана на рис. 3.11. Для моделирования использовалась программа, разработанная в среде MATLAB.

4.1 Исследования работы кодека для фонемы «О»

На рис. 4.1 представлен график мгновенных значений оцифрованной фонемы с частотой дискретизации 8 кГц. Из графика видно, что сигнал является стационарным процессом, в котором присутствуют колебания с несколькими частотами.

Рисунок 4.1 –Мгновенное значение фонемы «О»

На рис.4.2 показан график АКФ выборки фонемы «О». Пик, приходящийся на 151 отсчет, характеризует наличие в сигнале периода основного тона.

Рисунок 4.2 – АКФ фонемы«О»

ПСПМ, полученная по модели АР(8), показана на рис. 4.3.

Рисунок 4.3 – ПСПМ фонемы«О»

При сжатии речи, оцифрованный сигнал поступает на блок кратковременного предсказания, где получают выборочные оценки восьми коэффициентов отражения РФ, представленных на рис. 4.4. С ростом индекса коэффициентов отражения РФ их величина убывает, т.к. сигнал существенно обеляется.

Рисунок 4.4 – Коэффициенты отражения фильтра LPC для фонемы «О»

АКФ остатка предсказания LPC для фонемы «О» показана на рис. 4.5. На рис. 4.5 видно, что период основного тона находится на 151 отсчете КФ и его уровень равный 0.2835. Восьмизвенный РФ не может скомпенсировать полностью колебания с периодом основного тона из-за большого периода колебаний.

Рисунок 4.5 –АКФ остатка предсказания LPC для фонемы «О»

Остаток кратковременного предсказания поступает на РФ долговременного предсказания. В качестве фильтра применяется РФ третьего порядок. Длина подвектора для сигнала, являющегося ошибкой долговременного предсказания, представленного в виде СВСП, равна 68 отсчетов. Такая длина позволяет учесть в коэффициентах РФ третьего порядка, долговременные изменения в речи с периодом основного тона более сотни отсчетов. На рис. 4.6 представлены три коэффициента отражения РФ.

Рисунок 4.6 – Коэффициенты отражения фильтра LTP с использованием СВСП представления

АКФ остатка предсказания показана на рис. 4.7. Несмотря на то, что уровень пика корреляционной функции со сдвигом, равном периоду основного тона снизился незначительно, громоздкие операции по определению периода основного тона не использовались. Это существенно экономит вычислительные затраты процессора при анализе речевых сигналов. Математическое ожидание модулей коэффициентов предсказания равно 0.075102. Из рисунка 4.7 видно, что РФ обелил частично сигнал, но сохранил информацию об основном тоне в коэффициентах отражения. Поэтому необходимо использовать в качестве порождающего процесса остаток долговременного предсказания, обработанный блоком RPE.

Рисунок 4.7 – АКФ остатка предсказания LTP

Остаток долговременного предсказания поступает на RPE блок, где происходит прореживание ошибки предсказания по схеме: первые 10 значений остаются неизменными, т.к. при воспроизведении, такое количество показало наилучшее качество. Процедура децимации производится в соотношении один к трем.

На рис. 4.8 показан график АКФ сигнала, дополненного нулями, на выходе блока RPE.

Рисунок 4.8 – АКФ на выходе блока RPE

ПСПМ сигнала поступающего в мультиплексор показана на рис. 4.9. Нижний уровень на графике соответствует нижнему уровню рис. 4.3. Как видно из рис. 4.9 в мультиплексор подается практически белый шум.

Рисунок 4.9 – ПСПМ сигнала поступающего в мультиплексор

На приемной стороне принятый сигнал демультиплексируется. На вход генератора долговременного предсказания поступает сигнал, который был на выходе блока RPE и коэффициенты отражения блока LTP. На рис. 4.10 показана АКФ сигнала на выходе генератора долговременного предсказания.

Рисунок 4.10 – АКФ на выходе генератора LTP

Затем сгенерированный сигнал с восстановленными долговременными изменениями поступает на генератор кратковременного предсказания. На рис. 4.11 изображен график АКФ восстановленной фонемы, а её ПСПМ показана на рис. 4.12.

Рисунок 4.11 – АКФ восстановленной фонемы

Рисунок 4.12 – ПСПМ восстановленной фонемы

Если сравнить графики на рис. 4.2 и рис. 4.3; рис. 4.3 и рис. 4.12, то не сложно заметить, что синтезированный сигнал соответствует кодируемому. Некоторые отличия связаны с некоторой потерей информации.

5-й вариант

2.3 Экспериментальные исследования работы РФ

Методом статистического моделирования был проведен анализ работы РФ кратковременного и долговременного предсказания. Для этого на вход фильтра подавался сигнал фонемы А, мгновенное значение которого показано на рис. 2.9. Из рисунка видно, что фонема представляет собой квазипериодический случайный процесс с колебаниями с различным периодом. Это подтверждается формой корреляционной функции фонемы А, показанной на рис. 2.10. Большой интервал затухания корреляционной функции указывает на узкополосность анализируемого сигнала.

Рисунок 2.9 – Мгновенные значения сигнала фонемы А на входе решетчатого фильтра

Рисунок 2.10 – Корреляционная функция входного сигнала фонемы А

Многомодовый параметрический спектр фонемы А показан на рис. 2.11. Он был получен по модели АР(16).

Рисунок 2.11 – Спектр СПМ фонемы входного сигнала

Сигнал фонемы А обрабатывался восьмизвенным РФ, коэффициенты РФ рассчитывались методом Берга и представлены на рис. 2.12. Как видно из графика, наиболее информативными являются первый и второй коэффициенты, имеющие максимальное значение.

Рисунок 2.12 – Зависимость коэффициента отражения от номера звена РФ

После обеления сигнала фонемы восьмизвенным РФ, выходной сигнал является квазибелым шумом(рис. 2.13.). Выходной сигнал содержит скачки сигнала следующие с периодом ОТ. Их наличие является следствием не полной компенсации РФ пиков присутствующих во входном сигнале(рис. 2.9). Нескомпенсированные пики используются для определения периода ОТ.

Рисунок 2.13 – Мгновенное значение ошибки предсказания фонемы А

Корреляционная функция сигнала на входе восьмизвенного РФ показана на рис. 2.14. Вид корреляционной функции по форме близок к дельта корреляционной функции белого шума. Спектр остатка предсказания фонемы А на выходе РФ показан на рис. 2.15. По сравнению с графиком, показанным на рис. 2.11, он больше похож на СПМ белого шума.

Рисунок 2.14 – Корреляционная функция остатка предсказания на выходе РФ

Рисунок 2.15 – Спектр остатка предсказания фонемы А на выходе РФ

2.4 Генерация случайных процессов на основе фильтра с решетчатой структурой

Дальнейшее развитие теории в области предсказания временных рядов на основе модели АР привело к созданию так называемых фильтров на решетчатых структурах. Реализация решетчатых структур в виде решетчатых фильтров (РФ) предсказания по методу наименьших квадратов выявила целый ряд достоинств РФ. Особенно это касается адаптивных методов обработки случайных процессов. В стандарте GSM осуществляется адаптивная блочная обработка речи на основе фильтров предсказания с решетчатой структурой. Блочная адаптивная обработка процессов отличается от пошаговой тем, что параметры фильтра пересчитываются не с получением каждого нового отсчета данных, а по последовательным блокам данных[5]. Параметры речи, а также процесс на выходе адаптивного РФ сформированные кодером на передающем сотовом телефоне, покадрово передаются через базовую станцию на приемник сотового телефона корреспондента. Декодер сотового телефона по принятым данным восстанавливает речевой сигнал. Для генерации речи применяется формирователь на базе РФ с обратной связью. Структура такого генератора приведена на рис. 2.16.

Рисунок 2.16 – Генератор коррелированного случайного процесса на

решетчатом фильтре с обратной связью

РФ с прямым прохождением сигнала и РФ с обратной связью, имеющие одинаковые коэффициенты отражения, выполняют инверсные операции над входным сигналом. Если на вход РФ с прямым прохождением сигнала подается коррелированный случайный процесс, т. е. , то на выходе получаем ошибку предсказания типа белого шума . В случае же когда на вход РФ с обратной связью подается случайный процесс типа белого шума, т. е. , то на выходе формируется коррелированный случайный процесс, т. е. .

Работа генератора с кратковременным предсказанием на РФ описывается системой двух уравнений

, (2.28а)

, (2.28б)

где - коэффициенты отражения РФ; - число звеньев РФ; и - ошибки прямого и обратного предсказания в -м звене РФ в момент времени .

Применение для кодирования речи коэффициентов отражения РФ, которые являются также коэффициентами частичной корреляции случайного процесса, являются более предпочтительными, по сравнению с коэффициентами АР по следующим причинам:

  • гарантируется стабильность работы генератора на РФ, т. к. , а это является необходимым условием, чтобы передаточная функция была минимально фазовой функцией и ее полюсы находились внутри единичного круга на комплексной плоскости;

  • коэффициенты нечувствительны к ошибкам квантования;

  • при переходе от -звенного к -звенному фильтру, значения не пересчитываются, в то время как коэффициенты АР нужно пересчитывать заново;

  • коэффициенты отражения анализирующего и синтезирующего фильтров совпадают, что, впрочем, характерно и для коэффициентов АР.

В стандарте GSM в качестве порождающего процесса , который подается на вход синтезатора речи, используют ошибки предсказания анализирующего РФ, пропущенные через НЧ фильтр, с частотой среза 3-4 кГц. Хотя такой способ возбуждения требует существенного увеличения скорости передачи до 9.4 кбит/с, качество восстановленного в декодере сигнала речи соответствует качеству передаваемой речи в цифровых каналах связи ISDN и превосходит качество речи в аналоговых радиотелефонных системах [10].

Высокое качество передачи речи в стандарте GSM достигается не только учетом корреляции между соседними дискретизированного речевого сигнала, но и учетом тонкой структуры речевого сигнала – корреляции между отсчетами в соседних периодах основного тона. С этой целью используются предикторы с кратковременным и долговременным предсказанием соответственно. Синтезатор речи с кратковременным предсказанием описывается системой уравнений и показан на рис. 2.16.

Выражение для долговременного предсказания в стандарте GSM определяется следующим образом

, (2.29)

где - число отсчетов в периоде основного тона.

Тогда передаточная функция анализирующего фильтра может быть представлена в виде

. (2.30)

Передаточная функция синтезирующего фильтра описывается выражением, аналогичным

. (2.31)

Систему уравнений описывающую синтезирующий РФ с долговременным предсказанием можно получить из

, (2.32)

. (2.33)

6-й вариант

4.2 Анализ изменения статистических характеристик фонемы Е в процессе кодирования

В данном разделе представлены результаты изменения статистических характеристик фонемы Е в процессе кодирования. Для этого использовалась программа, разработанная в среде MATLAB.

На рис. 4.2 изображен сигнал фонемы Е, поступающий на блок LPC. Из графика видно, что сигнал является стационарным процессом, в котором присутствуют колебания с несколькими частотами.

Рисунок 4.2 – Мгновенное значение фонемы Е

На рис. 4.3 представлена корреляционная функция входного сигнала, на котором можно наблюдать её изменения. Исходя из длинны корреляционной функции, можно сказать, что спектр фонемы Ы является узкополосным. Наличие разных периодов колебаний корреляционной функции свидетельствуют о многомодовости СПМ фонемы.

Рисунок 4.3 – Корреляционная функция фонемы Е

На рис. 4.4 представлена параметрическая СПМ модели АР(16), на котором видно, что спектр фонемы Е, как и предполагалось ранее, является узкополосным. На спектре присутствуют несколько пиков: более мощных на частотах 230 Гц и 750Гц слабого на 2000 Гц.

Рисунок 4.4 – Параметрическая СПМ фонемы Е найдена по модели АР(16)

На рис. 4.5 представлен график коэффициентов отражения блока LPC. Как видно из графика наибольшие по абсолютной величине значения имеют первые два коэффициента отражения, что соответствует теории кодирования речи.

Рисунок 4.5 – График коэффициента отражения LPC блока

На рис. 4.6 представлены мгновенные значения остатка предсказания на выходе блока LPC. Судя по графику можно сказать, что характеристики ошибки предсказания близки к белому шуму.

Рисунок 4.6 – Мгновенное значение остатка предсказания

На рис. 4.7 и рис. 4.8 наглядно представлена близость статистических характеристик (корреляционной функции и параметрической СПМ) остатка предсказания к характеристикам белого шума.

Рисунок 4.7 – Корреляционная функция фонемы Е на выходе блока LPC

Рисунок 4.8 – Спектр сигнала на выходе РФ

По графику корреляционной функции сигнала на выходе блока LPC, представленному на рис. 4.9 определяется период ОТ, он равен расстоянию в отсчетах от нулевого сдвига до сдвига на котором наблюдается первый пик.

Рисунок 4.9 – График корреляционной функции для определения периода основного тона

На рис. 4.10 представлен график изменения коэффициентов отражения блока LTP. В табл. 4.2 приведены значения коэффициентов отражения этого фильтра. Так как долговременная корреляция остатка предсказания незначительна, коэффициенты отражения имеют малые значения. Однако они играют важную роль для придания декодируемой речи естественного звучания. Основную информацию о кодируемом фильтре несут коэффициенты решетчатого фильтра блока LPC, представленные в табл. 4.1.

Рисунок 4.10 – Значение коэффициентов для фильтра LTP

4.3 Анализ изменения статистических характеристик фонемы Ы в процессе кодирования

В данном разделе представлены результаты изменения статистических характеристик фонемы Ы в процессе кодирования. Для этого использовалась программа, разработанная в среде MATLAB.

На рис. 4.11 изображен сигнал фонемы Ы, поступающий на блок LPC. Из графика видно, что сигнал является стационарным процессом, в котором присутствуют колебания с несколькими частотами.

Рисунок 4.11 – Мгновенное значение фонемы Ы

Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 4.12. Длина корреляционной функции довольно значительная, что свидетельствует об узкополосности гласных в частности фонемы Ы.

Рисунок 4.12 – Корреляционная функция фонемы Ы

На рис. 4.13 представлена параметрическая СПМ модели АР(16), на котором видно, что спектр фонемы Ы, как и предполагалось ранее, является узкополосным. На спектре присутствует основной пик на частоте приблизительно 100 Гц.

Рисунок 4.13 – Параметрическая СПМ фонемы Ы найдена по модели АР(16)

На рис. 4.14 представлен график коэффициентов отражения блока LPC. Как видно из графика наибольшие по абсолютной величине значения имеют первые два коэффициента отражения, что соответствует теории кодирования речи.

Рисунок 4.14 – График коэффициента отражения LPC блока

На рис. 4.15 представлены мгновенные значения остатка предсказания на выходе блока LPC. Судя по графику можно сказать, что характеристики ошибки предсказания близки к белому шуму.

Рисунок 4.15 – Мгновенное значение остатка предсказания

На рис. 4.16 и рис. 4.17 наглядно представлена близость статистических характеристик (корреляционной функции и параметрической СПМ) остатка предсказания к характеристикам белого шума.

Рисунок 4.16 – Корреляционная функция фонемы Ы на выходе блока LPC

Рисунок 4.17 – Спектр сигнала на выходе РФ

По графику корреляционной функции сигнала на выходе блока LPC, представленному на рис. 4.18 определяется период ОТ, он равен расстоянию в отсчетах от нулевого сдвига до сдвига на котором наблюдается первый пик.

Рисунок 4.18 – График корреляционной функции для определения периода основного тона

На рис. 4.19 представлен график изменения коэффициентов отражения блока LTP. В табл. 4.2 приведены значения коэффициентов отражения этого фильтра. Так как долговременная корреляция остатка предсказания незначительна, коэффициенты отражения имеют малые значения. Однако они играют важную роль для придания декодируемой речи естественного звучания. Основную информацию о кодируемом фильтре несут коэффициенты решетчатого фильтра блока LPC, представленные в табл. 4.1.

Рисунок 4.19 – Значение коэффициентов для фильтра LTP

4.4 Моделирование элементов низкоскоростного кодека

Моделировалась система кодирования речи с пониженной скоростью передачи речевого сигнала. Для кодирования применялся метод VSELP. С этой целью создавалась библиотека стандартных векторов коэффициентов отражения РФ. В кодере использовался РФ 10 порядка.

После записи большого количества слов была произведена «нарезка» этих слов по 160 отсчетов. Каждая из выборок пропускалась через описанный выше фильтр 10 порядка и определялись коэффициенты отражения. Всего библиотека составила 512 векторов коэффициентов отражения. Следует отметить, что выборки включали в себя не только чистые фонемы, но и переходы между фонемами, а также начальные и конечные участки фонем. Поэтому можно сказать, что векторы коэффициента отражения отличались от идеальных случаев. Анализ библиотеки показал, что вектора имеют существенные различия между собой.

Как показали дальнейшие исследования с произвольными выборками речевых сигналов, найденные для них вектора коэффициента отражения в достаточной мере схожи с одним или несколькими коэффициентами отражения взятыми из библиотеки. Мерой сходства векторов являлось декартово расстояние между ними .

Алгоритм выбора наиболее подходящих коэффициентов отражения был следующим:

  1. Вырезалась выборка в 160 отсчетов кодируемого речевого сигнала.

  2. Расчитывались коэффициенты отражения методом Берга.

  3. Методом перебора определялись наиболее подходящие векторы коэффициента отражения из библиотеки.

  4. Через синтезирующий РФ 10 порядка с выбранными коэффициентами отражения пропускалась выборка белого шума длиной 160 отсчетов.

  5. Для полученной модели кодируемого речевого сигнала расчитывался параметрический спектр по модели АР 8 порядка.

  6. Для оценки точности синтезируемого сигнала производилось качественное сравнение анализируемого и синтезированного сигналов.

Ниже приведены графики спектров анализируемого и синтезированного сигнала для 16 произвольных фонем речевого сигнала.

На рисунках 4.20 – 4.25 представленны параметрические спектры анализируемого и синтезированного сигналов для последовательных участков по 160 отсчетов речевого сигнала. В качестве речевого сигнала использовалось слово УХО.