Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Университет Мирас

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

TTsS_lek.docx

Скачиваний:

Добавлен:

09.02.2016

Размер:

1.03 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1920 / 2220 21 22 > Следующая >>>

Примеры кодирования источника

Кодирование источника стало основной подсистемой в современных системах связи. Высокие требования к полосе частот и возможность запоминания явились мотивом его развития, в то время как интегрированные схемы и методы обработки сигналов предоставили такую возможность. Вторичной причиной широкого внедрения процесса в систему связи является определение общеиндустриальных стандартов, которые позволяют множественным поставщикам проводить рентабельную и конкурентоспособную реализацию процесса кодирования. Существуют стандарты МККТТ для кодирования источника или алгоритмов сжатия речи, аудио, неподвижных образов и движущихся изображений. В этом разделе будет изучено множество алгоритмов кодирования источника, основанных на стандартах, что должно продемонстрировать широкую применимость кодирования источника в системах связи и проиллюстрировать типичные уровни производительности.

Аудиосжатие

Аудиосжатие широко применяется в потребительских и профессиональных цифровых аудиопродуктах, таких как компакт-диски (compact disc — СD), цифровая аудиолента (digital audio type — DAT), мини-диск (mini-disc — МD), цифровая компакт-кассета (digital compact cassette— DCC), универсальный цифровой диск (digital versatile disc — DVD), цифровое аудиовещание (digital audio broadcasting — DAB) и аудиопродукция в формате МРЗ от экспертной группы по вопросам движущегося изображения (Motion Picture Experts Group — МРЕG). К тому же сжатие речи в телефонии, в частности сотовой телефонии, требуемое для экономии полосы частот и сбережения времени жизни батареи, дало начало процессу разработки множества стандартов сжатия речи. Различные алгоритмы применимы к речевым и потребительским сигналам более широкой полосы частот. Аудио- и речевые схемы сжатия можно для удобства разделить согласно приложениям, что отражает некоторую меру приемлемого качества. Рассмотрим параметры, описывающие это деление [].

Типичные значения параметров для трех классов аудиосигналов

Диапазон Частота Бит Скорость

частот дискретизации РСМ/выборку передачи

битов РСМ

Телефонная речь

300-3 400 Гц

8 кГц

64 Кбит/с

Широкополосная

речь

60-7 000 Гц

16 кГц

224 Кбит/с

Широкополосное

аудио

10-20 000 Гц

48 кГц

768 Кбит/с

Адаптивная дифференциальная импульсно-кодовая модуляция

Начнем наше обсуждение с обработки телефонной речи. Один из стандартов этой области — адаптивная дифференциальная импульсно-кодовая модуляция (adaptive differential pulse-code modulation — АDРСМ) G.726 от МККТТ. Этот стандарт кодирует выборку за выборкой, предсказывая значение каждой выборки из восстановленной речи предшествующих выборок, с использованием адаптивного предсказателя с обратной связью. Он принимает качественную речь, преобразованную посредством 8-битового линейного преобразования с использованием А- или µ-закона со скоростью 64 Кбит/с, и выдает сжатую речь со скоростью 16, 24, 32 и 40 Кбит/с. Кодер применяет декодер в контуре обратной связи для анализа и модификации параметров алгоритма с целью минимизации ошибки восстановления. Предсказатель использует фильтр шестого порядка для моделирования нулей и фильтр второго порядка — для моделирования полюсов источника входного сигнала. Блочная диаграмма кодера изображена на рис. 13.36.

Рис. 15.36. Речевой кодек АDРСМ (G.726)

Адаптивная дифференциальная импульсно-кодовая модуляция с разделением на подполосы.

Стандарт МККТТ G.722 является стандартом кодирования широкополосной речи. Широкополосное сжатие приводит к значительному улучшению качества телефонной речи, которое приближается к качеству речи при радиовещании и в музыкальных сиг-налах. Данный кодер использует дополнительные фильтры нижних и верхних частот для отделения входной полосы частот в 7 кГц, после чего речь дискретизуется с частотой 16 кГц в более высокую и более низкую подполосы, каждая из которых выбирается с частотой 8 кГц. Функции обоих фильтров и операция повторной дискретизации реализованы в цифровом фильтре, известном как квадратурный зеркальный фильтр (quadrature mirror filter). Независимые кодеры АDРСМ обрабатывают временные ряды сокращенных полос частот от двух фильтров и выдают скорости в 48 Кбит/с и 16 Кбит/с, соответственно, на выходе низкой и высокой полос. Эти кодеры представляют собой модифицированную версию речевых кодеров АDРСМ МККТТ В.721, которые используют фильтры с обратным предсказанием, основанные на закодированном разностном сигнале. Отбрасывание младшего бита коэффициентов предсказывающего фильтра позволяет этому кодеру работать со скоростью 56 и 48 Кбит/с, как и с номинальной скоростью 64 Кбит/с. При сниженной скорости передачи битов система связи может присваивать неиспользованные биты вспомогательному потоку данных, который передается со скоростью 8 и 16 Кбит/с, если канал поддерживает фиксированную выходную скорость в 64 Кбит/с. Предсказатель использует структуру с 6 нулями и 2 полюсами. Блочная диаграмма широкополосного аудиокодера, работающего со скоростью 64 Кбит/с, изображена на рис. 13.37.

Рис. 15.37. Широкополосный кодек QMF-ADPCM (64 Кбит/с) (G.722)

Схема CELP

Речевые кодеры, использующие линейные фильтры с предсказанием (linear predictive filter — LPF), могут давать высокое качество речи, закодированной со скоростью выше 16 Кбит/с, однако при снижении скорости качество быстро падает. Кодеры LРС могут быть модифицированы с целью получения высококачественного сжатия речи со скоростями порядка от 4,8 до 9,6 Кбит/с посредством приведения задачи синтеза к двухэтапной процедуре, названной синтез через анализ (synthesis by analysis). На первом этапе образуется модель LРС 10-го порядка для сигнала, действительного на протяжении короткого интервала, скажем каждые 20 мс. На втором этапе находится сигнал, который, будучи примененным к модели LРС, образует выходной сигнал, по возможности близкий к исходному синтезируемому сигналу. Завершается эта задача с помощью последовательного применения подходящего сигнала активизации к модели и сравнения каждой синтезированной формы сигнала с исходным сигналом с последующим выбором того, который минимизирует ошибку между исходным сигналом и выходом управляемой модели.

Из теории процесса формирования речи известно, что активизация речи часто состоит из периодических импульсов (образованных посредством вибрации речевых связок). Период периодических импульсов Р связан с голосом говорящего. Одноотводный рекурсивный фильтр определяется двумя параметрами; Р — число интервалов запаздывания в контуре обратной связи и g — коэффициент обратной связи. Импульсная характеристика этого фильтра представляет собой затухающую последовательность с Р равными нулю выходными выборками между последовательными ненулевыми выходными выборками. Выход этого фильтра генерирует периодический сигнал активизации, подаваемый на вход модели LРС (см. раздел 13.3.2). Алгоритм синтеза должен проверять возможные значения Р из перечня подходящих. Два параметра голоса оцениваются каждые 5 мс. Вход в речевой фильтр извлекается из таблицы подходящих последовательностей активизации. Выход фильтра, в свою очередь, управляет моделью LРС. Таблица, содержащая, как правило, 1 024 позиции, называется кодовой книгой. Кодовая книга посещается каждые 2,5 мс. Когда наилучшая комбинация позиций кодовой книги и период голоса определены с помощью полного поиска, формируется группа, содержащая последовательность параметров голоса, последовательность адресов кодовой книги и информацию о коэффициентах LРС.

Кодер должен доставить параметры, описывающие модель LРС, на декодер. Спектральная характеристика фильтра LРС очень чувствительна к квантованию коэффициентов и как таковая должна бы представляться с помощью неприемлемо большого числа бит. Поэтому коэффициенты LРС преобразуются в иное множество параметров, названных линейными спектральными парами [10], которые являются нечувствительными к квантованию.

Системы, созданные согласно стандарту 18-95, используют следующий формат кадра LРС. Кадр, требуемый для описания 2 мс данных, содержит 192 бит, присвоенных представителю закодированных параметров.

10 коэффициентов LРС 40 бит

4 параметра запаздывания и опережения 40 бит

8 адресов кодовой книги 80 бит

Биты четности, проверочные биты и прочая служебная информация 32 бит

Общая скорость передачи битов для этой системы составляет 192 бит за 20 мс, или 9600 бит/с. Скорость передачи может быть снижена, если кодер детектирует речевые паузы.

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1920 / 2220 21 22 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
09.02.2016193.54 Кб11Testovye_voprosy.doc
#
09.02.20161.31 Mб69TESTY_GOTOVYE_TPEMV_1sem2014-ok.docx
#
09.02.201693.87 Кб11Testy_po_perevodu_Abdizhapparovoy-2.docx
#
09.02.2016940.54 Кб20think_and_grow_rich.doc
#
09.02.20169.33 Mб24TTsS_lab.docx
#
09.02.20161.03 Mб58TTsS_lek.docx
#
09.02.201610.2 Mб21VOUD_oryssha.doc
#
09.02.20161.38 Mб16VOUD_po_matemat_russ_shpor.docx
#
09.02.201697.79 Кб15Vvedenie.doc
#
09.02.2016153.76 Кб18БОИЯ в контексте межкульт коммуникации В1.docx
#
09.02.2016297.98 Кб11ВТиПО_ 2009,2010,2011,2012_ИСРП_каз.яз.doc