- •Глава 12. Цифровое представление звуковых сигналов
- •12.1. Аналого-цифровое преобразование
- •12.2. Равномерное квантование
- •12.3. Неравномерное квантование
- •12.4. Предыскажения при цифровой передаче сигналов звукового вещания
- •12.5. Цифро-аналоговое преобразование
- •12.6. Цифровая обработка звуковых сигналов
- •12.7. Достоверность цифровой передачи
- •12.8. Методы обнаружения и коррекции ошибок в цифровых звуковых сигналах
- •12.9. Кодирование с плавающей запятой
- •12.10. Редукция аудиоданных, обусловленная психоакустическими особенностями
- •12.11. Форматы цифровых сигналов и организация стыков цифровых трактов
- •12.12. Изменение частоты дискретизации
- •12.13. Структура цифрового сигнала в стандарте мреg-1 iso/iес 11172-3
- •12.14. Особенности стандарта mpeg–2 iso/iec 13818
- •12.15. Структура аудиоданных в стандарте мреg-2 iso/iec 13818-3
- •12.16. Обработка сигналов в среде мультимедиа
12.13. Структура цифрового сигнала в стандарте мреg-1 iso/iес 11172-3
В течение последних десяти лет в мире сформировался новый стандарт для совместной цифровой передачи сигналов изображения и звука в компрессированном (сжатом) виде, получивший название МРЕG-1-Standart ISO/IЕС 11172-3, опубликованный в 1993 г., и его дальнейшее развитие для систем с многоканальным звуком МРЕG-2-Standart ISO/IЕС 13818-3, опубликованный в 1994 г. Стандарт МРЕG-1 уже реализован в системе цифровых компакт-кассет (DСС), где для кодирования звука используется "Layer-1". Его применение предусмотрено также в цифровом радиовещании (системы DАВ – Digital Audio Broadcast, Eureka-147), где для кодирования ЗС используется " Lауеr-2". МРЕG-2 предполагается реализовать в телевидении высокой четкости, а также для многоканальной передачи звука в 3В, для записи и передачи сигналов по сети ISDN. Суммарная скорость цифрового потока при передаче сигналов изображения и звука в МРЕG-1 составляет 1,5 Мбит/с.
На передающей стороне системы сигналы изображения и звука кодируются, далее подвергаются цифровой обработке с целью сокращения избыточности, дополняются служебной и иной информацией и после этого объединяются в единый цифровой поток, состоящий из пакетов, для передачи по каналу, либо для записи. На приемной стороне происходит их разъединение и последующее декодирование. Системный стандарт не определяет жестко процедуру кодирования ЗС, он содержит лишь правила, определяющие структуру потока, т.е. данные, необходимые для правильного декодирования сигналов на приемной стороне. Декодер в отличие от кодера является устройством, где процедуры декодирования жестко определены так, чтобы входные цифровые данные были бы верно интерпретированы. Поэтому формат кода, точнее, интерфейс для компрессированного сигнала, жестко определен.
В МРЕG-1 компрессированные сигналы передаются совместно в едином пакете (рис. 12.36, верхняя часть; обозначены Расk(i), Расk(i+1), Расk(i+2),. . .). Перед каждым таким пакетом имеется "системная" преамбула (Header), где содержатся все системные параметры и вся необходимая общая служебная информация о системе. Системная тактовая частота равна 90 кГц ± 4,5 Гц. Преамбула повторяется перед началом каждого пакета. Более подробно структуры преамбулы и собственно пакета данных представлены ниже на этом же рисунке в его средней части. Стандарт предусматривает, что поток данных может содержать как аудио-, так и видеоданные, причем скорость передачи данных может составлять, например, для звуковой части (если компрессия ЗС выполняется кодером " Lауег-2" при fд = 48 кГц) 24 кбайт/с (192 кбит/с), а для передачи видеочасти – 150 кбайт/с. Из соотношения этих скоростей передачи аудио- и видеоданных можно определить, с какой частостью должна передаваться в пакете данных аудио- и видеоинформация. Вся дополнительная информация, необходимая для разделения и декодирования сигналов изображения и звука, должна быть приемнику известна (передана). Она и содержится в преамбуле пакета. Преамбула начинается стартовым кодом пакета (Расk Start Соdе), следующие 8 байт служат для передачи сигнала синхронизации и сигналов управления системой в целом (System Clok Reference – SRC), после этого передается системная преамбула данного пакета (System Header), которая содержит всю необходимую информацию управления для разделения следующих в пакете в переменной структуре аудио- и видеоданных. Без правильного приема и выделения информации управления процессы разделения потоков и их последующее декодирование будут невозможны. Длина преамбул составляет 12 байт, лишь самая первая преамбула имеет длину 29 байт.
Таким образом, затраты на передачу информации управления достаточно малы. Однако данный способ позволяет всей системе очень гибко адаптироваться к различным потокам информации. В пакетах видео- и аудиоданные сведены в отдельные субблоки (например, каждый длиной по 2 кбайт), несколько блоков (например, три) вновь образуют блок. Вся информация об этой структуре упаковки видео- и аудиоданных и местах расположения этих блоков в пакете содержится в преамбуле к пакету.
Принимаемый компрессированный цифровой поток данных в соответствии с информацией по управлению демультиплексируется, затем собирается в промежуточной памяти, после чего подвергается обратной цифровой обработке с целью декомпрессии. В результате образуются исходные цифровые потоки аудио- и видеоданных. При этом компрессия звуковых данных в стандарте МРЕG-1 ISO/IEC 11172-3 базируется на использовании метода MUSIСАМ (см. разд. 12.11). Временные затраты на требуемый объем промежуточной памяти можно минимизировать в кодирующем устройстве за счет рационального размещения потоков данных.
Теперь остановимся подробнее лишь на структуре цифрового потока, относящегося только к передаче ЗС. В соответствии со стандартом МРЕG-1 ISO/IEC 11172-3 основной структурной единицей формата кода является подцикл (фрейм), включающий преамбулу (Неаder) и относящиеся к данному фрейму компрессированные аудиоданные (Frame (i) data) (рис. 12.37). Фрейм объединяет ту часть аудиоданных, которая декодируется самостоятельно.
Фрейм представляет собой последовательность данных, включающих в себя: служебную информацию; таблицу распределения общего числа бит по субполосам; информацию о масштабных коэффициентах (МК) субполос; значения МК; значения отсчетов субполосных сигналов; биты заполнения.
Остановимся подробнее на формате фрейма. Служебная информация, содержащаяся в преамбуле (32 бита), включает синхрослово 111 1111 1111 (12 бит) и информацию о состоянии, относящуюся к структуре данных фрейма (20 бит):
бит идентификации – ID; равный 1, если поток аудиоданных полностью соответствует стандарту ISO/МРЕG 11172-3 и 0 в противном случае;
код уровня (2 бита), идентифицирующий тип слоя кодирования –
"Lауеr-1", "Lауеr-2", "Lауеr-3", резерв;
бит защиты, равный 1, если не применяется помехоустойчивое кодирование и 0 в противном случае;
значение скорости цифрового потока (4 бита) для каждого слоя кодирования (32...448 кбит/с для "Lауег-1", 32...384 кбит/с для "Lауег-2" и
32... 320 кбит/с для "Lауег-3");
частоту дискретизации – 44,1 или 48, либо 32 кГц (2 бита);
"паддинг" бит, равный 1, если частота дискретизации 44,1 кГц и 0 в противном случае;
бит для использования в специальных целях, например передачи дополнительной информации;
код режима передачи (2 бита), идентифицирует режимы: стерео, "объединенное" стерео, два независимых канала, один канал;
код режима расширения (2 бита) при передаче в режиме "объединенное стерео";
бит права копирования, равный 0, если копирование запрещено;
бит "оригинал/копия", равный 1, если передается оригинал;
код предыскажения (2 бита).
После преамбулы 16 бит отводятся для помехоустойчивого кодирования (обнаружения и коррекции ошибок при цифровой передаче – СRС на рис. 12.37). Далее следуют собственно аудиоданные компрессированного ЗС. Первой идет таблица, идентифицирующая распределение общего числа бит, используемых для кодирования отсчетов каждого из субполосных сигналов (Bit Allocation). Таблица состоит из 30 слов:
A(1),A(2),...,A(i),...,A(30)
длиной от 2 до 4 битов. Вспомогательная таблица F[A(i)] задает функцию, значениями которой являются число бит для кодирования отсчетов i-й субполосы. Субполосные сигналы 31-й и 32-й субполос не кодируются и не передаются. При использовании формата "Layer-1" MPEG-1 ISO/IEC 11172-3 все слова A(i), i = 1,..., 30, имеют одинаковую длину, равную 4 битам. Для слоя 2 ("Layer-2") длина слов A(i) переменна, зависит от числа кодируемых субполосных сигналов, скорости цифрового потока, частоты дискретизации и меняется в пределах 2...4 бит.
Затем во фрейме располагается информация о МК (SCFSI – Scalenfactors Selection Information). Она передается только для слоя 2 ("Layer-2") и лишь для тех субполос, где F[A(i)] > 0. Информация о МК передается словами длиной 2 бит, определяющими, сколько бит (6, 12 или 18) тратится на кодирование трех МК данной субполосы.
После этой информации располагаются данные о значениях МК (Skalenfactors). Они представляют собой квантованные (из расчета б бит), максимальные по абсолютной величине значения отсчетов субполосных сигналов в блоке (грануле), состоящем из 12 следующих подряд отсчетов ЗС. Значения МК записываются в часть фрейма, обозначенную как " Skalefactors" (см. рис. 12.37), начиная с низкочастотных субполос и со старшего бита кода МК.
Наконец, во фрейме следуют кодовые группы, соответствующие отсчетам ЗС в субполосах (Subband Samples). Они объединены в 12 блоков: В(1), В(2),..., B(j)...., B(12). Блок B(j) содержит значения нормированных на МК отсчетов для полос с номерами от 3j – 2 до 3j, для которых F[A(i)] > 0.
Размер блока B(j) равен {F[A(1)] + F[A(2)] + ... + F[A(30)]}/12. Каждый блок B(j) содержит 30 подблоков: C(l), C(2), .... C(k), .... C(30). Подблок C(k) содержит группу из трех отсчетов k-й полосы. Структура подблока C(k) зависит от значения F[A(k)].
Заметим, что в формате " Layer-1" каждый фрейм содержит информацию о 384 отсчетах ЗС, подвергнутых ИКМ с равномерной шкалой квантования при fд = 48 кГц (длительность выборки составляет в данном случае 8 мс). В отличие от этого в формате " Layer-2" фрейм содержит информацию о 1152 отсчетах ИКМ сигнала, дискретизированного также с частотой 48 кГц, но длительность выборки равна уже 24 мс.
Завершают фрейм дополнительные данные (AD – Ancillary data). Эта часть фрейма может быть использована для передачи дополнительных данных (определяется пользователем).
Такова структура цифровых данных в стандарте MPEG-1 ISO/IEC 11172-3, принятого Европой.