Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
технические средства и новейшие сценические тех....doc
Скачиваний:
13
Добавлен:
19.04.2019
Размер:
1.57 Mб
Скачать

Тема 3.2. Сжатие и компрессия цифрового звука.

Известно, что огромные несжатые звуковые и видеофайлы создают проблемы для хранения на носителях и задержки при загрузке из интернета. Алгоритмы цифровой компрессии помогают решить проблемы, уменьшая примерно в десять раз оригинальный размер файла почти с тем же самым качеством.

Цель алгоритма цифровой компрессии состоит в том, чтобы произвести цифровое представление сигнала звуковой частоты, который при декодировании и воспроизведении кажется неотличимым от исходного сигнала. При этом для сжатого представления используется минимум цифровой информации и, как следствие, низкая скорость передачи потока битов. Перцепционное кодирование использует такую обработку данных, которая позволяет отбрасывать звуковую информацию, незаметную для человеческого слуха.

Этот метод сокращения данных базируется на трех принципах психоакустики: изменении слуховой чувствительности и громкости восприятия с изменением частоты; временной и частотной маскировке звуков; дискриминации между полосами частот.

Существуют различные алгоритмы компрессии. Здесь речь пойдет о формате АС 3 и алгоритмах MP3.

В самом общем виде математическое представление звука очевидно. Рассмотрим простой звук. Мы можем описать этот звук двумя способами:

  • фиксация амплитуды звука много раз в секунду, что дает временную функцию звука;

  • анализ частотного спектра звука путем фиксации амплитуды каждой частоты, т. е. анализ частотной функции звука.

Рис 1. Звук по временной шкале

Рис 2. Частотный спектр

В примере на рис. 1 мы имеем сигнал, который состоит из синусоидальной волны в 8 Гц. Это отображение колебания во временной области. В частотной области (рис. 2) мы можем видеть, что состав сигнала — одна волна (один пик), колеблющаяся с частотой 8 Гц с амплитудой 1, то есть это чистый сигнал.

В настоящее время чрезвычайно популярны скачивание музыки и кинофильмов в интернете. Делается все возможное для сокращения времени загрузки и уменьшения размера аудиофайла. Это стало возможным с появлением на рынке формата MP3. То, что требовало часов для загрузки и занимало огромное место, могло быть загружено на той же самой скорости быстрее и требовало для хранения приблизительно в десять раз меньше места, чем обычный файл. В то же самое время качество звука сохраняется. Таким образом музыка стала доступной в интернете. Однако стоит напомнить, что содержание файла является объектом авторского права, которое может быть нарушено из-за незаконного копирования альбомов и загрузки из интернета.

Рассмотрим, как различные алгоритмы осуществляют сжатие с высокими уровнями. Формат сжатия аудио MP3 (сокращение от MPEG1 Layer 3), был стандартизирован для сжатия видеосигнала MPEG в 1991 году.

Технология сжатия MP3 основана на психоакустической модели восприятия звука, базирующейся на разной чувствительности слуха к разным частотам. Эта модель выбирает слышимые частоты и отбрасывает неслышимые. Люди могут слышать звуки в диапазоне между 20 Гц и 20 кГц, при этом самым чувствительным является участок 2…4 кГц. Формат MP3 отбрасывает звуки, которые нельзя услышать. Этот метод известен как деструктивная компрессия.

Проблема в том, что аудиоинформация, отброшенная при кодировании в MP3, не может быть восстановлена или заменена. При кодировании файла в MP3 могут быть выбраны различные степени сжатия, и качество звучания непосредственно пропорционально размеру файла — чем больше размер, тем выше качество. Файл MP3, созданный со сжатием для потока 128 килобит, будет иметь более высокое качество звучания и больший размер файла, чем при сжатии в поток 56 килобит.

Формат MP3 использует так называемое «гибридное преобразование», чтобы преобразовать сигнал временной области в сигнал частотной области. Основная модель идентична для всех трех слоев аудио и определена стандартом MPEG, но с увеличением сложности алгоритма кодека в каждом слое. Кодек делит данные на фреймы, каждый фрейм содержит 384 отсчета, то есть 12 отсчетов на каждую из 32 отфильтрованных субполос.

Алгоритм работы кодека таков:

  • использование свертывающих фильтров для разделения исходного аудиосигнала на частотные зоны, которые аппроксимируют 32 критические полосы, то есть фильтрование субполос;

  • определение уровня маскировки для каждой полосы, определяемого соседней полосой (психоакустическая модель);

  • если уровень сигнала в данной полосе ниже маскирующего порога, этот сигнал удаляется;

  • если уровень в приемлемых пределах, устанавливается, что число битов должно быть таким, чтобы шум квантования был ниже маскирующего эффекта (каждый бит дает приблизительно 6 дБ шума);

  • формирование потока битов.

Для MP3 используется критический полосовой фильтр, а психоакустическая модель включает временные маскирующие эффекты с учетом избыточности стереоинформации (так называемый «кодер Хоффмана»).

Компания Texas Instruments успешно применила декодеры сжатия MP3 в своем DSP-чипе TMS320C5409, который оснащен RAM-памятью объемом 32 Kwords в дополнение к ROM на 16 Kword для матричных таблиц, констант и т. д. Алгоритм кодирования был усовершенствован с использованием цифрового спектроанализатора C54x EVM. Этот чип встроен в миниатюрную конструкцию с компактной флеш-памятью для хранения аудиоинформации и пользовательским интерфейсом для того, чтобы управлять воспроизведением. Устройство обеспечивает декомпрессию аудио, графическую эквализацию и регулировку громкости.

Формат AC 3 был разработан группой цифрового кодирования лаборатории Dolby. АС 3 — это высококачественный и сравнительно несложный многоканальный звуковой кодер. Более низкая скорость передачи данных может быть получена кодированием множества каналов, как одного, вместо кодирования отдельных каналов. Это позволяет работать с более низкими скоростями передачи данных с сохранением заданного уровня качества звука, чем при использовании эквивалентных кодеров одиночных каналов.

Хотя алгоритмы АС 3 независимы от числа кодируемых каналов, текущее применение стандартизировано обществом SMPTE, рекомендовавшим для формата 5.1 известную формулу: лево/центр/право/левый тыл/правый тыл/субвуфер. АС 3 передает локализацию каналов с высокой степенью прозрачности на низких скоростях передачи (320 кбит/с). Он создан для применения в доступной и недорогой аппаратуре цифровой обработки сигналов и разработан с учетом возможности переноса на новые DSP-платформы.

Суть формата AC 3 в том, что все каналы должны компрессироваться вместе как одно целое, где общие данные распределены среди каналов. На вход кодера АС 3 подается шестиканальное PCM-аудио (16…24 бит и частота дискретизации 48 кГц). Дальше алгоритм работает следующим образом:

  • преобразование каждого из каналов из временной в частотную область, используя технологию Domain Aliasing Cancellation (TDAC) (TDAC). Блоки состоят из 512 семплов, равных 10,7 миллисекунд аудио, и используются, чтобы вывести 256 спектральных коэффициентов. Однако, когда обнаружен переходный сигнал, размер блока уменьшается до 5,4 мс, чтобы минимизировать пре-эхо;

  • вычисление мантиссы и экспоненты путем преобразования каждого из спектральных коэффициентов всех каналов из представления в виде числа с фиксированной запятой в число с плавающей запятой. Мантисса — фракционное количество числа с фиксированной запятой, а экспонента — коэффициент масштабирования, на который мантисса умножается, чтобы получить число с плавающей запятой. Разрешение получается за счет длины слова мантиссы, а экспонента определяет размер шага квантования частотного компонента. Выражение спектральных коэффициентов в форме числа с плавающей запятой удобно, потому что это позволяет полностью использовать возможности данного типа кодирования;

  • выходной поток сжатых данных состоит из информации мантиссы и экспоненты от всех каналов плюс вспомогательные данные для кодирования экспоненты, коэффициентов связи и распределения битов.

Декодирование происходит в порядке, обратном процессу кодирования.

В АС 3 используются различные технологии кодирования чисел с плавающей запятой. Для устойчивости аудиосигнала информация экспоненты повторяется каждые несколько блоков до 64 мс на протяжении шести блоков. Разработчики также определили, что если вместо действительных значений экспонент должна быть закодирована разность значений экспонент соседних частот, то достаточно только двухбитного разрешения.

Измерение распределения битов используется для получения большего сжатия данных. Набор экспонент спектральных коэффициентов, охватывающих частотный диапазон, представляет уровень сигнала по спектру. Этот набор сгруппирован в полосы, ширина которых увеличивается с частотой, соответствующей критическим полосам (психоакустическая модель маскировки).

Каждая полоса имеет общую экспоненту. Длина слова мантисс внутри каждой полосы затем определяется маршрутом распределения битов, который основан на предсказанной маскирующей кривой по всему спектру частот.

Эта маскирующая кривая определена для каждой полосы частот. Если экспонента полосы находится выше или ниже маскирующей кривой (как вычислено по модели), значение кривой в этой частотной полосе соответственно увеличивается или уменьшается. Результирующие значения в каждой из полос объединяются, чтобы получить предсказанную маскирующую кривую.

После того как установлено, что все части этой кривой превышают порог чувствительности человеческого слуха, мантисса для каждого частотного компонента (но не для каждой полосы!) повторно квантуется с разрешением, соответствующим степени превышения экспонентой ее предсказанного значения маскировки.

После повторного квантования мантисс подсчет числа битов, используемых для всех каналов, завершен. Если общее количество доступных битов не было превышено, то мантиссы могут подвергнуться квантованию с большей точностью. Однако если общее количество битов превышено, то могут быть применены два варианта решения проблемы.

Первый — это простое снижение разрешения мантисс. До настоящего момента мы только рассматривали сокращение потока данных в АС 3 — независимо для каждого из каналов. Второй — технология, известная в Dolby как coupling (связывание). Основная ее идея в том, что информация мантиссы для частотных полос в нескольких каналах объединяется в один связанный канал, основанный на общей мощности сигнала.

Для каждой полосы отношение между мощностью сигнала в связанном канале и в каждом отдельном канале (коэффициент связи) заменяют для мантиссы и экспоненты в каждом канале, что в свою очередь требует меньшего количества битов. Тогда оригинальные спектральные коэффициенты для каждого канала восстанавливаются после декодирования путем умножения мантиссы связанного канала на соответствующий коэффициент связи. Связывание происходит только для полос частот выше 10 кГц.

Для снижения скорости передачи данных могут использоваться различные принципы кодирования. АС 3, безусловно, является самым сложным из этих трех кодер-декодеров. Последовательность декодирования данных — это, по существу, обратная последовательность, требующая вспомогательных данных для параметров и информации о восстановлении оригинальных каналов.

Новые технологии кодирования цифровой звукозаписи Dolby предназначены для создания профессиональной цифровой звукозаписи на DVD, для радиопередач, для телевидения с высоким разрешением (HDTV) и кабельных/спутниковых передач. Новая цифровая платформа предлагает повышение до трех раз плотности канала для существующих стационарных студийных комплексов.

Предыдущая версия АС 3 вынуждала пользователей применять отдельные процессоры обработки сигналов для каждой стереопары. Теперь разработчики базовой системы в состоянии уменьшить размеры прибора и сделать его более удобным для пользователя.

Для решения этих задач созданы и аппаратные средства. К примеру, алгоритм декодера АС 3 на чипе CS5063 от компании Texas Instruments, предлагаемый в форме кода источника, — эффективное решение, дающее большой набор встроенных приложений, требуемых для выполнения декодирования АС 3.

А чип того же производителя TMS320C6713 — это DSP с плавающей запятой, работающий с частотой 300 МГц. Он кодирует три пары стереоканалов и позволяет вещателям стандартизировать студийные аппаратные кодеры.

Выбор этого чипа Texas Instruments в качестве технологической основы для новой системы Dolby Digital Professional Encoder позволил увеличить число закодированных стереопар в три раза.

Разработанное компанией Lyrtech референсное устройство Dolby Digital Professional Encoder имеет шесть входов S/PDIF (12 звуковых каналов) и три выхода S/PDIF (шесть звуковых каналов) с возможностью внедрения тайм-кода и информации метаданных в выходные цифровые аудиопотоки. В нем используется интерфейс USB 2.0 для соединения с компьютерной рабочей станцией, что позволяет конфигурировать в реальном времени цифровые параметры кодера Dolby, а также параметры передачи данных.

Новое поколение цифровых процессоров обработки сигналов с плавающей запятой C67x было широко принято для профессиональной аппаратуры цифровой звукозаписи и появляется и в бытовой аудиоэлектронике. Это семейство звуковых сигнальных процессоров DSP Aureus, которые производят многоканальную обработку аудио в бытовой аппаратуре от Harman/Kardon, JVC, Yamaha и Denon. Микросхема TMS320C67x используется и в других отраслях: музыкальные инструменты, биометрия, машинное зрение и контрольно-измерительная аппаратура. В прошлом году компания Dolby одобрила использование DSP Aureus для Pro Logic IIx — новой версии технологии Surround Sound. Эти же чипы применены в процессорах Dolby Digital, Dolby Digital Ex, Pro Logic II, Pro Logic IIx, в системах Dolby Headphone и Dolby Virtual Speaker.

«Евровидение» продолжает тестирование и оценку различных технических вариантов передачи многоканального аудио (MCA), и в октябре 2004г. оно в прямом эфире передавало из Берлина живой концерт Prix Europa, используя систему Dolby  E. При этом звуковое сопровождение в формате 5.1 передавалось немецкой радиостанцией Радио RBB Multikulti в Берлине.

В 2005 году радио Multikulti впервые осуществило мультикастинговую передачу в стереоварианте и в формате Dolby Digital 5.1, а Европейский вещательный союз (EBU) передавал этот концерт своим национальным участникам, использующим систему Dolby E, через спутник Евровидения.

Комплекс передачи данных цифрового радио и телевидения на спутник расположен в Потсдаме около Берлина. Этот комплекс называется Play Out Center. Ни одна из нескольких существующих систем обслуживания радиопередач не была подходящей для того, чтобы передавать кодированный многоканальный звуковой поток типа Dolby E или Dolby Digital. Поэтому все шесть отдельных звуковых каналов в формате 5.1 передавались отдельно в Play Out Center в Потсдаме, используя двухмегабитные линии с кодерами ITU T-J.41.

В кодере J.41 каждый отдельный звуковой канал кодирован на скорости 384 кбит/с. Четыре канала из шести (5.1) передавались по первой линии E1, остальные два — по второй, с возможностью синхронной передачи дополнительного стереосигнала в зависимости от оставшейся емкости линии. Ошибки синхронизации или время задержки между каналами были ниже порога измерений вследствие того, что обе линии E1 использовали одну и ту же инфраструктуру.

В Потсдаме поступающий аудиосигнал был верифицирован и затем кодирован в системе Dolby. Для собственной радиопередачи RBB в системе Dolby Digital (АС 3) требовалось цифровое кодирование 448 кбит/с. Для дополнительной передачи через сеть EBU использовалось кодирующее устройство формата Dolby  E.

Обоими устройствами управлял Мик Двайер из лаборатории Dolby, и он же конфигурировал метаданные. Измеритель громкости LM-100 использовался для контроля громкости программы и для установки параметров метаданных, управляющих уровнем воспроизведения и порогами сжатия при воспроизведении в домашних кинотеатрах и стереосистемах. Метаданные конфигурировались для оптимального воспроизведения на Surround-системах большого формата (например в кинотеатрах) без использования компрессии и без применения фазовой компенсации тыловых каналов. Этот параметр улучшает совместимость стереомикса с декодерами Dolby ProLogic, которые расширяют звуковое поле, но уменьшают локализацию фантомных звуковых образов, привлекая тыловые каналы к созданию аудиосреды искусственными средствами.

Эта радиопередача представляла собой единичный эксперимент, и ее цель состояла в том, чтобы обеспечить наилучшее слушательское впечатление для всех, кто настроился слушать концерт, используя домашний кинотеатр. Концерт транслировался в прямом эфире пятью различными способами. Прежде всего, это была обычная стереофоническая FM-передача в районе Берлина и Бранденбурга на частоте Радио Multikulti.

Для спутникового мультикастингого вещания два канала передачи были направлены в цифровой траспондер для подачи на спутник Astra 1H. Для спутниковой версии Радио Multikulti был использован слой аудио в видеосигнале DVB-S стандарта сжатия MPEG с потоком в 192 кбит/с. Дополнительно другой звуковой поток, содержащий сигнал Dolby Digital 5.1 (AC 3) с потоком данных в 448 кбит/с, формировался в той же радиосистеме, но только на время концерта.

Поскольку передача концерта также распределялась по линии Европейского вещательного союза EBU, было два дополнительных тракта доставки сигнала через спутники. Стереосигнал был доступен для национальных вещателей на спутнике Еврорадио через транспондер Verdi. Многоканальный сигнал 5.1 подавался членам EBU в формате Dolby E по спутнику Евровидения. И впервые сигнал Dolby E распределялся по интернет-сети Евровидения.

Предыдущий концерт Prix Europa из Берлина (октябрь 2003) транслировался в прямом эфире в формате 5.1 Шведским радио в сотрудничестве с RBB. Однако тогда использовался стандарт DTS. Хотя DTS — часть стандарта DVB для цифрового радио- и телевизионного вещания, ARD использовала Dolby Digital (АС 3) как стандарт передачи многоканального аудио. Тому есть ряд причин, и одна из них — большая гибкость в варьировании скоростей передачи данных. В то время как DTS требует скорости передачи данных 768 кбит/с или 1526 Мбит/с (при частоте дискретизации 48 кГц), систему Dolby Digital (АС 3) можно адаптировать к значительно более низким скоростям передачи данных. Ограниченная полоса частот на ретрансляционных спутниках и высокая стоимость передачи по нескольким каналам в целях мультикастинга повлияли на выбор Dolby Digital с потоком 448 кбит/с. Теперь это установившийся стандарт в мире многоканального звука и для DVD и для телевидения.

Останется ли сжатие цифрового звука необходимостью для цифрового кино? На первых публичных показах фильма «Звездные войны. Эпизод I» использовались шесть каналов аудио в некомпрессированном PCM-формате 24 бит/44,1 кГц. При приблизительно двухчасовой продолжительности фильма для хранения некомпрессированного аудио в этом формате потребовались бы 5,7 ГБ. Конечно, по сравнению с 360 ГБ, необходимыми для хранения видеоинформации, потребность в компрессии звуковых данных не столь уж важна. Однако 360 ГБ требуют большой полосы частот для практической реализации доставки данных и их хранения.

Если видеоданные такой продолжительности должны быть сжаты существенно, до 45 ГБ, и в настоящее время эта тема обсуждается в научных кругах, то некоторое сжатие аудио может быть оправдано, если выигрыш в несколько гигабайт позволит улучшить качество изображения. Сжатие данных для аудио также может быть актуальным, если в будущем будет использоваться больше, чем 5.1 каналов, например, звуковой ряд для кинофильмов будет передаваться и записываться на нескольких языках, или если разрядность цифрового звука или частота дискретизации в кино увеличатся, чтобы соответствовать развивающимся стандартам в профессиональной музыкальной звукозаписи. Уже сегодня, при ограниченных скоростях передачи данных, цифровое аудио может предложить высокое качество звучания. Однако и в будущем сжатие аудиоданных вполне может понадобиться. Пример трансляции живых концертов показывает, как АС 3 и Dolby Digital могут использоваться на практике.