Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Самый новый ММТвО-1-11н.doc
Скачиваний:
121
Добавлен:
01.06.2015
Размер:
3.91 Mб
Скачать

1.6. Музыкальный формат mp3

Этапы процесса обработки аудиоданных, а также место MP3-файлов в технологиях создания и воспроизведения на основе формата MP3 представлены на рис.1.34.

При преобразовании треков СD Digital Audio (CD-DA, CD-Audio) в WAV-файлы или MP3-файлы можно задать значения ключевых параметров выходных файлов (например, моно/стерео, битрейт в Кбит/с и т.п.). WAV-файлы перед прожигом аудио CD преобразуются в формат CD-Audio, что уменьшает их общий объем без потери качества (например, с 825 Мбайт до 718 Мбайт), что видно при их последующем групповом удалении с жесткого диска. Можно воспроизводить WAV-файлы на ПК непосредственно с жесткого диска с помощью плеера.

Рис.1.34. Этапы процесса обработки аудиоданных

При частоте дискретизации 44,1 кГц и глубине звучания 16 бит на Audio CD емкостью 650 Мбайт помещается более 75 минут музыки, 700 Мбайт – около 82 минут, 800 Мбайт – около 92 минут, 870 Мбайт – 99 минут. А можно ли поместить на CD, например, в 10 раз больше музыки? Нетребовательный любитель сожмет данные с фактором 10, не оставив и следа от высокого CD-качества звучания. Так было раньше, но ситуация изменилась к лучшему с появлением формата сжатия аудиоданных MPEG Audio Layer III (MP3) без потери CD-качества звучания за счет специальной аудиокомпрессии.

Обычные алгоритмы сжатия с потерями (lossy coding) существенно снижают качество звучания, поскольку уменьшают полосу воспроизводимых частот или соотношение сигнал/шум. Метод MP3 лишен этих недостатков. Идея MP3 учитывает то, что обработка звука в мозгу человека происходит с потерями информации, а значит и качества.

Важным свойством человеческого слуха является неравномерность распределения границы слышимости звука по частотам, представленная на рис.1.35. Наилучшим образом мы слышим частоты в районе 2-4 КГц, включающем речевой диапазон, а к низким и высоким частотам чувствительность уха снижается [47].

Рис.1.35. Граница слышимости звука в тишине

Таким образом, чем дальше частота слышимого звука от 2-4 кГц, тем выше граница слышимого звука и тем больше информации можно вырезать без заметных потерь в качестве.

Бывают ситуации, когда обыкновенный человек не может услышать некоторые звуки, из-за того, что звук может

  • быть слишком тихим, чтобы его услышать;

  • заглушаться (маскироваться) другим звуком.

Маскировка знакома нам в повседневной жизни: именно из-за нее мы не можем слышать чей-то шепот, когда рядом кто-то кричит. Маскировка бывает двух типов:

  • частотная, когда более сильные сигналы преобладают над менее интенсивными, маскируя тем самым более тихие звуки из того же диапазона частот (рис.1.36 [47]). Диапазон частот, где один звук может маскировать другой, называется критической полосой;

  • временная, когда звук достаточно большой амплитуды, маскирует другие звуки (рис.1.37 [47]),

  • непосредственно предшествующие емумаскировка назад, типичный промежуток времени его действия составляет 5-50 мс;

  • следующие за ним во временимаскировка вперед на 50-200 мс в зависимости от уровней маскирующего и маскируемого сигналов [1].

Рис.1.36. Граница слышимости под воздействием тона частотой 1 кГц и интенсивностью 60 дБ

Рис.1.37. Временная маскировка

Например, если идет сильный звук на частоте 1000 Гц, то более слабый звук на частоте 1100 Гц уже не будет слышен. Также будет ослаблена чувствительность уха человека на 100 мс после и 5 мс до возникновения сильного звука. Кроме того, человек не в состоянии заметить внезапное исчезновение звуков высоких частот в течение примерно до 2 мс. Зачем же хранить неслышимую информацию?

Обычно в музыке одновременно присутствуют самые разнотоновые компоненты. Таким образом, маскирующих тонов может быть несколько. При использовании сразу нескольких маскирующих тонов, например, частотой 0,25; 1; 4 и 8 КГц, как показано на рис.1.38 [47], граница слышимости остальных сигналов сильно поднимается.

Рис.1.38. Граница слышимости под воздействием сразу нескольких маскирующих тонов

Человеческая система восприятия звуков имеет ограниченное, зависящее от частоты разрешение. А равномерное, с точки зрения восприятия человеком, измерение частоты может быть выражено в единицах ширины упомянутых критических полос.

Цель эффективного сжатия звука с частичными потерями качества - любыми способами добиться схожести звучания декодированного аудио сигнала с оригиналом при как можно меньшем объеме упакованных данных. Сегодня эта цель достигается за счет использования различных алгоритмов «упрощающих» оригинальный сигнал, выкидывая из него «ненужные» слабослышимые (или вообще неразличимые человеческим ухом) детали. После такого кодирования, декодированный сигнал при воспроизведении звучит похоже на оригинал, но фактически перестает быть ему идентичным. Методов сжатия, а также программ, реализующих эти методы, существует много [15].

Суть такого сжатия заключается в определении данных, не имеющих существенного значения (не влияющих на восприятие сигнала), и в отбрасывании неслышимых звуков, не попадающих в критические полосы. При сжатии звука не имеет смысла оставлять в записи звуки, находящиеся ниже порога слышимости. Любые алгоритмы сжатия должны отбрасывать соответствующие данные. Чтобы реализовать эту идею на практике, алгоритм должен использовать психоакустическую модель – математическое описание восприятия звуков ухом и головным мозгом человека с учетом критических полос. В данном случае нужно знать, как порог слышимости изменяется в зависимости от частоты. Из-за эффекта частотного маскирования громкие тона могут маскировать более тихие, если все они звучат одновременно.

Любой звук, находящийся внутри (под) кривой маскировки, будет не слышен, даже если он выше не модифицированного порога слышимости. Следовательно, алгоритм сжатия получает дополнительную возможность отбросить некоторые данные [1].

Общую эффективность компрессии звука за счет частотной и временной маскировки отражает рис. 1.39. Здесь объем, заключенный под поверхностью слышимых звуков, составляет немалую часть от общего количества звуков. Удаление замаскированных тонов дает самое значимое сжатие, однако оно же и приводит к наиболее заметной потери качества [47].

Рис.1.39. Общая эффективность компрессии звука

В то же время маскировку можно использовать и более эффективно. Поскольку она, кроме некоторых компонентов сигнала, скрывает и шум, в ней можно скрыть шум квантования. При наличии маскирующего звука сигнал можно квантовать относительно грубо (с меньшим числом битов), а получающийся шум квантования скрыть под кривой маскировки. Конечно, это явление дает возможность дополнительного сжатия.

Обычно применяется следующий подход. Сначала с помощью блока фильтров сигнал расщепляется на полосы частот. Затем вычисляется средний уровень сигнала в каждой полосе, и эти значения подставляются в психоакустическую модель. Так определяется порог маскировки для каждой полосы, то есть предполагается, что маскирующую кривую в каждой полосе можно аппроксимировать одним значением. Если сигнал в полосе целиком опускается ниже порога ее маскировки, такая полоса отбрасывается, иначе сигнал квантуется меньшим числом битов за счет маскировки шума квантования. Лучшие алгоритмы связаны со сжатием аудио в рамках группы стандартов MPEG. Они также применяют временное маскирование, поэтому могут заглушать тихие звуки, прозвучавшие немного раньше или позже основного тона [1].

Формат MPEG Audio имеет 3 типовых степени сжатия по возрастанию затрат ресурсов на кодирование – Layer I, II и III, характеристики которых представлены в табл.1.4. Эти степени сжатия еще практически сохраняют CD-качество. Появилась и разработка, обеспечивающая степень сжатия 15:1. Layer III имеет большое значение для Internet. 3-минутная песня с CD-качеством занимает около 30 Мб и посредством MP3 сжимается примерно до 3 Мб, что еще позволяет загрузить ее через модем из Сети.

Таблица 1.4

Вариант

Скорость передачи, Кбит/с

Скорость передачи для одного канала, Кбит/с

Степень сжатия

Layer I

384 Кбит/с

192 Кбит/с

4:1

Layer II

256…192 Кбит/с

128…96 Кбит/с

(6…8):1

Layer III

128…112 Кбит/с

64…56 Кбит/с

(10…12):1

Рассмотрим особенности MP3-кодирования. Дифференцированную восприимчивость уха человека с максимальной чувствительностью в диапазоне 2–4 КГц учитывает так называемая персептуальная кодировка. Была разработана оригинальная психоакустическая модель, разбивающая весь частотный спектр на части, в которых уровень звука считается одинаковым, а затем удаляющая звуки, не воспринимаемые человеком.

Механизм «упрощения» аудио сигнала можно пояснить следующим образом. Исходный аудио сигнал разделяется на блоки определенной длины, после чего каждый блок обрабатывается в отдельности. В процессе кодирования каждый блок раскладывается на частотные составляющие спектра [020]. Вначале кодер выполняет анализ кодируемого сигнала, разделяет звук в течение краткого промежутка времени по полосам частот. В Layer II это 32 полосы, а Layer III делит каждую из них еще на 18 частей, образуя 576 полос с шириной полосы ~28 Гц.

Затем кодер оценивает уровень на основе психоакустических данных, решая, какие части звука человек может слышать, а какие – нет. Последние вырезаются (маскируются). Но при этом кодер следит за тем, чтобы вырезание не уменьшало соотношение сигнал/шум.

Чем меньше «тонких нюансов звучания» имеется в сигнале (чем проще частотный спектр сигнала), тем эффективнее будет его компрессия. Упростить сигнал можно по-разному. Например, можно отфильтровать все частотные составляющие сигнала, располагающиеся выше определенной границы, что автоматически упростит сигнал в высоких частотных областях (но при этом, естественно, заметно испортит звучание). Поэтому основным способом является проведение психоакустического анализа с последующей соответствующей обработкой сигнала: кодер анализирует аудио информацию и, опираясь на указанный пользователем битрейт, «решает» какие тонкости звучания можно выбросить.

Степень сжатия оригинального сигнала зависит от степени его «упрощения»; сильное сжатие достигается путем «агрессивного упрощения», когда кодер «считает» ненужными множественные нюансы оригинальной звуковой волны. Такое сжатие, естественно, приводит к сильной деградации качества, поскольку удалению могут подлежать не только незаметные, но и значимые детали звучания. Отличительной особенностью всех современных lossy-кодеров является возможность тонкой настройки процесса кодирования, что, при правильном понимании и подходе, позволяет добиваться высокого коэффициента сжатия при совершенно незаметных (даже на самой хорошей аудио аппаратуре) потерях качества звучания [15].

После этого в дело вступает не приводящий к потерям метод Хаффмана, сжимающий избыточные фрагменты сигнала. Психоакустический и хаффмановский методы дополняют друг друга: в богатых звуками фрагментах метод Хаффмана сжимает излишки, а при шумах лучше сжимает данные метод маскирования. В заключение результат упаковывается во фреймы, каждый из которых содержит определенное число цифровых значений. Layer III также следит, чтобы было совпадение по времени между левым и правым стереоканалами.

Формат и технология MP3Pro (2001 г.). Разработала MP3Pro компания Coding Technologies, созданная в 1997 году. Компания занимается разработкой и маркетингом кодеков на основе технологии спектрального копирования записи (Spectral Band Replication, SBR). За спиной у компании Coding Technologies стоят два очень солидных стратегических партнера – институт Fraunhofer и компания Thomson Multimedia. Компания Coding Technologies имеет доступ ко всем разработкам института Fraunhofer, а само название MP3Pro дала новому формату компания Thomson Multimedia, которая и занимается его продвижением совместно со своей дочерней компанией RCA [48].

Причиной появления MP3Pro явилась необходимость качественной передачи через Internet цифровой музыки в РВ на низких битрейтах. Ясно, что использования психоакустической модели при скоростях меньше 128 Кбит/с недостаточно. Идея SBR: при кодировании передавать чуть более узкий диапазон частот, обрезая верхние частоты, а при декодировании восстанавливать верхние частоты, основываясь на информации о более низких частотах. При кодировании образуются два параллельных потока:

    • обычный MP3, 22 КГц;

    • информация для восстановления верхних частот.

При помощи сдвига определенной части спектра, например, на 8-9 КГц вверх и последующей обработки эквалайзерами и некоторыми специальными приемами можно получить некое подобие верхних частот. MP3Pro делает подобные операции корректно, при этом информация о высоких частотах (или их части) и амплитуде/мощности должна хранится в отдельном файле. Высокочастотная часть спектра режется на полосы и кодируется отдельно от всего остального, причем во втором потоке MP3Pro запоминается информация о мощности сигнала. Например, при кодировании с потоком 64 Кбит/c весь сигнал делится на 3 части: [0-8,2 КГц); [8,2-16,3 КГц]; выше 16,3 КГц, причем третью часть кодер просто отбрасывает. Из оставшихся двух берется вторая часть с диапазоном [8,2-16,3 КГц] и режется еще на несколько полос, у каждой такой высокочастотной (узкой) полосы вычисляется средняя мощность сигнала на фрейм, которая в этот же фрейм и записывается, но так, что обычный MP3-плеер ее не видит. Часть [0-8,2 КГц) сжимается обычным MP3-кодером. Именно эту часть способны увидеть обычные плееры [48].

При декодировании первой декодируется MP3-часть, затем из нее выделяется среднечастотная полоса (4,1-8,2 КГц), которую поднимают до (8,2-16,3 КГц] при помощи специального средства восхождения тона – питча (Raising Pitch). Получившуюся часть тоже делят на узкие полосы, а из фреймов достают информацию о мощности, которую присваивают этим полосам.

Обратная совместимость обеспечивается тем, что обычный MP3-плеер обработает только первый поток. Пример: Thomson mp3PRO Audio Player 1.0.2, поддерживающий 64 Кбит/c.

Возможность сжимать с приемлемым качеством музыку в 64 Кбит/c – это достижение. Но следует учитывать и то, что такой низкий битрейт очень восприимчив к спектральной насыщенности кодируемого звука, и качество при 64 Кбит/c будет сильно варьироваться для разного рода композиций. Однако непривередливому слушателю современной танцевальной музыки и обладателю аппаратуры среднего и низкого качества, MP3Pro при 64 Кбит/c подойдет вполне. Но MP3Pro не заменит ценителям музыки даже обычный MP3 из-за отсутствия поддержки высоких битрейтов, а также из-за технологии SBR, работа которой, больше похожа на синтез высоких частот, чем просто на их восстановление. MP3Pro не подойдет и для хранения музыки [48].

Для иллюстрации сегодняшнего места и роли MP3 среди других форматов кодирования аудио с потерями приведем приблизительные диапазоны битрейтов, рекомендуемые при кодировании типичного аудио материала в форматах MP3, WMA, Ogg, AAC и MPC c целью комфортного прослушивания (табл. 1.5) из [15], где

* – программа-кодер, возможно, не имеет режима кодирования на более низком битрейте;

** – кодер работает только в режиме переменного битрейта (Variable BitRate, VBR).