Лекция 07 Компрессия аудиоданных
.docКомпрессия аудиоданных
Сжатие информации без потерь (Lossless)
Алгоритмы, выискивающие повторяющиеся последовательности в двоичных данных и заменяющих эти последовательности кодами
Методы Лемпела-Зива-Уэлча LZW (встречавшаяся ранее последовательность заменяется ссылкой-маркером), дефляция, Берроуза-Уиллера Burroughs-Wheeler основаны на поиске повторяющихся последовательностей байтов.
Методы Хаффмана (1-самое часто встречающееся значение, 01-следующее и т.д.) и арифметическое кодирование основаны на поиске часто встречающихся значений байтов.
Плюсы: точное восстановление исходных данных. Минусы: непредсказуемая степень сжатия, низкая эффективность.
FLAC — см. ниже; APE - Monkey’s Audio (официально под Windows, есть и др.)
Сжатие информации с потерей качества (Lossyless)
Нелинейная ИКМ
Основана на том, что потеря точности для слабых звуков острее, чем для громких. Наиболее распространенный формат, использующий мю-функцию (μ-Law) сжимающий 12-битные отсчеты в 8-битные
Дифференциальная ИКМ (дельта-модуляция)
Основана на том, что соседние отсчеты обычно мало отличаются друг от друга. Если приращение значения превышает диапазон, то промежуточные значения искажаются.
Нелинейная дельта-модуляция.
Код |
-8 |
-7 |
-6 |
-5 |
-4 |
-3 |
-2 |
-1 |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Фибоначчи |
-34 |
-21 |
-13 |
-8 |
-5 |
-3 |
-2 |
-1 |
0 |
1 |
2 |
3 |
5 |
8 |
13 |
21 |
Экспонента |
-128 |
-64 |
-32 |
-16 |
-8 |
-4 |
-2 |
-1 |
0 |
1 |
2 |
4 |
8 |
16 |
32 |
64 |
Адаптивная ДИКМ
Вместо использования заранее заданных приращений используется набор на основе предварительного анализа данных (обычно масштабного коэффициента). Наиболее распространено компрессирование 4:1.
IMA ADPCM (Interactive Multimedia Association) адаптивная дифференциальная импульсно-кодовая модуляция. Алгоритмы: Microsoft для WAVE и Apple для AIFF-C и QuicTime.
Методы компрессии с прогнозированием
Моделирование данных позволяет «предсказать» последующие значения. При использовании одинакового алгоритма моделирования в устройствах кодирования и декодирования можно передавать информацию о величине ошибки. Чем точнее данные моделируются, тем меньше ошибка и объем информации. Минусы: необходимость очень сложного алгоритма снижающего скорость вычислений.
Кодирование в частотных поддиапазонах
Разделение сигнала на частотные поддиапазоны позволяет использовать оптимальные для различных частот алгоритмы. В низкочастотных сигналах преобладают малые приращения, а в высокочастотных – большие. Точность в полосе высокой чувствительности слуха должна быть выше, чем в полосах, где чувствительность слуха ниже. MPEG-аудио, Dolby AC, Sony MiniDisk (ATRAC).
mp3 - формат сжатия с потерей качества
Кодеки mp-3:
-
Fraunhofer-IIS Формат МР3 был создан исследователями Института Фраунгофера (Германия) в начале прошлого десятилетия. Срок действия патентов на технологию истек в 2010 году, теперь формат MP3 любой производитель сможет бесплатно. Наилучшее качество до 128 кбит/с
-
Кодеры Xing Technologies – высокая скорость при минимальном качестве.
-
Кодеры на основе стандарта ISO/IEC 11172-3 (LAME-codec) создают наилучшие по качеству MP3 файлы для битрейтов 128 – 320 кбит/с.
битрейт - величина потока информации. Качество зависит не только от битрейта, но и от кодека.
Constant Bit Rate - постоянный битрейт (битрейт кратен 16)
Average Bit Rate - то есть усредненный битрейт (подгоняет под заданный)
Variable Bit Rate - то есть изменяющийся битрейт или переменный битрейт (максимальное качество)
Mp-3 Pro – наивысшее качество, но плееры, не поддерживающие формат, воспроизводят их без ВЧ.
wma - лицензируемый формат файла с более высокими характеристиками, чем mp3, но нестойкий к ошибкам (последние версии без потери качества)
aac - Advanced Audio Coding — патентованный формат аудиофайла с увеличенным размером «окна» в 2048 пунктов, частотами дискретизации до 96 кГц и до 48 каналов (.aac, .mp4, .m4a, .m4b, .m4p, .m4r)
VQF - Vector Quantization — векторное квантование, Япония (на 30-35 % компактнее MP3при равном качестве за счет загрузки процессора)
ogg - контейнер для различного типа медиа. Открытый бесплатный стандарт. В контейнере Ogg можно хранить звук и видео в различных форматах (таких как MPEG-4, Dirac, MP3 и другие), но обычно Ogg используется со следующими:
-
Speex — для сжатия речевого сигнала на низких битрейтах (~8—32 кбит/канал);
-
Vorbis — для сжатия звука на средних и высоких битрейтах (~16—500 кбит/канал).
-
FLAC — мультиплатформенный кодек сжатия без потерь для обработки звуковых архивов и других аудиоданных высокого качества воспроизведения.
Компрессия речи
Моделирование звуков на основе анализа параметров и пауз позволяет сохранить хорошее качество при сжатии 100:1 и выше. На основе алгоритмов компрессии были разработаны алгоритмы модификации голоса. Speex см. выше.
Опорные точки
При сжатии звука используется накопление информации. Для возможности использования в потоковом аудио необходимо периодически создавать опорные точки.
Прогрессивная компрессия
В условиях переменной полосы пропускания используется прогрессивная компрессия:
-
Блок данных с максимальной компрессией исходных данных
-
Блок данных с максимальной компрессией данных об ошибке компрессии
-
Блок данных об ошибке второго порядка
-
Блоки данных об ошибках 3 и т.д. порядков.