Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекция 07 Компрессия аудиоданных

.doc
Скачиваний:
75
Добавлен:
14.02.2015
Размер:
100.35 Кб
Скачать

Компрессия аудиоданных

Сжатие информации без потерь (Lossless)

Алгоритмы, выискивающие повторяющиеся последовательности в двоичных данных и заменяющих эти последовательности кодами

Методы Лемпела-Зива-Уэлча LZW (встречавшаяся ранее последовательность заменяется ссылкой-маркером), дефляция, Берроуза-Уиллера Burroughs-Wheeler основаны на поиске повторяющихся последовательностей байтов.

Методы Хаффмана (1-самое часто встречающееся значение, 01-следующее и т.д.) и арифметическое кодирование основаны на поиске часто встречающихся значений байтов.

Плюсы: точное восстановление исходных данных. Минусы: непредсказуемая степень сжатия, низкая эффективность.

FLAC — см. ниже; APE - Monkey’s Audio (официально под Windows, есть и др.)

Сжатие информации с потерей качества (Lossyless)

Нелинейная ИКМ

Основана на том, что потеря точности для слабых звуков острее, чем для громких. Наиболее распространенный формат, использующий мю-функцию (μ-Law) сжимающий 12-битные отсчеты в 8-битные

Дифференциальная ИКМ (дельта-модуляция)

Основана на том, что соседние отсчеты обычно мало отличаются друг от друга. Если приращение значения превышает диапазон, то промежуточные значения искажаются.

Нелинейная дельта-модуляция.

Код

-8

-7

-6

-5

-4

-3

-2

-1

0

1

2

3

4

5

6

7

Фибоначчи

-34

-21

-13

-8

-5

-3

-2

-1

0

1

2

3

5

8

13

21

Экспонента

-128

-64

-32

-16

-8

-4

-2

-1

0

1

2

4

8

16

32

64

Адаптивная ДИКМ

Вместо использования заранее заданных приращений используется набор на основе предварительного анализа данных (обычно масштабного коэффициента). Наиболее распространено компрессирование 4:1.

IMA ADPCM (Interactive Multimedia Association) адаптивная дифференциальная импульсно-кодовая модуляция. Алгоритмы: Microsoft для WAVE и Apple для AIFF-C и QuicTime.

Методы компрессии с прогнозированием

Моделирование данных позволяет «предсказать» последующие значения. При использовании одинакового алгоритма моделирования в устройствах кодирования и декодирования можно передавать информацию о величине ошибки. Чем точнее данные моделируются, тем меньше ошибка и объем информации. Минусы: необходимость очень сложного алгоритма снижающего скорость вычислений.

Кодирование в частотных поддиапазонах

Разделение сигнала на частотные поддиапазоны позволяет использовать оптимальные для различных частот алгоритмы. В низкочастотных сигналах преобладают малые приращения, а в высокочастотных – большие. Точность в полосе высокой чувствительности слуха должна быть выше, чем в полосах, где чувствительность слуха ниже. MPEG-аудио, Dolby AC, Sony MiniDisk (ATRAC).

mp3 - формат сжатия с потерей качества

Кодеки mp-3:

  • Fraunhofer-IIS Формат МР3 был создан исследователями Института Фраунгофера (Германия) в начале прошлого десятилетия. Срок действия патентов на технологию истек в 2010 году, теперь формат MP3 любой производитель сможет бесплатно. Наилучшее качество до 128 кбит/с

  • Кодеры Xing Technologies – высокая скорость при минимальном качестве.

  • Кодеры на основе стандарта ISO/IEC 11172-3 (LAME-codec) создают наилучшие по качеству MP3 файлы для битрейтов 128 – 320 кбит/с.

битрейт - величина потока информации. Качество зависит не только от битрейта, но и от кодека.

Constant Bit Rate - постоянный битрейт (битрейт кратен 16)

Average Bit Rate - то есть усредненный битрейт (подгоняет под заданный)

Variable Bit Rate - то есть изменяющийся битрейт или переменный битрейт (максимальное качество)

Mp-3 Pro – наивысшее качество, но плееры, не поддерживающие формат, воспроизводят их без ВЧ.

wma - лицензируемый формат файла с более высокими характеристиками, чем mp3, но нестойкий к ошибкам (последние версии без потери качества)

aac - Advanced Audio Coding — патентованный формат аудиофайла с увеличенным размером «окна» в 2048 пунктов, частотами дискретизации до 96 кГц и до 48 каналов (.aac, .mp4, .m4a, .m4b, .m4p, .m4r)

VQF - Vector Quantization — векторное квантование, Япония (на 30-35 % компактнее MP3при равном качестве за счет загрузки процессора)

ogg - контейнер для различного типа медиа. Открытый бесплатный стандарт. В контейнере Ogg можно хранить звук и видео в различных форматах (таких как MPEG-4, Dirac, MP3 и другие), но обычно Ogg используется со следующими:

  • Speex — для сжатия речевого сигнала на низких битрейтах (~8—32 кбит/канал);

  • Vorbis — для сжатия звука на средних и высоких битрейтах (~16—500 кбит/канал).

  • FLAC — мультиплатформенный кодек сжатия без потерь для обработки звуковых архивов и других аудиоданных высокого качества воспроизведения.

Компрессия речи

Моделирование звуков на основе анализа параметров и пауз позволяет сохранить хорошее качество при сжатии 100:1 и выше. На основе алгоритмов компрессии были разработаны алгоритмы модификации голоса. Speex см. выше.

Опорные точки

При сжатии звука используется накопление информации. Для возможности использования в потоковом аудио необходимо периодически создавать опорные точки.

Прогрессивная компрессия

В условиях переменной полосы пропускания используется прогрессивная компрессия:

  • Блок данных с максимальной компрессией исходных данных

  • Блок данных с максимальной компрессией данных об ошибке компрессии

  • Блок данных об ошибке второго порядка

  • Блоки данных об ошибках 3 и т.д. порядков.