- •Список сообщений
- •Треки и клипы
- •Sweet Spot
- •Частотная характеристика
- •Ушная раковина (Pinna)
- •Неподвижные источники звука
- •Каково же будет решение?
- •Хорус как таковой
- •Хорус в Cool Edit Pro 2
- •Хорус в SONAR 2.1
- •Простые методы сжатия
- •Методы сжатия, основанные на психоакустике
- •Некоторые факты о восприятии звука
- •Транзиентные сигналы
- •1. Оцифровка звука и его хранение на цифровом носителе
- •2. Преобразование звука из цифрового вида в аналоговый
- •3. Способы хранения цифрового звука
- •4. Преимущества и недостатки цифрового звука
- •5. К вопросу об обработке звука
- •6. Аппаратура
- •7. Программное обеспечение
- •8. Перспективы и проблематика
- •Глоссарий терминов
- •Уровень и динамический диапазон звукового сигнала
- •Устройства динамической обработки
- •Структура устройств динамической обработки
- •Временные характеристики
- •Уровень и динамический диапазон звукового сигнала
- •Устройства динамической обработки
- •Структура устройств динамической обработки
- •Временные характеристики
- •Дилэй и эхо - близнецы-братья
- •Дилэй и эхо в Cool Edit Pro 2
- •Дилэй в SONAR 2
- •Дилэй в Cubase SX
- •FFT фильтр
- •IIR фильтры
- •FIR фильтры
- •Введение
- •Wave файл с компрессией ADPCM
- •MPEGplus/Musepack (MP+/MPC/MPP)
- •TwinVQ (VQF)
- •Liquid Audio
- •OGG Vorbis
- •Качество Звучания
- •Заключение
- •Глоссарий:
- •Полезные ссылки:
- •Создаем аудиотрек
- •Выбираем порт ввода звуковых данных
- •Выбираем порт вывода
- •Чтобы не работать впустую
- •Регулируем уровень сигнала
- •Спет куплет
- •Словарик
- •Классический спектр
- •Текущий спектр
- •Мгновенный спектр
- •Отображение мгновенного спектра
- •Сколько весит спектр?
- •Список сообщений
- •Треки и клипы
- •Audio-CD
- •Что влияет на качество воспроизведения Audio-CD?
- •Является ли CD-R, переписанный с обычного CD, точной копией исходного диска?
- •Чем, в таком случае, отличается привод CD-R[W] за $2.000 от привода за $200?
- •Можно ли получить абсолютную копию звука Audio-CD в обычный wav-файл ("сграбить" - англ. "grab")?
- •Какой грабер лучше использовать?
- •Формат сжатия MP3 - общие вопросы
- •Откуда у тебя такая любовь к кодеру Producer 2.1?
- •Если ты даже не смотрел {MP3enc, Lame, Bladeenc, OGG Vorbis, *.* AAC, впишите_сюда_своё}, то почему ты уверен, что Producer 2.1 лучше всех?
- •Всё же, какой кодер самый крутой?
- •Ты совсем не упомянул кодер <n>!
- •Можно ли отличить MP3-256 от оригинала на слух?
- •??? Я всегда считал, что MP3-256 неотличим на слух от оригинала?
- •Может быть, еще увеличить поток поможет? Как насчет MP3-320?
- •А можно ли отличить MP3-256 от оригинала, сравнивая их таким же интенсивным образом, но в слепом тесте?
- •Значит, отличить всё же можно. Почему тогда ты говоришь в своей статье - 'MP3-256 не изменяет параметры звука хоть сколь заметным человеку образом'?
- •Так в каком же случае можно считать MP3-256 оригиналом?
- •Ну и чем кодировать в MP3-256?
- •Немного философии
- •Тебя не смущает, что все твои записи закодированы в MP3-256, и в один прекрасный момент ты обнаружишь их некачественность?
- •Я понял - тебя просто не волнует качество звука. Может, ты просто не слышишь разницы?
- •Если MP3-256 оставляет, как ты говоришь, практически оригинал, можно ли использовать его в студии?
- •Что такое MP3 ?
- •Детали
- •Настоящее и будущее MP3
- •Описание процесса кодирования
- •Подготовка к кодированию. Фреймовая структура
- •Начало кодирования
- •Работа психоакустической модели.
- •Завершение кодирования
- •Замечание
- •Способы кодирования стерео сигнала
- •Простые заблуждения и ошибки, делаемые пользователями MP3
- •Немного о программах
- •Немного о некоторых битрейтах
- •VBR & XingTech
- •Способы хранения MP3
- •Характер потерь при кодировании
- •Тестирование качественности кодеров
- •Психоакустическая модель и разные битрейты
- •Какие, собственно, кодеры у нас в распоряжении
- •Всякое-разное
- •Что такое front-end ?
- •Что такое ACM pro codec ( MP3-кодек ) ?
- •Файлы какого формата можно перевести в формат MP3?
- •Каков статус MP3 кодеров?
- •Каковы системные требования ?
- •Выводы
- •Чем компьютер может помочь в работе над музыкой?
- •Насколько качественно компьютер исполняет и обрабатывает музыку?
- •Можно ли делать всю музыку только на компьютере?
- •Что выбрать - трекер или синтезатор с секвенсором?
- •Где можно найти информацию по работе над музыкой?
- •Кратко об истории и характеристиках стандартов MPEG
- •Что такое CBR и VBR?
- •Каковы отличия режимов CBR, VBR и ABR? (применительно к кодеру Lame)
- •Какие методы кодирования стерео информации используются в алгоритмах MPEG (и других)?
- •Какие параметры предпочтительны при кодировании MP3?
- •Какие алгоритмы компрессии существуют (альтернативы MP3 и др.)?
- •кодирование с потерями качества / lossy coding
- •кодирование без потерь качества / lossless coding
- •Можно ли осуществить преобразование из одного потокового формата аудио данных в другой?
- •Можно ли осуществить преобразование WAV в MIDI, WAV в трекерный модуль?
- •Можно ли выделить из аудио потока звучание конкретного инструмента или голоса?
- •Какие существуют способы преобразования MIDI в WAV?
- •Какой метод сравнения двух аудио сигналов можно признать наиболее точным?
- •Что такое стеганография?
- •Clip Restoration - алгоритм, функционирующий на грани мистики
- •Noise Reduction - шумоподавитель идет по следу
- •Альфа. Программы
- •Бета. Постановка задачи
- •Гамма. Подготовка к восстановлению
- •Дельта. Два способа
- •Дзета. Стерео и дорожки. Щелчки и винил
- •Эта. Фильтрация
- •Тэта. Вычитание или подавление?
- •Иота. Многополосная фильтрация
- •Каппа. Sono luminus
- •Лямбда. Полуфинал
- •Ми. Финал
- •Омега. Суперфинал
- •Графический эквалайзер
- •Параметрический эквалайзер
- •Практикум
- •Кроссовер
- •Совет 1 - Surround stereo, типа.
- •Совет 2 - Кайфные Ведущие.
- •Совет 3 - Эффективное Панорамирование.
- •Совет 4 - Попадаем в Качание вселенского маятника.
- •Предисловие к "ничему"
- •Пики и Впадины
- •Мелодия
- •Groove? Что за Groove?
- •Мля. Только не C, Dm, F, G
- •Последнее, но немаловажное
- •Выразительные средства музыкального языка
- •Динамическое развитие
- •Темповое развитие
- •Мелодическое развитие
- •Ритмическое развитие
- •Тембровое развитие
- •Имитация акустической среды
- •Звуковые эффекты
- •Вибрато
- •Амплитудное вибрато и тремоло
- •Частотное вибрато
- •Тембровое вибрато
- •Немного анатомии (устройство уха - коротко и ясно)
- •О чувствительности (по мощности и частотной)
- •О фазовой чувствительности
- •Об объемном восприятии
- •О нотах и октавах. Гармоники
- •1. Способы преобразования звука
- •2. Звуковые эффекты
- •Использование задержки
- •Преобразование амплитуд
- •Частотные преобразования
- •Использование эффекта реверберации в профессиональных приложениях
- •Сущность эффекта реверберации
- •История искусственной реверберации
- •Цифровые ревербераторы
- •Типы реверберации
- •Параметры реверберации
- •Управление реверберацией по MIDI
- •Способы практического использования
- •Компрессоры и компрессия
- •Оживление искусственных барабанов
- •Советы по эквализации музыкальных инструментов
- •Практика записи
Compression
Простые методы сжатия
Традиционные методы сжатия без потерь (Huffman, LZW, итд.) обычно плохо применимы для сжатия аудио информации (по тем же причинам что и при сжатии визуальной информации).
Ниже перечислены некоторые методы сжатия с потерями:
•Сжатие тишины(пауз) - определяет периоды "тишины", работает аналогично run-length кодированию.
•ADPCM - Adaptive Differential Pulse Code Modulation (в русскоязычной литературе применяется термин адаптивная дельта-импульсно-кодовая модуляция (АДИКМ).
Например, стандарт CCITT G.721 -- от 16 до 32 Kbits/sec:
Кодирование разницы между двумя или более последовательными отсчетами; затем разница квантуется --> при квантовании часть информации теряется. Квантование адаптивно (меняет параметры в зависимости от сигнала), в результате меньшее количество бит необходимо для достижения лучшего SNR. Необходимо предсказывать как звук изменится --> сложно
•Apple разработал собстенную систему названную ACE/MACE. Сжатие с потерями, пытается предсказать, каково будет значение следующего отсчета. Сжатие порядка 2:1.
•Linear Predictive Coding (LPC) - пытается описать сигнал с помощью "речевой модели" и передает параметры модели --> звучит как компьютерно синтезированная речь, 2.4 kbits/sec.
•Code Excited Linear Predictor (CELP) - тоже самое что и LPC, однако дополнительно передает ошибку квантования (используя предопределенный набор "кодовых слов") --> телефонное качество при
4.8 kbits/sec.
Методы сжатия, основанные на психоакустике
Представители: MPEG layers 2, MPEG layer 3 (MP3), AAC (Advanced audio coding), TwinVQ, Ogg Vorbis, и др.
Алгоритм кодека использующего психоакустику обычно состоит из следующих шагов:
•Обсчет психоакустической модели (маскирования).
•Разделение сигнала на частотные подполосы (FFT, DCT/MDCT, FilterBanks, и т.д.).
•Квантование сигнала в подполосах в соответствии с результатами психоакустической модели. Возможно использование одного квантового уровня. сразу для нескольких входных значений
(векторное квантование - Vector Quantization) - TwinVQ.
Некоторые факты о восприятии звука
•Частотный спектр воспринимаемый человеком (примерно) от 20 Hz до 20 kHz, наибольшая чувствительность в диапазоне от 2 до 4 KHz.
•Динамический диапазон (от самых тихих воспринимаемых звуков до самых громких) около 96 dB (более чем 1 к 30000 по линейной шкале).
•Общеизвестно, что человек в состоянии различить изменение частоты на 0.3% на частоте порядка
1kHz.
•Если два сигнала различаются менее чем на 1дб по амплитуде - они трудноразличимы. Разрешение по амплитуде зависит от частоты и наибольшая чувствительность наблюдается в диапазоне от 2
до 4 KHz.
•Пространственное разрешение (способность к локализации источника звука) - до 1 градуса.
•Звуки различной частоты распространяются в воздухе с разной скоростью. В результате высокочастотная часть спектра от источника находящегося на удалении от слушателя несколько запаздывает.
•Человек не в состоянии заметить внезапное исчезновение высоких частот, если оно не превышает порядка 2ms.
•Некоторые исследования показывают, что человек в состоянии ощущать частоты выше 20kHz. С возрастом частотный диапазон сужается.
Речь
•Частотный спектр, несущий информацию в человеческой речи: от 500 Hz до 2 kHz
Низкие частоты - басы и гласные Высокие частоты - согласные
•Лучшее сжатие речи достигается с использованием параметрических кодеров
(LPC, CELP, и пр.),
пытающихся представить речь как набор параметров некоторой речевой модели. Кодеки общего назначения (MPEG и др.), как правило, дают худшее сжатие.
Устройство уха
В общем случае ухо - нелинейная система и не может быть точно описано с помощью только линейных элементов (таких как фильтры и линии задержки). Как побочный результат нелинейности может проявляться, например, следующий эффект: при подаче двух тонов с частотой 1000 и 1200Hz может также быть слышен третий тон с частотой 800Hz. Однако в интересующем нас диапазоне амплитуд нелинейность достаточно слаба и ей обычно пренебрегают.
Строение
Ухо состоит из трех частей: ушной раковины (также называемой внешним ухом), среднего уха и внутреннего уха - улитки. Проходя через различные части уха звук претерпевает изменения.
•Одна из функций внешнего уха (ушной раковины) - улучшение локализации источника звука в пространстве. Благодаря ее несимметричной форме АЧХ сигналов приходящих из разных точек пространства изменяется по разному. Ушная раковина может влиять лишь на сигналы с длинной волны, сопоставимой с размерами уха (>3kHz). Внешний ушной канал резонирует на частоте около 2kHz , что дает повышенную чувствительность в данном диапазоне.
•Среднее ухо выполняет роль гидравлического усилителя. Так как в улитке находится жидкость а снаружи - воздух, то необходимо согласование сопротивления среды. Среднее ухо также защищает от низкочастотных звуков чрезмерной амплитуды.
•Внутреннее ухо - улитка. В развернутом виде будет представлять из себя трубочку, с постепенно уменьшающимся к одному из концов диаметром. Улитка выполняет роль частотного анализатора. Внутри улитки находятся до 4000 нервных окончаний. Различные области улитки входят в резонанс при подаче сигнала определенной частоты.
Восприятие в зависимости от частоты
•Так как нейрон может возбуждаться не чаще чем 500 раз в секунду, то для получения информации о более высоких частотах слуховой аппарат человека прибегает к некоторым "ухищрениям":
На частотах до 500 Hz --> колебания непосредственно переходят в нервные импульсы.
Примерно до 1.5кГц проблема решается подключением одновременно до 3 нейронов к одному нервному окончанию. Нейроны в данном случае возбуждаются последовательно, один за другим и, соответственно, помогают улучшить частотное разрешение в 3 раза.
На более высоких частотах регистрируется лишь амплитуда сигнала.
•Таким образом бинауральный слух, играющий большую роль в локализации источника звука, лучше всего развит на частотах меньших 1.5кГц. Выше этой частоты источником информации о местоположении служит лишь разница амплитуд сигнала для левого и правого уха. Это делает возможным применение при кодировании режимов Joint Stereo - запоминается либо информация для суммы правого и левого каналов и их разница, со значительно меньшей точностью (Mid/Side coding), либо вообще запоминается лишь амплитуда сигнала (Intensity coding).
Психоакустика
Критические полосы (Critical Bands)
•Человеческая система восприятия звука имеет ограниченное, зависящее от частоты разрешение. Равномерное, с точки зрения восприятия человеком измерение частоты может быть выражено в единицах ширины Критических Полос.
Их ширина менее 100 Hz для нижних слышимых частот, и более 4 kHz для наиболее высоких. Весь частотный диапазон может быть разделен на 25 критических полос.
•Новый отсчет частоты был назван барк (bark, after Barkhausen):
1 Барк = ширина одной критической полосы
Для частот < 500 Hz, может быть рассчитан по формуле: частота / 100 Барк, Для частот > 500 Hz: 9 + 4log2(частота / 1000) Барк.
Чувствительность человеческого уха в зависимости от частоты
•Эксперимент: Слушатель в тихой комнате. Повышаем громкость тона частотой 1 kHz до уровня когда он становится слышимым. Изменяя частоту тона получим:
|
|
|
|
|
|
|
|
|
|
Частотное(параллельное) |
|
маскирование |
||
|
|
|
|
|
Вопрос: Взаимодействуют ли звуковые рецепторы друг с другом ?
•Эксперимент: Воспроизводим тон частотой 1 kHz (маскирующий сигнал), с фиксированной громкостью (60 dB). Воспроизводим тестовый (маскируемый) тон с различной громкостью (скажем с частотой 1.1 kHz), и повышаем его уровень до тех пор пока он не становится слышимым.
•Изменяем частоту тестового тона и рисуем границу слышимости:
|
|
|
|
|
|
|
|
|
|
||
•Повторяем эксперимент для |
|
|
|
||
|
|
различных частот |
|||
маскирующего сигнала: |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
•Частотное маскирование с |
|
|
|
|
|
|
частотной шкалой |
||
|
|
выраженной в Барках: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Временное(последовательное) маскирование
Если мы слышим громкий звук, который внезапно прекращается, требуется некоторое время чтобы услышать более тихий тон.
Эксперимент: Воспроизводим 1 kHz маскирующий тон на уровне 60 dB, и тестовый тон с частотой 1.1 kHz на уровне 40 dB. Тестовый тон не слышен (он замаскирован).
Отключаем маскирующий тон, затем, после небольшой задержки отключаем тестовый тон.