Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
реферат_корсукова_итог.docx
Скачиваний:
6
Добавлен:
24.09.2019
Размер:
117.31 Кб
Скачать

Понятие о факторах, определяющих минимальную цифровую скорость передачи речевых сигналов.

Использование цифрового представления речевого сигнала приводит к многократному увеличе­нию занимаемой полосы частот и, как следствие этого, к многократному уве­личению скорости передачи информа­ционных сообщений. Ре­шение проблемы лежит в области раз­работки эффективных методов цифро­вого преобразования - сжатия (коди­рования) речевых сигналов.

Трудность создания кодеков, обеспечивающих минимально возможную скорость передачи для речевого источника, обусловлена рядом причин. Во-первых, РС не является стационарным процессом.

Вторая причина связана с формализацией критерия верности передачи, свойственного получателю. Действительный критерий восприятия, который характеризует качество слухового приема речевого сигнала человеком, отличается от распространенного критерия среднеквадратической ошибки или от какого-либо другого критерия, контролирующего отклонение «формы реализаций».

Знания о физических свойствах получателя и источника речевых акустических колебаний позволяют предположить, что для обмена «речевой информацией» достаточно располагать пропускной способностью канала, не превышающей 100 бит/с.

Наряду с требованием обеспечения высокой верности слухового приема сообщения, крайне важно сохранить при передаче и такие субъективные характеристики, как узнаваемость собеседника, натуральность звучания и т. п.

Информация избыточная и излишняя. Понятие о статистической и психофизиологической избыточности речевого сигнала.

Избыточность информации - величина, характеризующая количество информации, имеющейся в сообщении, которая необязательна для его восприятия. Избыточность делится на два вида – статистическая и психофизиологическая.

Статистическая избыточность связана с корреляцией и предсказуемостью данных. Эта избыточность может быть устранена без потери информации, исходные данные при этом могут быть полностью восстановлены.

Сокращение статистической избыточности базируется на учете свойств самих речевых сигналов. Она обусловлена наличием корреляционной связи между соседними отсчетами речевого сигнала при его дискретизации. Используя статистические свойства сигнала: динамический диапазон, спектральную плотность мощности и полосу частот, распределение мгновенных значений, функцию корреляции сигнала и др. удается снизить цифровую скорость потока, не ухудшая объективные параметры качества и не изменяя форму сигнала.

Динамический диапазон слуха ограничен со стороны малых уровней порогом слышимости (Р0 = 2·10–5 Па, I0 = 10–12 Вт/м2, N0 = 0 дБ), сверху – болевым порогом (Рmax = 20 Па, Imax = 1 Вт/м2, Nmax = 120 дБ). Разумный порог слышимости установился в процессе эволюции. Значение звукового давления на пороге слышимости всего лишь на порядок более давления, соответствующего тепловому движению молекул воздуха. Если бы слух был более чувствительным, люди непрерывно бы слышали шум, обусловленный этим хаотическим движением молекул. Превышение болевого порога приводит к разрушению органа слуха.

Амплитудно-частотная характеристика слуха сильно изменяется с изменением интенсивности сигнала и лишь при интенсивностях 90... 110 дБ приближается к горизонтали. Уменьшение чувствительности на крайних частотах при небольших интенсивностях звука приводит к тому, что при слушании звучания с небольшой громкостью происходит сужение частотного диапазона слышимых звуков.

Нижней границей диапазона слышимых звуков называют 16...20 Гц, верхней – 16... 20 кГц. Нижняя граница довольно устойчива, верхняя заметно снижается с возрастом. Многие люди в возрасте старше 50 лет не слышат звуков с частотами более 10... 12 кГц.

Сокращение статистической избыточности источника. Для уменьшения статистической избыточности применяют достаточно сложные алгоритмы обработки. При их использовании потери информации нет, однако исходный сигнал оказывается представленным в более компактной форме, требующей меньшего количества бит при его передаче. Важно, чтобы все эти алгоритмы позволяли при обратном преобразовании восстанавливать исходные сигналы с минимальными искажениями. Наиболее часто для этой цели используют ортогональные преобразования. Преобразование считается эффективным, если :

- обладает быстрым вычислительным алгоритмом, как, например, быстрое преобразование Фурье (БПФ);

- обеспечивает наибольшую концентрацию энергии в небольшом числе коэффициентов преобразования;

- практически отсутствует корреляция между самими коэффициентами преобразования;

- при обратном преобразовании (восстановлении исходного сигнала) искажения сигнала малы.

Оптимальным с этой точки зрения является преобразование Карунена-Лоэва, но его реализация требует значительных вычислительных затрат. Незначительно ему уступает по эффективности модифицированное дискретное косинусное преобразование (МДКП). Для него разработаны быстрые вычислительные алгоритмы и, что важно — между коэффициентами БПФ и МДКП существует простая связь, что позволяет получать результаты, достаточно хорошо согласующиеся с работой механизмов слуха.

Уменьшить скорость цифрового потока позволяют также методы кодирования, учитывающие статистику ЗС, например, вероятности появления уровней разной величины. Примером такого учета являются коды Хаффмана, где наиболее вероятным значениям сигнала приписываются более короткие кодовые слова, а значения отсчетов, вероятность появления которых мала, кодируются родовыми словами большей длины. Именно в силу этих двух причин в наиболее эффективных алгоритмах компрессии цифровых аудиоданных кодированию подвергаются не сами отсчеты ЗС, а коэффициенты МДКП. Кроме того, при кодировании коэффициентов МДКП часто используются кодовые таблицы Хаффмана.

Особенно важную роль играет сокращение психофизиологической избыточности звуковых сигналов, основанное на учете особенностей слухового восприятия человека. Среди этих особенностей частотная и временная маскировка, инерционность, деление на "критические полоски слуха", низкая чувствительность слуха к снижению точности передачи градаций амплитуды и фазы спектральных компонентов и ряд других. Психофизиологические методы сокращения избыточности обеспечивают большее снижение цифровой скорости потока, однако при этом изменяется форма сигнала и ухудшается объективное качество сигналов. Однако это ухудшение качества, как правило, остается незаметным на слух.