3.3.2 Кодирование речи

Основная задача кодера (английский термин encoder) – предельно возможное сжатие сигнала речи, представленного в цифровой форме, т.е. предельно возможное устранение избыточности речевого сигнала, но при сохранении приемлемого качества передачи речи. Компромисс между степенью сжатия и сохранением качества отыскивается экспериментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера. В приемном тракте перед ЦАП размещен декодер речи; задача декодера (английский термин decoder) – восстановление обычного цифрового сигнала речи, с присущей ему естественной избыточностью, по принятому кодированному сигналу. Сочетание кодера и декодера называют кодеком (английский термин – codec) [5].

Исторически сложилось два направления кодирования речи: кодирование формы сигнала (waveform coding) и кодирование источника сигнала (source coding). Первый метод основан на использовании статистических характеристик сигнала и практически не зависит от механизма формирования сигнала. Кодеры этого типа с самого начала обеспечивали высокое качество передачи речи (хорошую разборчивость и натуральность речи), но отличались меньшей по сравнению со вторым методом экономичностью. В методе кодирования формы сигнала используются три основных способа кодирования: импульсно-кодовая модуляция, ИКМ (английское наименование Pulse Code Modulation – PCM), дифференциальная ИКМ – ДИКМ (Differential PCM – DPCM) и дельта-модуляция – ДМ (Delta Modulation – DM). ИКМ соответствует цифровой сигнал непосредственно с выхода АЦП, в нем сохраняется вся избыточность аналогового речевого сигнала. При ДИКМ эта избыточность несколько уменьшается за счет того, что квантованию с последующим кодированием и передачей по линии связи подвергается разность между исходным речевым сигналом и его предсказанным значением, а при приеме разностный сигнал складывается с предсказанным значением, полученным по тому же алгоритму предсказания. Шкала квантования может быть равномерной, неравномерной или адаптивно изменяемой; предсказание сигнала может быть не зависящим от формы последнего или же зависеть от формы сигнала, т.е. быть адаптивным. Если при кодировании сигнала используются элементы адаптации, то соответствующую разновидность ДИКМ называют адаптивной ДИКМ – АДИКМ (Adaptive DPCM – ADPCM). ДМ – это ДИКМ с однобитовым квантованием, она также может быть адаптивной (АДМ). АДИКМ находит применение, например, в беспроводном телефоне с коэффициентом сжатия сигнала около 2. В сотовой связи используется исключительно второй метод кодирования, как более экономичный, – коэффициент сжатия порядка 5…8 с увеличением его в перспективе еще вдвое.

Второй метод – кодирование сигнала или кодирование параметров сигнала, – первоначально основывался на данных о механизмах речеобразования, т.е. использовал своего рода модель голосового тракта и приводил к системам типа анализ-синтез, получившим название вокодерных систем или вокодеров (vocoder – сокращение от voice coder, т.е. кодер голоса или кодер речи). Уже ранние вокодеры позволяли получить весьма низкую скорость передачи информации, но при характерном «синтетическом» качестве речи на выходе. Поэтому вокодерные методы долгое время оставались в основном областью приложения усилий исследователей и энтузиастов, не находя широкого практического применения. Ситуация существенно изменилась с выходом на сцену метода линейного предсказания, предложенного в 60-х годах и получившего мощное развитие в 80-х, в том числе в прямой связи с разработкой речевых кодеков для цифровых систем сотовой связи. Именно вокодерные методы на основе линейного предсказания и применяются в сотовой связи, причем зависимость этих методов от данных о механизмах речеобразования отступает на второй или даже третий план, а оценка передаваемых по линии связи параметров производится на основе статистических характеристик сигнала по жестко определенному алгоритму, как и при кодировании формы сигнала.

За длительный период развития телефонной связи были достаточно подробно изучены характеристики речи и устройство речевого аппарата человека. Так, установлено, что для обеспечения приемлемого качества восстановленной речи достаточно анализировать (передавать) речевой сигнал в полосе частот 300…3400 Гц. Выяснены и причины большой избыточности речевого сигнала. К ним относятся [6]:

- неравномерное распределение значений (отсчетов) сигнала (редки большие отсчеты);

- высокая корреляция соседних отсчетов;

- корреляция удаленных отсчетов, обусловленная периодичностью сигнала;

- корреляция между периодами основного тона (см. далее);

- избыточность из-за пауз между слогами, словами, фразами при монологе, которые составляют (в среднем) до 25% времени разговора, и пауз, когда надо слушать собеседника (до 50% времени).

Основными характеристиками кодеков являются скорость преобразования

, (1)

где - число бит на выходе кодера на интервале времени , и качества восстановленной речи.

Скорость преобразования является важной характеристикой речевых кодеков, так как определяет требуемую пропускную способность канала для передачи речи. Сжатие сигнала тем больше и, следовательно, кодек тем эффективнее, чем меньше (при обеспечении требуемого качества восстановленной речи).

<<< < Предыдущая 1 23 / 143 4 5 6 7 8 9 10 11 12 13 14 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
14.11.2019536.58 Кб13metoda.doc
#
19.11.2019761.34 Кб1Metoda_Em_kursach.doc
#
14.04.20152.64 Mб43Metodichka_EiE_LR.pdf
#
16.11.2019292.86 Кб5Metodichka_Fpnp_Rus.doc
#
12.11.20191.52 Mб13Metodichka_kursovoy_konstruirovanie.docx
#
13.04.20151.56 Mб54Metodichka_mobilnaya_stantsia.doc
#
10.11.20191.15 Mб4Metodichka_na_laby.doc
#
14.04.2015388.34 Кб5Metodichka_po_prakticheskim_temam.pdf
#
23.08.2019499.71 Кб3Metodichni_vkazivki_do_vikonannya_samostiynoyi.doc
#
23.08.2019105.47 Кб2Metodichni_vkizivki_do_organizatsiyi_samostiyno...doc
#
13.04.20151.47 Mб67Metodologia_SSADM.doc