Скачиваний:
139
Добавлен:
21.11.2016
Размер:
3.49 Mб
Скачать

14. Оценка качества передачи речи

Поскольку человек как получатель информации является ключевым элементом любой телекоммуникационной системы, качество сигнала оценивается по его субъективному восприятию речи. К основным показателям качества принимаемой речи относят: раз­борчивость (понятность), громкость и натуральность.

Понятность речи - определяющая характеристика тракта передачи речи, так как если тракт не обеспечивает полной понятности речи, то ни­какие другие его преимущества не имеют значения - он не пригоден к эксплуатации. Для непосредственного определения этой качественной ха­рактеристики есть только один метод – субъективно-статистические испытания (ССИ), требующий большого коли­чества речевого материала, обработанного кодеками и трактом передачи, и привлечения группы экспертов (тренированных слушателей и дикторов). Разработан косвенный, объективный количественный метод определения понятности речи через ее разборчивость (см. также раздел 4).

Громкость речи определяет желательный уровень принимаемых сигна­лов, при котором разборчивость (понятность) речи достигается без нап­ряжения слухового аппарата со стороны принимающего. Натуральность речи оценивает способность системы воспроизводить не только смысл передаваемой речи, но и ее тембр и индивидуальные осо­бенности голосов говорящих, т.е. способность обеспечить узнаваемость говорящего по голосу.

Наиболее распространенным объективным методом оценки качества передачи речи является метод артикуляции. Он основан на оценке степени выполнения главного требования, предъявляемого к разговорным трактам, - обеспечения разборчивой передачи речи. Мерой разборчивости является здесь разборчивость элементов речи. Процесс произнесения ре­чевых элементов называется артикуляцией - отсюда и название метода.

Для измерений разборчивости разработаны специальные (артикуляци­онные) таблицы слогов, звукосочетаний и слов с учетом их встречаемости в русской речи (аналогичные таблицы есть и для других языков). Звуко­вых таблиц нет, так как звуки, кроме гласных, отдельно не произносят­ся, а для измерений звуковой разборчивости пользуются слоговыми табли­цами или таблицами звукосочетаний. Пусть, например, в процессе измере­ния было передано 1200 слогов, из них правильно принято 840 и искажено 360. Тогда слоговая разборчивость составит S = 840100/1200 = 70%. Из всех типов артикуляционных таблиц (слоговых, словесных, фра­зовых) практическое применение находят первые две. При этом слого­вые артикуляционные таблицы считаются основными, так как на прак­тике в большинстве случаев рассматривается именно слоговая раз­борчивость.

Измеряют разборчивость экспериментально (в соответствии с ГОСТ 16600-73) с помощью артикуляционной бригады - группы тренированных слушателей и дикторов - молодых людей без нарушений слуха и речи. Ограничение влияния субъективных факторов достигается путем строгой регламентации артикуляционных измерений. Регламентация касается вопросов комплектования и тренировки артикуляционных бригад, порядка проведения передачи, записи и проверки артикуляционных та­блиц, обработки результатов измерения разборчивости.

В табл. 14.1 приведены градации понятности речи и соответствующие им величины разборчивости. Словесная разборчивость ниже 75% оценивается как "срыв связи".

Таблица 14.1

Понятность

Разборчивость, %

слоговая

словесная

Предельно допустимая

25…40

75…87

Удовлетворительная

40…50

87…93

Хорошая

50…80

93…98

Отличная

80 и выше

98 и выше

Эти данные были получены для широкого словаря, т.е. при передаче самой разнообразной информации. В тех же случаях, когда идет обмен ин­формацией с гораздо меньшим объемом (т.е. при ограниченном словаре), понятность речи будет лучше, чем в общем случае при той же разборчи­вости речи. Так, для диспетчерской связи 40%-ная слоговая разборчи­вость уже соответствует полной понятности речи, хотя в общем случае она соответствует удовлетворительной понятности. Для передачи цифрами полная понятность достигается при 30% слоговой разборчивости.

По результатам проведения артикуляционных испытаний разборчи­вости различают классы качества речевых трактов по процентам пра­вильно принятых элементов речи: слабое, удовлетворительное, хоро­шее и отличное (табл. 14.2).

Таблица 14.2

Вид разборчи- вости

Качество речевых трактов, %

Слабое

Удовлетворительное

Хорошее

Отличное

Звуковая

25. ..40

40.. .55

55. ..80

>80

Слоговая

64.. .75

75. ..82

82. ..90

>90

Словесная

75. ..87

87.. .93

93. ..98

>98

Фразовая

90. ..95

87.. .93

97.. .99

>99

При оценке качества кодирования и сопоставлении различных коде­ков оцениваются разборчивость речи и качество синтеза (качество звуча­ния) речи. За рубежом для оценки разборчивости речи используется метод DRT (диагностический рифмованный тест). В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными в начале слова (типа "дот - тот", "кол - гол"), которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи.

Для оценки качества звучания используется критерий DAM (диагнос­тическая мера приемлемости). Испытания заключаются в чтении нескольки­ми дикторами, мужчинами и женщинами, ряда специально подобранных фраз (12 фонетически сбалансированных 6-слоговых предложений), которые прослушиваются на выходе тракта связи рядом экспертов-слушателей, выс­тавляющих свои оценки по 5-балльной шкале MOS (средняя субъективная оценка или средняя оценка мнений) в соответствии с данными табл. 14.3. Затем результаты усредняются. Хотя этот метод является субъективным по своей сути (ана­лог ССИ), его результаты по сопоставлению различных ти­пов кодеков при проведении испытаний одними и теми же группами дикто­ров и экспертов-слушателей являются достаточно объектив­ными, и на них основываются практически все выводы и решения.

Экспериментальные субъективно-статистические способы определения оценок качества чрезмерно громоздки и дают достоверные результаты лишь при большом объеме обработанного речевого материала. Поэтому весьма актуально создание объективного метода оценки качества с меньшими затратами труда и времени. Так, при исследовании речевых кодеков (а в последние годы эти исследования ста­ли проводиться с помощью ЭВМ) желательно использовать объективные (формализованные) критерии качества, отличающиеся оперативностью и не требующие привлечения экспертов. Однако существующие объективные кри­терии качества слабо отражают свойства слухового восприятия. Поэтому критерий качества, используемый для оценивания кодеков одного типа, может оказаться некорректным для кодеков иного типа. Например, такой широко используемый критерий, как отношение сиг­нал-шум квантования (ОСШК), вполне удовлетвори­тельно оценивающий качество неадаптивных, инвариантных к спектру пере­даваемого сигнала кодеков, становится некорректным при сравнении адап­тивных дифференциальных речевых кодеков. Это связано с различием в ха­рактере искажений сигналов.

Таблица 14.3.

Субъективная оценка качества звучания речи

Уровень восприятия речевой информации

Оценка по шкале MOS

Очень плохо

Речь не воспринимается полностью или частично

1

Плохо (слабо)

Речь воспринимается затрудненно,

с напряженным вниманием

2

Удовлетворительно

(Разборчиво)

Речь воспринимается свободно, но наличие дефектов неоспоримо

3

Хорошо

Речь воспринимается свободно,

определение дефектов затруднительно

4

Отлично

Речь воспринимается полностью

и без искажений

5

В табл.14.4 представлена сводная информация о наиболее распространенных способах кодирования речи. Здесь оценка различных методов кодирования связана с восприятием речи человеком, т.е. со средними субъективными оценками по шкале MOS.

Таблица 14.4.

Метод кодирования РС

Стандарт / Год принятия

Цифровая ско­рость, кбит/с

Оценка качества по шкале MOS

ИКМ (PCM)

ITU-T G.711/1960

64

4,1…4,5

АДИКМ (ADPCM)

ITU-T G.726/1984

32/64

3,8 / 4,6

IMBE

INMARSAT-M/1990

6,4

3,1

LD-CELP

ITU-T G.728/1992

16

3,8

RPE-LTP

ETSI GSM/1992

13

3,6

VSELP

EIA/TIA IS54/1992

8

3,45

CELP

FS-1016 (США)

4,8

3,15

MP-MLQ

ITU-T G.723.1/1996

6,4

3,9

ACELP

ETSI TETRA/1996

4,8

3,4

MELP

США/1998

2,4

3,5

LPC-10

ANSI

2,4

2,9

Так, при точном квантовании в ИКМ шум мож­но считать стационарным процессом с равномерной спектральной плотностью мощности (СПМ). В то же время при адаптивном квантовании, когда шаг квантования изменяется в соответс­твии с дисперсией нестационарного РС, дисперсия ошибки квантования оказывается с ней связанной, т.е. шум квантования становится также нестационарным. Обычно ОСШК не учитывает ни спектральных соотношений сигнала и шума, ни их нестационарного харак­тера. При субъективном же восприятии важно соотношение не только дис­персий, но и СПМ РС и шума. Поэтому за основу объективного критерия, учитывающего свойства слухового восп­риятия, должны быть приняты оценки кратковременных СПМ РС и ошибки квантования. Корректность критерия качества передачи ха­рактеризуется корреляцией объективных оценок, вычисленных с его ис­пользованием, и субъективных оценок качества передачи.

Объективная оценка качества РС может производиться как во вре­менной области, так и в частотной области. Во временной области критерием качества является ОСШК. В адаптивных речевых кодеках шаг квантования изменяется в соот­ветствии с дисперсией РС, поэтому дисперсия ошибки квантования зависит от дисперсии РС. При исследованиях таких кодеков важны значения крат­ковременных ОСШК, вычисленных на коротких сегментах РС длительностью 10...30 мс. Такое сегментное ОСШК учитывает сегментный характер слухо­вого восприятия элементов речи и является лучшей мерой искажений, при которой паузы в РС не учитываются. Однако чтобы их игно­рировать, они должны быть обнаружены.

При кодировании с адаптивным предсказанием параметры предсказа­теля изменяются в соответствии с кратковременной СПМ РС, что делает необходимым учет сегментно-спектрального характера слухового восприя­тия в пределах временного сегмента РС. Так как область слышимых частот разделяется на критические полос­ки, то в каждой из них установлено оптимальное для слухового восприя­тия соотношение спектральных мощностей сигнала и ошибки квантования. С точки зрения простоты вычисле­ний, длительности необходимого для анализа речевого материала (около 3 с, т.е. одна - две фразы), а также хорошей корреляцией с объективными оценками качества показатель качества на основе сегментного ОСШК может рассматриваться как весьма эффективный инструмент при исследова­ниях кодеков различных типов.

В частотной области критерием качества является степень искаже­ния спектральной огибающей. Было установлено, что использование крите­рия качества в частотной области в большей степени соответствует субъ­ективным оценкам, чем критериям во временной области. Так, при оценке качества звучания сигнала в вокодерных методах пере­дачи, где форма реализаций речевых сигналов в дискретном времени на входе кодера xt и выходе декодера xt* может существенно различаться, ос­новным показателем является близость оценок СПМ xt и x*t. Существует множество показателей, контролирующих эту близость. В частности, определение критерия качества в частотной области базируется на LPC кепстральном расстоянии (CD). (Термин "кепстр" был введен в США в начале 60-ых годов и является в настоящее время общепринятым для обоз­начения обратного преобразования Фурье логарифма спектра мощности сиг­нала). Спектральное искажение как мера качества речи определяется здесь через спектральное расстояние между спектром входного и выходно­го сигналов. В свою очередь, мерой спектрального расстояния служит кепстральное расстояние CD.

Этот метод используют для оценки качества РС в системе линейного предсказания. Он незначительно отличается от субъективного метода MOS (коэффициент корреляции между этими методами около 0,96) - чем больше кепстральное расстояние CD, тем ниже средняя оценка мнений MOS. Такая зависимость справедлива не только для систем LPC, но и ИКМ, АДИКМ и других систем.

  1. Повышение помехоустойчивости цифрового канала передачи

При передаче цифровых данных по каналу с шумом и, тем более, с замираниями, обусловленными многолучевым распространением радиоволн, всегда существует вероятность того, что принятые данные будут содержать ошибки. Частота появления ошибок, при превышении которой принятые данные использовать нельзя, определяется свойствами слухового восприятия человека. А именно - должна быть установлена допустимая вероятность ошибок Рош, не приводящая к заметным на слух искажениям на аналоговом выходе. Поэтому средняя вероятность ошибочного приема элемента сигнала Рош является основной характеристикой помехоустойчивости цифрового канала связи. Снижение вероятности ошибок может быть достигнуто путем повышения требований к энергетическим характеристикам радиосистемы передачи – мощности радиопередатчиков, коэффициенту усиления антенн, шумовой температуре приемников. Однако далеко не всегда эти меры экономически оправданы и позволяют снизить вероятность ошибок до пренебрежимо малой величины.

Одним из важнейших средств в обеспечении достоверности передачи цифровых данных является использование канального кодирования с исправлением ошибок (FEC coding). Кодирование канала (иначе – избыточное или помехоустойчивое кодирование), основанное на применении специальных корректирующих кодов, реализуется путем добавления по определенному алгоритму в каждый кодовый блок некоторого количества поверочных символов. Эта из­быточность позволяет корректирующему ошибки декодеру детектировать и исправ­лять неверно дошедшие данные и восста­навливать исходный поток данных по при­нятому потоку

Выбор типа корректирующего кода и его параметров зависит от требуемой достоверности приема, допустимой скорости передачи, вида ошибок в канале, сложности (стоимости) реализации схем декодирования. Учитывается также, что в результате эффективного устранения избыточности в процессе кодирования источника, предшествующего кодированию канала, информационная ценность каждого передаваемого в канал бита резко возрастает. Приблизительное соотношениеестественной избыточности речевого сигнала и искусственной избыточности, вносимой в канал кодером канала, иллюстрирует рис. 15.1.

Рис. 15.1. Иллюстрация процессов кодирования источника и канала

Обсу­дим простые модели канала, описывающие процессы, происходящие между ко­дером и декодером (см. также рис. 6.1). На рис. 15.2 представлено несколько базовых моделей каналов, примени­мых для анализа канального кодирования. Наиболее простая модель называется двоичным симметричным каналом (ДСК) без памяти (рис. 15.2,а). Входы и выходы этого канала - двоичные. Переданные и принятые блоки данных соблюдают по­битовый порядок и на входе, и на выходе модели канала. Каждый бит кодируе­мой последовательности приходит на выход канала в неизменном виде с вероят­ностью 1 Рош. С вероятностью Рош передаваемые биты инвертируются, т.е. возника­ют битовые ошибки. Декодер принимает решение о переданной закодированной последовательности с по принятой двоичной последовательности г. В процессе принятия решения декодером могут применяться только те отношения алгебраи­ческой независимости между отдельными битами переданной последовательно­сти, которые были установлены правилом кодирования. Отсутствие у рассмат­риваемой модели памяти приводит к тому, что ошибки статистически становятся взаимно независимыми, т.е. возникновение ошибок в предшествующие момен­ты времени никак не влияет на вероятность появления ошибок в текущий мо­мент.

Очень немногие реальные каналы передачи могут считаться действительно не имеющими памяти. В большинстве случаев ошибки возникают пакетами. С другой стороны, существует множество алгоритмов декодирования, разрабо­танных специально для исправления случайных ошибок, т.е. ориентированных на каналы без памяти. С целью обеспечения достаточно высокой эффективности коррекции ошибок предпринимаются дополнительные меры для разбиения па­кетов ошибок в приемнике, в частности, метод перемежения (interleaving) данных.

Вторая модель канала (рис. 15.2,б) учитывает пакетную природу ошибок, возникающих в канале передачи данных. Это значит, что появление одной ошибки в конкрет­ный момент времени увеличивает вероятность появления ошибки в следующий момент. В этом случае говорят, что канал обладает памятью о своих предыдущих состояниях. Для таких ситуаций разработаны специальные коды и алгоритмы декодирования.

В третьей модели (рис. 15.2,в), которая аналогично первой не имеет памяти, декодер использует не только знания об алгебраических соотноше­ниях между отдельными битами, но и дополнительную информацию, поступаю­щую из канала и позволяющую оптимизировать процесс декодирования. Для получения такой информации отсчет сигнала, полученный в приемнике в процессе демодуляции, квантуется в М-уровневом квантователе.

Рис. 15.2. Модели каналов с точки зрения канального кодирования

Если каждому возможному уровню квантования поставить в соответствие число от 0 до М1, то будет получена модель канала с двоичным входом и т-ичным выходом (рис. 15.3). В такой модели сигнал на выходе канала измеряется на­много точнее, чем в модели двоичного канала. Это позволяет использовать дополнительную информацию, содержащуюся в принятом символе для повы­шения качества декодирования, т.е. снизить вероятность принятия неверного ре­шения о принимаемой кодированной последовательности. Декодирование, при котором используется дополнительная информация канала, называется де­кодированием с мягким решением. В противовес ему, декодирование с использо­ванием только информации двоичных символов называется декодированием с жестким решением. В большинстве применяемых в современной цифровой сотовой телефонии алгоритмов декодирования используются мягкие решения.

Рис. 15.3. Модель двоичного канала, обеспечивающего мягкие решения при M = 8.

В современных цифровых системах связи и вещания для обнаружения и исправления ошибок применяют либо блочные (блоковые) корректирующие (n,k)-коды, либо сверточные коды (СК). Определяющее различие между кодерами для кодов этих двух типов состоит в наличии или отсутствии памяти.

Кодер для блокового кода отображает последовательности из k входных символов в последовательности из n выходных символов, причем всегда п > k.. При этом каждый блок из n символов зависит только от соответствующего блока из k символов и не зависит от других блоков. Параметрами блокового кода являются n, k, R = k/nскорость кода и d - кодовое расстояние. Кодовое расстояние является основным показателем корректирующей способности кода. Оно равно минимальному числу позиций, в которых кодовые комбинации отличаются друг от друга. Если в пределах блока кода при передаче появляется q ошибочных символов, то считают, что произошла ошибка кратности q. Кратность обнаруживаемых qо и исправляемых qи кодом ошибок связаны с кодовым расстоянием соотношением d = qо + qи + 1, причем всегда qо qи. Конкретный тип кода задается тремя параметрами: n, k и d. При q > 3…5 эффективность блоковых кодов заметно снижается, то есть существенно возрастает требуемая при этом избыточность. Поэтому в современных СПРС используются более эффективные сверточные коды.

Сверточный код - это линейный рекуррентный код. В общем случае он образуется следующим образом. В каждый тактовый момент времени на вход кодирующего устройства (регистр сдвига с K ячейками) поступает m символов сообщения; n выходных символов формируются с помощью рекуррентного соотношения из K = m + q символов сообщения, среди которых m поступили в данный тактовый момент времени, а q - в предшествующие. Символы сообщения, из которых формируются выходные символы, хранятся в памяти кодера. Параметр K часто называют длиной кодового ограничения данного кода. СК характеризуются также скоростью R = m / n и свободным расстоянием dсв, аналогичным параметру d блоковых кодов. Типичные значения параметров СК: m,n = 1 - 8, R = 1/4 - 7/8, K = 3 -10.

Введение при кодировании канала в информаци­онный сигнал избыточных символов сопровождается негативным эф­фектом — снижением, при неизменной скорости цифрового потока (Rц), скорости передачи полезной нагрузки (Сц) обратно пропорционально скорости кода (R): Rц = Сц / R, бит/с. Поэтому для сохране­ния скорости передачи полезной нагрузки необходимо расширение по­лосы частот канала в R раз или повышение кратности модуляции.

Положительным эффектом помехоустойчивого кодирования являет­ся либо снижение вероятности ошибки, либо снижение энергетики пере­дачи при той же вероятности ошибки, либо и то, и другое одновременно. Таким образом, кодирование расширяет возможности компромисса между полосой и энергетикой канала, присущего любой системе связи.

Обычно качество системы связи характеризуется отношением энергии, приходящейся на один информационный символ, к односторонней спектральной мощности шума, т.е. отношением сигнал-шум (ОСШ) h0 = Еб / N0, которое требуется для достижения заданной вероятности ошибки Рош. Уменьшение ОСШ (при заданном уровне Рош), достигнутое благодаря кодированию канала, характеризует энергетический выигрыш кодирования (ЭВК). При использовании блочных кодов величина ЭВК (при Рош  110-5), как правило, не превышает 2,5...3,5 дБ. Применение сверточных кодов декодируемых по алгоритму Витерби с мягкими решениями позволяет получить оценку для ЭВК 4…6 дБ.

При применении конкретного кода величина ЭВК легко находится покривым помехоустойчивости, представляющим собой зависимости вероятности ошибки декодирования Рош от ОСШ на входе демодулятора. Реально достижимый ЭВК зависит, в первую очередь, от свойств корректирующего кода и алгоритма его декодирования. В качестве примера на рис. 15.4 кривые помехоустойчивости построены для двух вариантов кода БЧХ в канале с ФМ-2 при использовании жестких решений в корреляционном демодуляторе.

Рис. 15.4. Кривые помехоустойчивости ФМ канала с кодированием

Определение ЭВК осуществляется относительно кривой помехоустойчивости для ФМ канала без кодирования (R=1) - при приемлемом пользователю допустимом долговременном уровне ошибок на бит информации после декодирования ош)доп, не приводящем к заметным на слух искажениям на аналоговом выходе. Из построений следует, что при ош)доп = 110-6 (63,51)-код, обнаруживающий и исправляющий двукратные (q=2) ошибки, обеспечивает ЭВК   2,5 дБ, а (127,99)-код при q = 4 - выигрыш   3,5 дБ.

Кодирование канала сопровождается двумя весьма простыми, но чрезвычайно эффективными процедурами – перемежением символов и скремблированием цифровых потоков. Использование перемежения как одного из основных методов повышения верности передачи дискретных сообщений в каналах с группирующимися ошибками является хара­ктерной особенностью сотовой связи. Это следствие неизбежных глубоких замираний сигнала в условиях многолучево­го распространения, которое практически всегда имеет место, особенно в условиях плотной городской застройки. При этом груп­па следующих один за другим символов, попадающих на интервал замирания (провала) сигнала, с большой вероятностью оказывает­ся ошибочной. Если же перед выдачей информационной последо­вательности в радиоканал она подвергается процедуре перемеже­ния, а на приемном конце восстанавливается прежний порядок следования символов, то пакеты ошибок с большой вероятностью рассыпаются на одиночные ошибки. Таким образом, простое перемежение (перестановка во времени) символов позволяет декоррелировать ошибки в канале, то есть преобразовать пакеты ошибок большой кратности в одиночные, сведя, в первом приближении, канал с памятью к ДСК без памяти.

Скремблирование (рандомизация), предваряя кодирование канала, превращает цифровой сигнал в ква­зислучайный. Это, с одной стороны, позволяет создать в цифровом сигнале достаточно большое число перепадов уровня и обеспечить самосинхрони­зацию - возможность выделения из него тактовых импульсов, а с другой - приводит к более равномерному энергетическому спект­ру излучаемого радиосигнала. Благо­даря этому повышается эф­фективность работы передатчика и миними­зируется мешающее действие радиосигнала цифровой системы передачи по отношению к ана­логовым сигналам, излучаемым другими передатчиками в том же частотном диапазоне. Собственно рандомизация осуществляется пу­тем сложения по модулю 2 исходного транспортного потока данных с выхода мультиплексора кодера речи и двоичной псевдослучайной последовательности.