Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Opisanie_laboratorki_-_na_razdachu.doc
Скачиваний:
11
Добавлен:
15.11.2019
Размер:
196.61 Кб
Скачать

4. Порядок и методика выполнения работы

4.1. Уточнить у преподавателя план выполнения рабочего задания и номера фонограмм, а именно - тип используемой обработки РС и величины ОСШ.

4.2. Прослушать требуемые фонограммы РС и, руководствуясь методом выбора, отметить результаты на бланках таблиц для оценки разборчивости.

4.3. Руководствуясь методикой измерений, представленной в Приложении 2 («Метод выбора»), оценить словесную разборчивость РС в условиях, соответствующих заданию. С этой целью вычислить значения разборчивости речи для каждой таблицы, а также ее среднее значение для данного вида обработки и величины ОСШ. Результаты расчетов оформить в виде таблицы (табл.1). Рассчитать среднеквадратическую ошибку и абсолютную погрешность, пользуясь Приложением 3. Построить графическую зависимость разборчивости речи от значения ОСШ для заданного вида обработки сигнала.

Таблица 1

Наличие обработки

ОСШ, дБ

Количество правильных слов, q

Q ср

W

1

2

3

4

5

6

7

8

9

6. Содержание отчета

Отчет должен содержать:

  1. Необходимые формулы для расчета разборчивости речи методом выбора, а также для оценки погрешности измерений.

  2. Таблицу 1 с результатами вычислений.

  3. Результаты расчета погрешности измерений (среднеквадратическая ошибка и абсолютную погрешность измерения ).

  4. Выводы по работе.

  1. Контрольные вопросы

  1. Перечислите основные свойства источника речи и опишите артикуляционный аппарат человека.

  2. Каковы основные характеристики первичного речевого сигнала?

  3. Что понимается под моделью речевого сигнала и как она используется?

  4. Какие параметры речевого сигнала определяют разборчивость?

  5. Как осуществляется измерение разборчивости по методу выбора?

  6. Какие объективные методы измерения разборчивости Вам известны?

  7. Как согласуются результаты измерения разборчивости, полученные Вами при выполнении работы, с формантной теорией разборчивости?

8. Литература

  1. Акустика: Справочник / А.П. Ефимов, А.В. Никонов, М.А. Сапожков, В.И. Шоров; Под ред. М.А. Сапожкова. 2-е изд. - М.: Радио и связь, 1989г. – 336 с.

  2. Вемян Г.В. Передача речи по сетям электросвязи. М.: Радио и связь, 1985г. – 272 с.

  3. Покровский Н.Б. Расчет и измерение разборчивости речи. - М.: Связьиздат, 1962г. – 392 с.

  4. Сапожков М.А., Михайлов В.Г. Вокодерная связь. - М.: Радио и связь, 1983. - 248 с.

  5. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. – М.: Радио и связь, 1991. – 220 с.

  6. Сапожков М.А. Электроакустика. Учебник для вузов. – М.: Связь, 1978. -272 с.

ПРИЛОЖЕНИЕ 1

Понятие разборчивости

Разборчивость — есть объективная количественная мера, характеризующая способность тракта электросвязи передавать содержащуюся в речи смысловую информацию в данных конкретных акустических условиях окружающей среды [2]. Эта мера является объективной в том смысле, что величина разборчивости зависит от физических параметров тракта, а также от среды, в которой ведется разговор, и не зависит от субъективных свойств конкретных, измеряющих разборчивость операторов.

Под мерой разборчивости понимается выраженное в процентах отношение числа правильно принятых элементов речи (звуков, слогов, слов, фраз) к достаточно большому общему числу переданных. В соответствии с этим различают разборчивость звуков - D, разборчивость слогов - S, разборчивость слов - W, разборчивость фраз - I.

Принято считать, что разборчивость речевого сигнала, распознаваемость музыкального сигнала и передача смысловой информации определяются огибающей амплитудного спектра сигнала. Как известно, в процессе речеобразования широкополосный гармонический сигнал (при произнесении гласных звуков) или шумовой (при произнесении согласных), проходя через набор перестраиваемых и стационарных акустических резонаторов, образуемых в ротовой и носовой полости, приобретает ряд максимумов огибающей амплитудного спектра — формант, положение которых на оси частот закономерно для отдельных звуков — фонем.

Установлено, что на гласных звуках положение первой форманты, расположенной ниже 1000 Гц, на 60% определяет характер фонемы; положение второй, лежащей в диапазоне от 1000 до 2500 Гц, - на 20%; и третьей (диапазон 1600-3200 Гц) - на 10%. Положение четвертой форманты, расположенной выше 3000 Гц, как считается, определяется размером головы. Последующие форманты при анализе сигнала не используются и в системах телефонной связи не передаются. Разборчивость же согласных, чей энергетический максимум в спектре сигнала расположен в диапазоне 1500-5000Гц, сильно зависит от верхней граничной частоты полосы пропускания звукового тракта.

Известна необычайно высокая устойчивость речевого сигнала к помехам и искажениям канала передачи, как акустического, так и электрического. Очевидно, что в процессе эволюции природой был создан чрезвычайно устойчивый канал связи. Из опыта работы с речевым сигналом известно также, что он остается разборчивым при существенном ограничении полосы частот, нелинейных искажениях, искажениях АЧХ и даже инверсии спектра. Большое количество собственных резонансов у обычного угольного микрофона, приводящее к появлению новых "формант" — незначительно сказывается на разборчивости, а их своеобразное расположение при синтезе речевого сигнала чревовещателем не мешает его пониманию.

В системах связи почти полное разрушение формантной структуры не приводит к потере связи. В годы войны успешно использовалась система засекречивания телефонных переговоров, основанная на инверсии спектра речевого сигнала. При этом полностью искажается формантная структура сообщения, оно становиться неразборчивым и прямое подслушивание переговоров неэффективным. Если прослушать сигнал после инверсии спектра, легко убедиться, что разборчивость невелика и ее измерение не имеет смысла. Но возможности слухового анализатора позволяют после некоторой тренировки восстановить некоторую смысловую информацию и в этом случае.

Тем не менее, даже для стационарных звуков — гласных, на основании формантной теории удается распознать 60-80% фонем. Распознаваемость согласных гораздо ниже. Современные системы распознавания успешно работают, в основном, за счет большой избыточности речевого сигнала (лингвистической, грамматической, смысловой), ограничения словаря, количества пользователей.

Измерение разборчивости

Рассмотрим некоторые из методов измерения разборчивости речи. Измерение разборчивости методом артикуляции производится бригадой операторов путем передачи и приема по испытуемому тракту серии артикуляционных таблиц, составленных из элементов речи. В зависимости от используемых артикуляционных таблиц (слоговых, словесных, фразовых) измеряют соответственно разборчивость звуков, слогов, слов, фраз. Мерой разборчивости здесь является разборчивость элементов речи — величина, определяемая как отношение числа правильно принятых по испытуемому тракту элементов речи к достаточно большому общему числу переданных и выражаемая в процентах или в долях единицы:

(П.1.1)

где q - общее число правильно переданных элементов речи;

N - общее число переданных элементов речи.

При достаточно большом объеме измерений влияние случайных факторов и субъективных особенностей отдельных операторов усредняется и артикуляционные измерения дают устойчивые, объективные и повторимые результаты. Однако, иногда отклонения, связанные с субъективными особенностями операторов, могут привести к существенной погрешности в оценке испытуемого тракта, это недопустимо. Субъективные факторы весьма многообразны, однако важнейшими из них являются: дикция и слух операторов, их уровень развития, образование, сообразительность, способность концентрировать внимание, степень знакомства с текстом, скорость передачи и ряд других.

Ограничение влияния субъективных факторов достигается путем строгой регламентации методики артикуляционных измерений. Регламентация касается вопросов комплектования и тренировки бригады операторов, порядка проведения передачи, записи и проверки артикуляционных таблиц и обработки результатов измерения разборчивости.

Особое место в регламентации методики измерения разборчивости занимают артикуляционные таблицы. Из всех типов артикуляционных таблиц практическое применение находят два - слоговые и словесные. Принцип составления словесных артикуляционных таблиц достаточно прост и сводится к пропорциональной выборке натуральных речевых элементов — слов, которые не подвергаются никаким преобразованиям.

Принципы построения словесных артикуляционных таблиц

Восприятие слов существенно отличается от восприятия слогов, не имеющих смыслового значения. Для правильного восприятия слога необходимо правильно услышать все составляющие его звуки, для правильного же восприятия слова достаточно услышать только часть составляющих его звуков, догадка восполняет недослышанное. Так как вероятность догадки зависит от степени привычности данного слова для слушающего, то словесные артикуляционные таблицы должны содержать слова, как можно более разнообразные по их смыслу и употреблению, исключая специальные термины.

Для возможности узнавания слова необходим некоторый минимум объективных предпосылок; для русского языка таким минимумом будет правильное восприятие ударного слога и части согласных в неударных слогах, а также ритмико-динамической структуры слова в целом. Первое условие связано главным образом с частотной характеристикой и динамическим диапазоном звуков русской речи; второе — связано главным образом с количеством слогов и с местом ударения в слове, что, следовательно, должно быть обязательно учтено в словесных таблицах. Поэтому таблицы должны содержать слова с возможным в русском языке количеством слогов и местом ударения.

Основные недостатки артикуляционного метода измерения разборчивости состоят в необходимости содержания постоянной тренированной бригады операторов и значительной трудоемкости самих измерений. В целях устранения этих недостатков был разработан тональный метод измерения разборчивости, основанный на теории и методике расчета разборчивости. Сущность метода заключается в том, что речь диктора во время измерения заменяется определенным количеством строго регламентированных отдельных тонов, соответствующих средним частотам равноартикуляционных полос и воспроизводимых поочередно искусственным ртом перед звукоприемником оконечного передающего устройства на входе испытуемого тракта связи. Воспроизводимые звукоизлучателем на выходе того же тракта тоны прослушиваются оператором, который определяет их уровни ощущения. По измеренным значениям уровней ощущения с помощью специальных таблиц или графиков определяется разборчивость формант, по которой находится интересующий вид разборчивости. Обычно измерения проводятся бригадой тренированных операторов в составе трех-четырех человек.

ПРИЛОЖЕНИЕ 2

Метод выбора

Метод выбора был предложен американскими психологами Хагеном и Блеком в 1960 г. Несколько позднее этот метод был развит и переработан применительно к русскому языку коллективом авторов под руководством А.Г. Эльсница. Сущность метода заключается в своеобразной передаче слов, когда слушающему предлагается узнать и отметить услышанное слово в группе сходных по звучанию слов. Количественная оценка получается в виде процента правильно принятых слов к общему числу переданных.

Метод выбора обладает рядом преимуществ по сравнению с другими методами, а именно:

  • не надо специально тренировать бригаду; упрощено формирование звукового материала для проведения испытаний;

  • форма подачи звукового материала приближена к естественной;

  • упрощен критерий оценки;

  • упрощена процедура проведения испытаний и оформления их результатов.

Проведение измерений

Для проведения измерений используются специально составленные таблицы одно-, двух-, трехсложных слов. В работе используются девять таких таблиц, каждая из которых содержит 108 слов, расположенных группами по четыре сходных по звучанию слова в каждой. Группа - это четыре слова, расположенные столбцом. Каждая строка таблицы содержит три такие группы слов. Эти таблицы являются основными. Вид такой таблицы приведен на рис. П.1.

1

бланк

план

бант

банк

помадка

палатка

бородка

повадка

мол

пол

гол

вол

2

плод

мед

лед

йод

прения

тренер

трение

премия

досыпать

насыпать

осыпать

посыпать

3

дорогой

мировой

боровой

даровой

снасть

слезть

сласть

съесть

куб

пук

круп

круг

4

семь

сев

серп

все

отнести

обнести

поднести

оплести

пролить

налить

валить

полить

5

пробить

пылить

пилить

белить

повод

довод

омут

голод

помыть

поплыть

побыть

обуть

6

выиграть

пудрить

выбрать

выдрать

валить

налить

долить

молить

воск

мозг

мост

пост

7

грешить

решить

душить

пришить

быт

бык

вид

бот

нанимать

донимать

принимать

понимать

Рис П.1

8

выносить

вывесить

вымесить

выбросить

веха

веко

век

пекарь

бред

дед

вред

греть



Измерения проводятся последовательно в каждой из 9 таблиц. Для каждой строки таблицы диктор произносит три ключевых слова, по одному из каждой группы. Вам необходимо выбрать (и пометить точкой слева) по одному опознанному слову из каждой группы.

Так, например, диктор последовательно произносит:

план

повадка

мол

плод

трение

насыпать

даровой

снасть

круг

серп

обнести

пролить

и т.д.

Вы должны отметить слова так, как это показано на рис. П. 2.

1

бланк

план

бант

банк

помадка

палатка

бородка

повадка

мол

пол

гол

вол

2

плод

мед

лед

йод

прения

тренер

трение

премия

досыпать

насыпать

осыпать

посыпать

3

дорогой

мировой

боровой

даровой

снасть

слезть

сласть

съесть

куб

пук

круп

круг

4

семь

сев

серп

все

отнести

обнести

поднести

оплести

пролить

налить

валить

полить

и т.д.

Рис. П.2



Сравнив отмеченные Вами слова со списком ключевых слов, продиктованных преподавателем, найдите число правильно принятых слов по каждой таблице.

Словесная разборчивость (в %) может быть рассчитана для каждой таблицы по следующей формуле:

(П.2.1)

где N - число переданных по данной дикторской карточке слов; q - общее число правильно отмеченных слов в таблице.

Отличие приведенной формулы от вида (П.1.1) обусловлено особенностью метода выбора. Эта особенность, принципиально отличающая его от метода артикуляции и требующая особого подхода к подсчету разборчивости, вытекает из способа приема передаваемых слов и заключается в следующем. В случае, когда принимающий оператор не может уверенно решить, какое слово было передано, он отмечает одно из четырех наугад. В этом случае вероятность того, что он отметит ("угадает") действительно переданное слово будет равна 0,25. Тогда среди общего числа правильно отмеченных слов будут такие, которые действительно были не приняты, а случайно угаданы. Очевидно, чем выше качество испытуемого тракта, тем меньше вероятность случайного угадывания, и наоборот. Разумеется, угаданные слова не характеризуют качества испытуемого тракта и при подсчете разборчивости должны быть исключены.

Анализ данного выражения показывает, что оно имеет физический смысл при q 7, так как при q <7 величина W становится отрицательной. Последнее вполне закономерно, поскольку по условиям измерений вероятность правильно отмеченных слов за счет случайного угадывания при нулевой разборчивости равна 0.25, что соответствует среднему значению q = 6,75. Поэтому если в отдельных случаях q <7, то это следует понимать как нулевую разборчивость. По результатам измерения вычисляется усредненная оценка, для каждого предлагаемого варианта обработки сигнала. По окончании проведения экспертизы составляется протокол. В приложении 3 приводится пример такого протокола.

ПРИЛОЖЕНИЕ 3

Пример оценки погрешности измерения разборчивости

Словесная разборчивость (в %) подсчитывается по формуле (П.2.1).

Среднее значение словесной разборчивости вычисляется по формуле:

,

(П.3.1)

где — результат единичного измерения по методу выбора; n = 9.

Среднеквадратическая ошибка или стандарт измерений вычисляется по формуле:

,

(П.3.2)

и характеризует собой среднюю величину отклонения результатов единичных измерений от среднего значения измеряемой величины.

При помощи распределения Стьюдента, задавшись значением доверительной вероятности  = 0.90, найдем абсолютную погрешность измерения . Для этого воспользуемся формулой [2,3]:

, где находится из таблиц .

В результате, разборчивость записываем в виде Wв = (Wвср ±  ) %.

ПРИЛОЖЕНИЕ 4

Обработка речевых сигналов с целью повышения

разборчивости

С целью повышения разборчивости речевых сигналов производится их предварительная обработка. С помощью инерционных ограничителей уровня снижается динамический диапазон сигнала, что позволяет увеличить относительную среднюю мощность (ОСМ), а следовательно, громкость сигнала. Адаптивная фильтрация с уменьшением коэффициента передачи для низкочастотных компонент высокоуровневых гласных звуков помогает выровнять их с малоуровневыми, но высокоинформативными согласными. Такая обработка позволяет повысить громкость сигнала и его разборчивость в условиях шумов и помех.

Дополнительное повышение громкости за счет увеличения ОСМ и устранения недостатков обработки, определяемых инерционностью традиционных регуляторов уровня и устройств адаптивной фильтрации, позволяет получить устройство регулирования уровня огибающей сигнала - аудиопроцессор АРГО. Основными достоинствами аудиопроцессора АРГО являются отсутствие инерционности и возможность увеличения ОСМ вдвое и более - относительно получаемого с помощью применяемых обычно (классических) авторегуляторов уровня (АРУР), что эквивалентно пропорциональному увеличению громкости сигнала.

Относительная средняя мощность (РОСМ) - один из основных параметров звуковых сигналов, характеризующий его свойства. Она показывает, какую часть составляет средняя мощность звукового сигнала РСР за определенный промежуток времени от гармонического сигнала РНОМ номинального, т.е. максимального, уровня: РОСМ = РСР / РНОМ . В зависимости от времени усреднения различают среднесекундные, среднеминутные, среднечасовые и долговременные относительные средние мощности. Величина ОСМ выражается в процентах или в единицах уровня, т.е. как 10 Lg РОСМ. С помощью ОСМ может быть получена субъективная оценка громкости широкого класса звуковых сигналов, включая речевые.

Регулирование только лишь одного коэффициента передачи тракта в соответствии с измеренным уровнем сигнала, используемое в большинстве современных АРУР, не позволяет в достаточной степени увеличить ОСМ и, следовательно, громкость, не внося заметных искажений в звуковой сигнал. Положение меняется, если в качестве объекта регулирования выступает огибающая звукового сигнала. Однако, формирование огибающей широкополосного звукового сигнала - как в аналоговом, так и в цифровом варианте - достаточно сложная задача.

Аналитическая огибающая звукового сигнала может быть получена как корень квадратный из суммы квадратов исходного сигнала и сопряженного по Гильберту ортогонального сигнала, формирование которого произведено в частотной области с использованием быстрого преобразования Фурье (БПФ). В процессе регулирования звуковой сигнал расщепляется на огибающую и мгновенную фазу, с использованием которой восстанавливается сигнал после регулирования.

Регулирование производится следующим образом. Исходя из необходимости получения заданного уровня громкости звучания, устанавливается пороговое значение амплитуды, после превышения которого значение огибающей сигнала умножается на -характеристику, обеспечивая заданную ОСМ. На отрезках времени длительностью около 10 мс, до и после регулирования, измеряются пиковые значения сигнала. При превышении им значения заданного порога, отличающего его от шума, вычисляются ОСМ выходного сигнала. В случае отклонения оценки ОСМ от заданной величины, напряжение огибающей звукового сигнала умножается на компрессирующую функцию. При этом изменение амплитудной характеристики производится со скоростью, обеспечивающей незаметность процесса регулирования. Кроме того, огибающая обрабатывается с помощью амплитудной характеристики идеального ограничителя, обеспечивающего отсутствие в сигнале превышения уровня более 1 дБ относительно номинального.

После завершения процесса регулирования, т.е. процесса изменения огибающей, звуковой сигнал восстанавливается путем умножения огибающей на косинус мгновенной фазы, полученной на этапе преобразования (формирования) огибающей исходного сигнала.

Регулирование уровня путём обработки не самого речевого сигнала, а его огибающей, позволяет, помимо, как минимум, удвоения величины его ОСМ, приблизительно на 10…15% увеличить разборчивость - при сохранении субъективно высокого каче­ства звучания речи.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]