Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Естественно-научные методы исследований в теории и практике производства судебных экономических и речеведческих экспертиз_ Материалы Всероссийской научно-практической конференции

.pdf
Скачиваний:
16
Добавлен:
06.09.2022
Размер:
3.62 Mб
Скачать

The use of forensic economic expert examinations in the averment on criminal cases

V.V. Epishin, A. A. Nazarov

Prosecutor's office of Perm Krai

The article is devoted to the problem of use in proving forensic economic examinations. The study used the dialectical method, the integrated, systemic analysis, complex sociological methods (analysis of legal sources, statistics and judicial practice). Describes the main types of existing forensic economic expertise: accounting, financial analysis, tax, financial and credit. The authors list a number of factors affecting the objectivity of conclusions of the expert. These include: the completeness of the objects of study, the wording of the questions and others. In conclusion, the article offers recommendations for optimizing the use of forensic economic expert examinations in the averment on criminal cases. Practical examples of the evaluation of the results of the examination and refutation of the arguments of the defence by using expert judgements.

Keywords: proof in criminal cases, judicial-economic expert estimates, the objectivity of conclusions of the expert.

ИНВАРИАНТЫ РЕЧЕВОГО СИГНАЛА И ОБЕРТОНА ГОЛОСА

В.Р. Женило

Московский государственный лингвистический университет

Zhenilo@yandex.ru

Статья посвящена проблеме извлечения инвариантных компонентов речевых сигналов. Показывается, что вариативность речевых сигналов в реальных акустических условиях весьма велика. Приводится рабочее определение понятия информации вообще. Передавать информацию с помощью звука можно лишь с помощью инвариантных структур речевого сигнала. Инвариантными структурными элементами речевых сигналов являются гармонические компоненты. Часть таких инвариантных структурных элементов речевых сигналов формируются непосредственно в самом речевом аппарате человека, а часть – в его слуховой системе. Экспериментально показано – слуховая система человека наиболее чувствительна к изменениям именно инвариантных компонентов речевых сигналов. Рассматриваются вопросы формирования обертонов голоса в речи.

Ключевые слова: информация, структура, инвариант, гармоника, частота, резонанс, обертон, чувствительность, спектр, сонограмма.

В реальных земных условиях речевые сигналы (и все звуковые сигналы вообще)

весьма вариативны из-за множественных отражений и суммирований исходного речевого

сигнала с самим собой. И чем больше отражающих поверхностей, пусть даже и самых

маленьких, как, например, листва в лесу, тем значительнее продуцируемый речевой сигнал

меняется и в весьма значительной мере. Так, например, на рис. 1 показаны две

осциллограммы одного и того же исходного речевого сигнала, но записанного с помощью двух микрофонов. Один микрофон расположен у губ говорящего на расстоянии 10-ти сантиметров (верхняя часть картинки) и второй - на расстоянии полуметра (нижняя часть картинки). Поэтому, например, если в аудитории публика слушает лектора, то осциллограмма речевого сигнала лектора в каждом ухе слушателя отличается от этого же речевого сигнала в другом ухе.

Глядя на обе осциллограммы на рисунке 1, очень трудно представить себе – а как же выглядит сам голосовой импульс. В старых научных работах прошлого века, посвящённых восстановлению голосового импульса из итогового речевого сигнала, можно найти разные временные графики голосовых импульсов. Но в большинстве случаев на этих графиках даже не обозначались единицы описания голосового импульса по вертикальной оси ординат.

Забегая вперёд, отметим, что в этой статье не приводятся рекомендации по реставрации формы голосового импульса из заданного речевого сигнала. А основное внимание уделяется возможной визуализации спектральной информации о форме голосового импульса.

Рис. 1. Один и тот же речевой сигнал, записанный с двух разных микрофонов.

Информация – это первичное понятие, не имеющее определения. Об этом хорошо и подробно отмечается в «Математическом энциклопедическом словаре» [1, 245]. Однако в этом же издании имеется «Словарь школьной информатики», в котором говорится: «Информация – … одна из исходных общенаучных категорий, отражающая структуру материи и способы её познания, несводимая к другим, более простым понятиям» [1, 821].

Такое сближение понятий «структура» и «информация» оказывается настолько продуктивным для дальнейшего обсуждения свойств звуковых волн вообще и речевых сигналов в частности,

что во всей статье ниже будет принято рабочее «определение»: Информация – это структура.

Если полагать, что структура речевого сигнала это и есть информация, то начинающему исследователю непонятно – как же тогда каждый слушатель слышит одни и те же слова, что и его соседи-слушатели, если осциллограммы речевых сигналов, которые они воспринимают на слух, разные по форме. Погрузившись в проблемы, становится ясно, что в речевом сигнале есть какие-то инварианты, позволяющие передавать и доводить информацию до каждого слушателя в неизменном виде. Вполне очевидно, что передавать информацию можно лишь с помощью каких-то неизменных – инвариантных – структур, а осциллограмма

(волна) речевого сигнала таковой не является (по внешнему виду).

Известно, что основными инвариантными компонентами речевых сигналов являются его гармонические составляющие (если они есть). А именно, в сложных (по существу и по описанию) волновых процессах в природе существует лишь одна форма сигнала, которая сохраняет в себе некоторые характеристики в абсолютно неизменном виде. Это сигналы гармонического типа h(t):

h(t)=A∙cos(2рFt+ц),

где: cos() – функция косинуса; A, F и ц – амплитуда, частота и начальная фаза гармонического колебания.

Где бы ни продуцировался и как бы ни распространялся сигнал гармонического типа,

отражаясь от разных поверхностей и снова складываясь со всеми своими отражениями, в

реальных земных условиях у него всегда остаётся неизменной, во-первых, характерная форма этой волны, а именно, - форма тригонометрической функции синуса (косинуса). Эту инвариантную характеристику можно отнести к разряду качественной. Но существует и количественная инвариантная характеристика (показатель), которая не меняется ни на йоту.

Это – частота сигнала гармонического типа. Этот один из инвариантов волновых процессов,

который можно было бы назвать пятым законом сохранения в природе, если бы он сам не следовал из законов сохранения энергии и импульса.

Точнее, если источник звука долго продуцирует сигнал гармонического типа, то при неподвижности отражающих поверхностей сумма всех отражений этого гармонического сигнала с исходным сигналом даёт тот же самый сигнал гармонического типа. При этом амплитуда итогового гармонического сигнала может варьироваться от одной точки пространства к другой. А значение параметра – фаза – меняется весьма значительно. Поэтому хорошо известен факт, что наше слуховое восприятие не воспринимает вариации значения

фазы, но хорошо воспринимает вариации амплитуды. Однако лучше всего наш слух воспринимает вариации частоты гармоники.

Эксперименты, приведённые студентами МГЛУ (Лямина К.П., Галькевич А. Е.,

Дряхлова М.И.), показали, что средняя пороговая чувствительность нашего слуха к амплитудным модуляциям сигналов гармонического типа составляет менее одного децибела.

А чувствительность к частотной модуляции составляет величину порядка 10 музыкальных центов (или порядка десятых долей музыкального полутона). В перерасчёте не на слуховые единицы измерения, а на физические значения порогов чувствительности слуха к модуляциям сигналов гармонического типа получается, что наш слух на порядок лучше воспринимает частотную модуляцию, чем амплитудную. И это естественно, поскольку частота сигнала гармонического типа инвариантна к множественным отражениям, а амплитуда и, тем более,

фаза – нет. В таблице 1 проведены усреднённые значения нижних пороговых величин модуляций, которые ещё воспринимает наше ухо.

Таблица 1. Нижние пороговые средние значения чувствительности слуха к модуляциям сигналов гармонического типа.

Частота

Амплитудная

Частотная

Амплитудная

Частотная

гармоники

модуляция

модуляция

модуляция

модуляция

(в герцах)

(в децибелах)

(в полутонах)

(в процентах)

(в процентах)

125

1.8 ± 1.0

1.9 ± 9.1

23

± 12

6 ± 26

500

± 0.8

0.5 ± 0.8

12

± 10

1.4 ± 2.3

2000

0.8 ±0.7

0.2 ± 0.3

10 ± 8

0.6 ± 0.9

8000

0.7 ± 0.5

0.3 ± 0.3

8

± 6

0.9 ± 0.9

Последние два столбца таблицы хорошо иллюстрируют тот факт, что с физической точки зрения наша слуховая система лучше всего ощущает изменения (вариации) частоты сигнала гармонического типа, и на порядок худе - модуляции амплитуды гармоник.

Приведённые результаты экспериментов иллюстрируют – как хорошо в результате эволюции наш слух «заострился» на восприятие инвариантных показателей сигналов – лучше всего. И хуже - воспринимает степени вариации неинвариантных показателей.

Приведённые факты объясняют – почему опытные фоноскописты (речевики или эксперты криминалисты) практически никогда не исследуют форму волны речевого сигнала

(осциллограмму), несмотря на то, что она является первичной. А сразу же переходят к сонограмм, в которых отражается инвариантная структура (информация) динамики частот гармонических компонентов речевых сигналов. Например, на рис. 2 показаны осциллограммы и сонограммы в одной и той же точке времени одного и того же исходного речевого сигнала,

но прошедшего разные электроакустические звенья передачи речевого сигнала.

Рассматривая вопрос свойств голосовых импульсов, мы тоже будем использовать сонограммы (динамические спектрограммы) высокого качества, на которых видны основные информационные свойства голосовых импульсов.

Примерно 200 лет назад гениальный изобретатель – француз Жан Батист Жозеф Фурье

– предложил раскладывать любую, даже не обязательно аналитически заданную функцию

(например, заданную в табличной форме, как речевые сигналы в памяти компьютера) на множество составляющих гармонических функций. И, несмотря на то, что изначально это потребовалось Фурье для описания и расчёта движения тепловых волн в твёрдых предметах для выбора лучших форм стволов пушек для армии Наполеона, сейчас эта технология активно применяется в большом числе научных исследований и, в частности, исследованиях речевых сигналов. Этому изобретению обязаны своим существованием и развитием все современные акустические исследования и достижения в области изучения свойств речевых сигналов и их обработки.

Рис. 2. Один и тот же речевой сигнал (слева - оригинал), подвергшийся дифференцированию (посредине) и испытавший резонирующий эффект (справа).

К сожалению, во многих даже научных книгах можно встретить утверждение, что ряды Фурье можно использовать только для математического модельного описания сигналов периодического типа. Но это не так. Теорема Фурье утверждает, что любую, пусть даже совершенно непериодическую функцию, можно разложить на выбираемом временном отрезке в ряд Фурье. Другими словами, вместо сложного исследуемого речевого сигнала можно исследовать его адекватную модель, состоящую только из модельных гармонических функций. А это намного проще и продуктивнее. Это принципиально важное свойство рядов Фурье, позволяющего изучать вместо весьма вариативного в реальных земных условиях

речевого сигнала его модель, состоящую из инвариантных элементов – гармонических компонентов речевых сигналов.

Поэтому вместо того, чтобы говорить о том, когда можно или нельзя применять ряды Фурье, следует чётко представлять, когда и где модельное описание звуковых сигналов с помощью инвариантных гармонических компонентов является адекватным, а когда - нет.

Вкратце можно сказать так - ряды Фурье:

-всегда абсолютно точно (адекватно) описывают любые звуковые сигналы внутри выбранного временного кадра заданной длительности;

-всегда адекватно описывают периодические сигналы внутри кадра и вне его в том лишь случае, если во временной кадр модельного описания сигнала попадает целое число периодов исследуемого звукового сигнала (музыкального звука, звонкого звук речи и т.п.);

-всегда адекватно модельно описывает взрывные и фрикативные звуки внутри выбранного временного кадра, который дополняется нулями, при увеличении длительности временного кадра до бесконечности.

Построить адекватные модельные ряды Фурье в реальных условиях спектрального анализа звукового сигнала практически невозможно. Так, например, если необходимо определить частоту основного тона голоса в речи (эта частота обратна величине периода речевого сигнала), то надо точно знать период тонального участка речевого сигнала. А его-то,

по сути, и требуется найти. Или, если требуется найти спектральный состав взрывного звука,

то необходимо знать его границы, что тоже не известно заранее.

На помощь приходит технология вырезания кадров речевого сигнала с помощью, так называемых, оконных или взвешивающих функций. И здесь начинает работать принцип неопределённости Гейзенберга. Эмпирически доказано [2], что лучшим окном для спектрального анализа сигналов гармонического типа является окно Гаусса. А Чуи теоретически доказал [3], что в информационном смысле лучшим окном для спектрального анализа любых сигналов является окно Гаусса.

Продуцируемые и воспринимаемые инварианты. Единственные сигналы гармонического типа, которые мы реально продуцируем в речи – это свободно затухающие сигналы гармонического типа, возникающие в речевом тракте при его возбуждении каждым голосовым импульсом в отдельности. Правда, эти сигналы гармонического типа настолько коротки по времени, что в низких мужских голосах они практически полностью затухают ещё до очередного хлопка голосовых складок. В то время как в бокалах и колоколах аналогичные свободно затухающие колебания длятся секундами, а в больших колоколах минуту и долее.

Стремление как можно точнее показать треки резонансных частот речевого тракта привели к тому, что помимо них самих на сонограмме стали хорошо видны ещё и другие загадочные следы гармонических компонентов речевых сигналов. И, что удивительно, следы этих гармонических компонент на сонограмме движутся не в ту же сторону, что частоты формант (частоты свободно затухающих гармонических колебаний воздушного столба в речевом тракте), а движутся в обратную – противоположную сторону. То есть, следы этих гармонических компонент возникают не после «хлопка» голосовых складок, а предшествуют самому «хлопку». Эти явления показаны на рис. 3 в самом низу сонограммы. Профессор В.Н.Сорокин [4] показал, что это не следы каких-то гармонических свободных колебаний, а

это след сложной формы голосового импульса, возбуждающего воздушный столб речевого тракта. И этот след точнее было бы называть не свободным, а вынужденным колебанием голосового импульса, который имеет сложную форму. Модель формы голосовых импульсов,

предложенная Ananthpadbanabha в 1984 году [5] показана на рис. 4. На этом же рисунке показана широкополосная сонограмма модельных голосовых импульсов.

Рассматривая вопрос, какие сигналы гармонического типа продуцирует человек, когда он говорит или поёт, выясняется, что таковыми являются только лишь свободно затухающие колебания воздушного столба речевого тракта. С этим обычно не соглашаются те, кто привык считать, что - при фонации гласных звуков речи или при пении - голосовые складки

«генерируют» ряд сигналов гармонического типа, называемых обертонами голоса, которые отстоят одинаково друг от друга на равном расстоянии по частоте. Но в действительности голосовой импульс с его формой не содержит и не продуцирует какие-либо сигналы гармонического типа, за исключением свободно затухающих колебаний (формант)

воздушного столба речевого тракта, которые являются свойством речевого тракта, а не голоса. Откуда же тогда берутся обертона, которые мы так или иначе ощущаем или которые чётко визуализируются с помощью узкополосных сонограмм (рис. 2)? К тому же, как доказано теоретически и экспериментально, - если искусственно синтезировать ряд сигналов гармонического типа, частоты которых равны соответствующим частотам основного тона голоса и всем расчётным обертонам, то практически нет никакой разницы между реальным звучанием голоса (в речи или в пении) и модельно синтезированным голосом.

Рис. 3. Фрагмент реального речевого сигнала с хорошо выраженными следами хлопков голосовых складок.

След средней

След открытия

След закрытия

части голосового

голосовых складок

голосовых складок

 

 

импульса

(выражен слабо)

 

Рис.

4. Модельная форма

голосового

импульса (Ananthpadbanabha

[6]) – слева

и

сонограмма

этих

импульсов

справа.

 

 

 

След

 

След

 

 

 

открытия

 

закрытия

 

 

 

голосовых

 

голосовых

 

 

 

складок

 

складок

След средней части голосового импульса

Ответ на этот древний вопрос выглядит так – обертона голоса «поштучно не продуцируются» и не образуются голосовыми складками, а образуются в слуховых системах восприятия звуков и в спектроанализаторах. Понимание этого явления хорошо описал Фурье.

Он доказал - когда возникает необходимость описания поведения сложной структуры волн разной природы, то не обязательно чётко описывать (предсказывать) движения самой волны,

форма которой очень изменчива и трудно описывается. А достаточно сначала математически

представить исходную волну в виде суммы отдельных сигналов гармонического типа, а затем рассматривать распространения каждой гармонической компоненты в отдельности, что -

проще. Сделать это теоретически реально можно. А дальше - рассматривать распространение совокупности волн гармонического типа, теоретическая модель распространения которых хорошо известна, чем описывать поведение изначальной волны произвольной формы.

Таким образом, сначала надо исходную речевую волну у источника её образования (у

губ) разложить на совокупность сигналов гармонического типа. И затем рассмотреть - как будет распространяться каждая гармоника в отдельности (учитывая, что она никогда не изменяет свою форму, и значение её частоты остаётся инвариантной). В итоге - в точке приёма (прослушания) звуковой волны - снова сложить все модельные гармонические компоненты и получить итоговый сигнал. Полученный сигнал будет равен реальному речевому сигналу, претерпевшему все те преобразования, которые возникают при всём множестве отражений и суммирований речевого сигнала с самим собой в реальных акустических условиях. Без такого разложения речевого сигнала на отдельные модельные сигналы гармонического типа описать (предсказать) распространение речевой волны в реальных земных условиях очень сложно, а порой и практически невозможно. Описанная технологическая модель позволяет это сделать теоретически. И это фундаментальное свойство речевых волн, видимо, успешно используется всеми живыми интеллектуальными системами.

Поясним это на следующем примере. На рис. 5 показана сонограмма искусственного сигнала, состоящего из суммы сигналов простейшего импульсного типа (дельта-импульсы),

периодичность следования которых друг за другом меняется. На одном участке периодичность следования этих импульсов примерно равна одной секунде (1 Гц), затем плавно нарастает и достигает периодичности, лучше сказать – частоты – 300 Гц.

Визуализация типичной компьютерной сонограммы – это в действительности покадровое спектральное описание сигнала. На рис. 5 спектральная информация об одном временном кадре звукового сигнала сигнала соответствует одному вертикальному ряду компьютерных пикселей. На том участке, где импульсы следуют очень редко, на сонограмме видны отдельные (изолированные) вертикальные линии. Эти вертикальные линии на сонограмме соответствуют тому временному кадру, в который попал одиночный импульс и ничего более.

Иначе говоря, если во временной кадр попадает только один импульс, то его след на сонограмме будет иметь вид изолированной от соседей вертикальной чёрной линии.

А вот те временные кадры, в которые попадает пара и больше смежных импульсов,

спектральная форма приобретают вид не отельных вертикальных линий, а мы видим рисунок

горизонтальных линий, называемый нами рисунком обертонов голоса. Что происходит? Во временной кадр попадает несколько звуковых импульсов. И рядом с кадром - вне его - также располагаются импульсы примерно с таким же периодом их следования. В итоге в этом временном кадре происходит построение адекватной модели Фурье для периодических сигналов, которая визуализируется с учётом принципа неопределённости Гейзенберга в виде следов сигналов гармонического типа, которые и составляют сам ряд Фурье.

Суть срабатывания принципа неопределённости Гейзенберга такова. Внутри кадра возможна только одна адекватная модель разложения периодического сигнала на сумму сигналов гармонического типа с кратными частотами, равными обратной величине периода следования этих импульсов. Идеально визуализировать значения частот этих модельных сигналов гармонического типа нельзя. Нельзя добиться того, чтобы на сонограмме значения частот модельных сигналов гармонического типа выглядели в виде идеально тоненьких линий. В этом суть принципа неопределённости Гейзенберга для сигналов гармонического типа.

Рис. 5. Осциллограмма (вверху) и сонограмма (внизу) частотно модулированных импульсов.

Получается вывод – обертона не продуцируются голосовыми складками «поштучно», а

образуются в слуховой системе (в системе спектрального описания сигнала). Но обязательно следует отметить, что первопричиной их образования является факт почти строгой периодичности работы голосовых складок. Если не будет высокой степени периодичности работы голосовых складок, то не будут появляться и обертона голоса. Это явление обнаруживается у тех людей, у которых голосовые связки не могут работать строго