Методы исследования речи

Методы исследования механизмов речеобразования и анализа речевых сигналов достаточно разнообразны. Это и психофизические методы (исследование порогов различения близких друг к другу фонем, методы неметрического и многомерного шкалирования с моделированием «речевого пространства»), и методы синтеза искусственной с помощью различных технических устройств и т.д. Наибольшее же распространение в последние десятилетия приобрел метод спектрального ( частотно-амплитудного) анализа человеческой речи, который состоит в расщеплении речевого потока на отдельные субъединицы (фонемы и их сочетания) и анализе их амплитудно-временных составляющих по той же схеме, что указана на рисунке 1.

Основы речеобразования и анализ речевых сигналов

Речь генерируется взаимосвязанной и согласованной работай ряда органов и частей тела, которые получили название речедвигательной системы. речедвигательную систему можно представить себе как систему, состоящую из трех взаимосвязанных блоков: легких и дыхательной мускулатуры; голосовых связок и вспомогательного аппарата.

Легкие и дыхательная мускулатура играют роль кузнечных мехов, нагнетающих воздух в воздухоносные пути. В отличие от спокойного, безмолвствующего состояния человека во время разговора характер дыхательных движений изменяется: вдох становится более глубоким – субъект как бы запасает дополнительный воздух и затем выпускает его парциально, частями. Таким образом, органы грудной клетки поддерживают давление постоянным в речевом тракте и обеспечивают амплитудную модуляцию звукового сигнала. Работу легких и управляющей ими мускулатуры в этом плане можно зарегистрировать и исследовать с помощью относительно простого метода пневмографии.

Голосовые связки формируют основную частоту голоса. Регулируя просвет голосовой щели, они генерируют близкие тональные звуки достаточно низкой частоты (у взрослого мужчины от 80 до 150Гц, у женщины 120-400Гц).

Вспомогательный аппарат (верхние дыхательные пути, твердое и мягкое небо, ротовая и носовая полость, язык, губы, зубы) лишь условно можно назвать вспомогательным, так как здесь окончательно формируются звуки речи. При формировании гласных фонем воздухоносные пути открыты, и потоки воздуха не встречают существенных препятствий. Несущая частота голоса претерпевает лишь некоторую модификацию за счет образования турбулентных потоков и изменения просвета воздухоносных путей. Согласные же фонемы формируются за счет создания определенных преград и включают существенную примесь шумов. Так различают губные, губно-зубные, небно-язычные и другие фонемы.

Таким образом, частотный интервал воспринимаемых речевых звуков ограничен скорее анатомией голосового аппарата, нежели потенциальными возможностями слуха. Человеческая речь является результатом функционирования голосовых связок и голосового тракта, образованного полостями рта, гортани и носа. Возникновение звуковых волн является результатом колебания воздуха, вызванного движением голосовых связок. Потенциальная возможность варьирования частоты этих волн зависит от ряда факторов. Возникновение звуков разных частот — результат сочетания индивидуальных особенностей голосового тракта и определенного положения языка, губ, щек и челюстей.

Многие речевые звуки, в том числе многие гласные звуки, — низкочастотные (их частота менее 1000 Гц), т. е. они попадают в разряд звуков, к которым человеческий слух менее чувствителен. Однако частоты большинства согласных звуков, играющих ключевую роль в восприятии речи, лежат в интервале от 1000 до 5000 Гц, т. е. в том интервале частот, к которому люди наиболее чувствительны.

Интервал интенсивности генерируемых человеком звуков также узок: разница между самым тихим звуком (шепотом) и самым громким звуком (криком), свойственными человеческому голосу, составляет приблизительно 70 дБ. Энергетические уровни и шепота, и крика далеки от пределов возможностей человеческого слуха. Долгое время не получал своего решения вопрос об инвариантности восприятия фонем. Так, предположим, достаточно простой звук [а:] мы можем произносить шепотом или громко выкрикивать; ребенок может произносить этот звук тоненьким дискантом, а мужчина – низким басом. Несмотря на это, мы воспринимаем этот звук инвариантно – именно как [а:], и ничто другое.

Давайте ответим на вопрос: почему это возможно? Что позволяет нам воспринимать звук инвариантно?

Чтобы понять нашу способность к тонкому различению слов, необходимо рассмотреть индивидуальные звуки языка. Основная единица речи, как уже отмечено выше, называется фонемой. Фонема — это наименьшая единица звуков речи, благодаря которой можно отличить одно слово от другого.

Сами по себе фонемы лишены смысла, а некоторые из них вообще не произносятся, но в сочетании с другими фонемами они образуют слоги и слова. Например, слово кот образовано тремя фонемами: [k], [о] и [t]. Заменив за один раз только одну из этих фонем другими, можно получить целый ряд новых слов, имеющих совершенно иное значение, чем исходное слово, и отличающихся от него только одной фонемой (кит, гот, код).

В зависимости от того, как именно используется голосовой аппарат при произнесении звуков, образующих фонемы, звуки подразделяются на гласные и согласные. В произнесении гласного звука «задействованы» голсовые связки, резонанс полостей гортани и открытый рот. При произнесении гласных положение языка, губ и мягкого нёба таково, что воздух проходит через полость рта, не встречая препятствий. Гласные звуки более продолжительны по звучанию, чем согласные и громче их, хотя громкость гласных изменяется в широких пределах. Частота почти всех гласных звуков ниже 3000 Гц, а частота таких согласных звуков, как, например, ch или s, превосходит 3000 Гц.

Понять природу инвариантности фонем позволил спектральный (амплитудно-частотный) анализ звуков речи. Для анализа фонем и их сочетаний используют те же координаты, что и на рисунке 1, то есть соотношение амплитуд и сигнала на разных частотах. Пример анализа одной из наиболее простых по своему строению фонем представлен на рис.2.

Как видно из рисунка, анализируемая фонема включает себя достаточно широкий спектр частот, вклад каждой из которых – соответствующий уровню звукового давления – неодинаков.

Рис. 2. Диаграмма спектрального анализа одной из простых гласных фонем: по оси абсцисс – частота звуковых колебаний, по оси ординат – уровень звукового давления; F₁ b F₂ – первая и вторая форманты.

В диаграмме можно выделить два амплитудных пика, называемых формантами. Наиболее сложные фонемы могут включать в себя до семи таких формант. Именно форманты и их взаимное расположение в спектре обеспечивают основу звучания той или иной фонемы; все же остальные (неформантные) составляющие обуславливают тембр, окраску звучания. При изменения интенсивности или тональности голоса все спектральные составляющие могут смещаться – соответственно по горизонтали и вертикали , но характер целостного спектра, а следовательно, и взаимное расположение формант, остаются приблизительно одинаковыми, что и обуславливает инвариантность тех или иных фонем и их сочетаний.

<<< < Предыдущая 12 / 72 3 4 5 6 7 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
15.11.2019177.99 Кб3Лекция2_Основы_программирования.docx
#
22.11.2019328.03 Кб5Лекция_4_Мак.docx
#
16.11.2019550.4 Кб54лекция_ОФК.doc
#
22.02.2015545.79 Кб136лекция_ОФК.doc
#
08.05.2019542.72 Кб40лекция_ОФК.doc
#
10.07.2019290.3 Кб1Лекция_по_восприятию_речи1.doc
#
01.05.2019124.42 Кб22лесные пожары.doc
#
13.03.2016285.94 Кб33лингвистический_анализ_п.pdf
#
22.02.2015517.38 Кб16Линейная алгебра_Подготовка к экзамену_2013.docx
#
20.07.2019316.49 Кб70Линейная организационная структура управления.docx
#
22.02.2015144.38 Кб35Липатов к тесту.doc