Методы и средства акустического анализа речи

Звуковые колебания можно слышать, но их нельзя видеть и непосредственно подвергнуть каким-то физическим измерениям. Акустический анализ речевого сигнала связан с предварительным преобразованием звуковых колебаний в электрические; это осуществляется с помощью микрофона. Полученная электрическая копия и создает тот сырой физический материал, который может подвергаться дальнейшему акустическому

В акустической фонетике используются определенные технические средства для записи и визуализации речевого сигнала, точнее, его электрической копии. Огромное количество сведений об акустике речи было получено с помощью электротехнических приборов, которые позволяли осуществлять не только запись и визуализацию звуковых колебаний, но и акустический анализ речевых отрезков. В настоящее время такие приборы все чаще вытесняются компьютерной техникой и специальными компьютерными программами анализа речи. Компьютерные методы значительно расширяют технический арсенал акустической фонетики, не говоря уже о сокращении времени на проведение фонетических исследований. Однако компьютер и программы — это всего

лишь новый мощный инструмент получения акустических данных, основные типы которых — осциллограммы и спектрограммы речи — остаются прежними.

запись речевого сигнала

Осциллографическая запись, или просто осциллограмма, речевого сигнала (от лат. "колебание" грамма "запись") представляет собой график, который показывает, как изменяется амплитуда звукового давления во времени при произнесении речевого отрезка. Иначе говоря, это графическое представление звуковых колебаний как таковых, изображение функции P(t), где Р — звуковое давление, время. Существуют разные инструментальные средства для получения осциллографической записи речи. В докомпьютерную эпоху для этого использовались осцилло Записи, получаемые с их помощью, называются аналоговыми, поскольку они представляют собой непрерывную фиксацию электрического аналога речевого сигнала. В настоящее время осциллограммы, как правило, получают с помощью компьютерных средств. Компьютер должен быть снабжен особым устройством - звуковой картой (платой). Это устройство измеряет амплитуду электрической копии сигнала через очень короткие промежутки времени (обычно ООО или 22 ООО раз в секунду) и преобразует каждый результат измерения (или амплитудный отсчет, англ. sample) в цифровой код, который хранится в памяти компьютера. На основании этих измерений и строится осциллограмма, которую можно увидеть на экране монитора. Звуковую карту называют также аналого-цифровым преобразователем (англ. analogue-to-digital converter или сокращенно "A-D"), а получаемые с его помощью осциллограммы — цифровыми. Обычно звуковая карта имеет и обратный цифро-аналоговый преобразователь (англ. digital-to-analogue converter или сокращенно с помощью которого цифровое представление сигнала преобразуется в электрические колебания и затем через громкоговоритель — в звуковые. Благодаря таким преобразованиям речевой сигнал можно не только "записать", превратив в последовательность амплитудных измерений, но и прослушать.

Осциллограммы содержат довольно много информации о речевом сигнале. Поскольку основные классы звуковых единиц соотносятся с различиями в источниках звука, по осциллограмме можно установить принадлежность тех или иных фрагментов сигнала к этим основным классам. Рассмотрим с этой точки зрения осциллограмму, приведенную на рис. Отрезок АВ соответствует длительному турбулентному шуму глухого согласного [с]. Отрезки ВС, и имеют периодическую структуру и соответствуют гласным, образованным с помощью голосового источника. На рис. 3.18 видно, что гласные довольно сильно различаются по длительности и амплитуде колебаний. Отрезок также имеет периодическую структуру, порождаемую голосовым источником. Этот акустический фрагмент соотносится со звонкой смычкой согласного видно, что по амплитуде он сильно контрастирует с соседними гласными. Отрезок соответствующий взрыву выделить довольно трудно из-за его краткой длительности. Глухая смычка согласного которая характеризуется отсутствием какого-либо источника звука, отображается отрезком имеющим нулевую амплитуду. Отрезок соответствует взрывному отступу [к], в котором при большем масштабе рассмотрения можно было бы выделить несколько импульсов и последующую турбулентную фазу. Однако далеко не все речевые отрезки имеют звуковую структуру, которая так просто отражается на осциллограмме. Для сопоставления на рис. приведена осциллограмма слова малина, в котором все звуки образованы с помощью голосового источника. Здесь тоже можно наметить границы между звуками, опираясь на различия в амплитуде и зная, что сонорные согласные обычно менее интенсивны, чем гласные. Очевидно, однако, что границы на этой осциллограмме менее резкие и отчетливые (см. ниже рис. на котором приводится членение осциллограммы и спектрограммы этого слова).

Существенный недостаток осциллограмм состоит в том, что по ним трудно, а порой и невозможно определить акустические характеристики, которыми звуки одного класса (с одним и тем же источником) отличаются друг от друга. Такие характеристики задаются передаточной функцией речевого тракта и могут быть получены только из спектрального представления речевого сигнала.

3.3.2. Спектральное представление речевого сигнала

Спектрограммой (от лат. spectrum "видимое" грамма "запись") называется графическое изображение спектра звуковых колебаний. В акустической фонетике рассматриваются только амплитудно-частотные спектры звуков P(f) и соответствующие им спекторгаммы Такие спектрограммы показывают относительную амплитуду (или интенсивность) частотных составляющих звука или, что то же самое, распределение общей энергии звукового колебания по частотам.


Классификация звуков речи

Артикуляционно все звуки речи делятся на гласные и согласные. В числе основных различий этих двух категорий звуков как минимум нужно назвать:

Положение органов речи. При гласных речевой канал открыт, так что выходящая струя не встречает на своем пути препятствий. При согласных на пути выдыхаемой воздушной струи всегда образуется в определенном месте речевого канала преграда той или иной формы (ср: [а-а-а, о-о-о], с одной стороны, и [п,т,к] – с другой стороны).

Различие в напряженности органов речи. При образовании гласных наблюдается разлитое напряжение всего произносительного аппарата. При образовании согласных напряжение имеет место только в определенной точке речевого канала: иными словами, гласные характеризуются нелокализованной (несфокусированной) артикуляцией, согласные – локализованной (сфокусированной) артикуляцией.

Разницу в подаваемой из легких воздушной струе: при гласных она совсем слабая, при согласных – сильная, в особенности при глухих согласных.

Некоторые языковеды противопоставляют гласные согласным по степени раствора челюстного угла, квалифицируя гласные как «рторазмыкатели», а согласные – как «ртосмыкатели».


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: