Краткиетеоретическиесведения. Методы выделения речи изРСи сегментации используют спектральное представление сигнала и его энергетические характеристики

Методы выделения речи изРСи сегментации используют спектральное представление сигнала и его энергетические характеристики.

Используемдля анализа сигнала энергию вейвлет-коэффициентов разложения сигнала по базису Добеши2-го порядка:

а) энергия спектра сигнала на m- ом уровне разложения:

(2.1)

VAD-алгоритм основан на оценке величины энергии коэффициентов (2.1) фреймов сигнала в определенном диапазоне масштабов и состоит из трех этапов: вычисление порогов по образцу фона (обучение); маркировка фреймов сигнала; определение границ слова.

Входные данные:

x (n) – сигналы, содержащий и не содержащий шум;

p (n)- образцы фона.

Выходные данные:

L, R - номера отсчетов сигнала, соответствующие левой и правой границам слова;

1. Обучение: вычисление порогов
2. Маркировка фреймов
3. Нахождение границ слова
L, R, a,b
x (n) p (n)

a, b - пороги, полученные по множеству фреймов сигнала p (n).

Обобщенная схема процедуры предварительной обработки сигнала

 

Обучение включает в себя вычисление порогов для дальнейшей классификации фреймов на классы:

- шумный глухой смычный звук (P) или фон;

- вокализованный звук (Voc);

- шумный глухой щелевой или смычно-щелевой звук (Sh).

Разделение вокализованных и невокализованных звуков выполняется на масштабе исследования ja, соответствующий частоте основного тона. Энергия вейвлет-коэффициентов (2.1) этого уровня разложения у невокализованных звуков близка к нулю, т.е. не превосходит некоторого порога a. В то же время шумные глухие щелевые (смычно-щелевые) звуки характеризуются большой энергией в высокочастотной области спектра (превосходящей порог b). Обозначим jb уровень разложения, который соответствует этой области спектра. Масштаб исследования jb позволяет разделить классы звуков Sh и P.

На рисунке 2.1 показан результат фильтрации вейвлетамиДобеши на масштабах ja и jb сигнала «Саша», не содержащего шум (рис. 2.1а). На уровне ja (ja =1) четко выделяются шумные глухие щелевые (смычно-щелевые) звуки (рис. 2.1б), на уровне разложения jb (jb =6) – вокализованные звуки (рис. 2.1в).

Пороги a и b получают по вейвлет-коэффициентам разложения по базису Добеши записанного фона (звукового сигнала p (n), содержащего только шум аппаратуры) путем вычисления энергии каждого s -го фрейма:

, , , (2.2)

где – множество фреймов, на которые разбивается сигнал p (n), содержащий образец фона, – максимальный уровень разложения БВП.

Длина фрейма составляет около 20 мс, для частоты дискретизации 22050 Гц длина фрейма равна 512 отсчетам.

 

 

Рис.2.1. а) АВП сигнала «Саша» частота дискретизации 22050 ГЦ,
б) коэффициенты разложения сигнала по вейвлетуДобеши 4-го порядка на уровне 1, в) коэффициенты разложения сигнала по вейвлетуДобеши 4-го порядка на уровне 6.

 

На уровнях разложения и вычисляются средние величин :

,

 

а также их смещенные оценки дисперсии

,

 

Тогда пороги a и b вычисляется согласно формулам:

,

На этапе маркировки фреймов считается энергия сигнала на каждом s -ом фрейме по всем уровням разложения:

, ,

после чего проводится классификация по правилам:

Результатом классификации фреймов является функция их маркировки:

,

которая затем корректируется согласно правилу

,

где – число фреймов, соответствующее минимальной длине фонемы.

На основе полученной функции маркировки Mark (s) проводится третий этап – определение границ слова. Этот этап состоит в нахождении номеров отсчетов сигнала – L и R, являющихся левой и правой границами слова:

,

где – число фреймов, соответствующее максимальной длине шумного глухого смычного звука.

Таким образом, определение границ слова осуществляется с одновременной первичной сегментацией РС и классификацией сегментов, что позволяет повысить эффективность дальнейшего распознавания.

 

Содержаниеотчета

Отчет должен содержать:

1. Постановку задачи.

2. Графическое отображение результатов работы VAD-алгоритма.

3. Оценки точности алгоритма сегментации в виде таблицы

Точность выделения звуков класса Voc, % Точность выделения звуков класса Sh, % Точность выделения звуков класса Р, %

 

4. Выводы. В выводах необходимо проанализировать, на каких уровнях разложения отделяются звуки различных фонетических классов и почему, каким диапазонам частот соответствуют эти уровни.

5. Листинг программы

 


 

Лабораторнаяробота№3

Тема: разработка инструментария для построения классификаторов сегментов речевого сигнала.

Цель: научиться строить модели классификаторов для речевых сигналов на основе вероятностного подхода и искусственных нейросетей (ИНС), приобрести практические навыки использования скрытых марковских моделей (СMM) и многослойного перцептрона для задач пофонемного распознавания речи.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: