Методы формирования наборов признаков для распознавания речевых единиц

Чтобы получить вектора признаков для дискретного сигнала x (n)
(0£ n £ N -1), он разбивается на фреймы длиной D N. Длина фрейма для анализа РС выбирается с учетом периода основного тона и согласно составляет около 20 мс.

Для классификации звуков на основе на каждом m -ом фрейме РС формируются наборы векторов признаков . Наиболее используемые признаки для распознавания РС сведем в результирующую таблицу 1.2:

 

Таблица 1.2 – Наборы признаков, используемых для распознавания звуков речи

На основе спектра Фурье (D N – ширина окна анализа)
  Энергия спектра (представляет собой скалярную величину)
  нормированный энергетический спектр
  кумулятивное отношение   , , , E - полная энергия сигнала
На основе вейвлет-спектра (jmin, jmax, – минимальный и максимальный уровни разложения, N – длина сигнала)
  мера контрастности ,

 

На основе кепстрального анализа
  коэффициенты кепстра , , где: D N – ширина окна анализа, Х – коэффициент спектра Фурье  
  мел-частотные кепстральные коэффициенты (MFCC) , , где: L – количество мел-полос, w (k) – оконная функция Бартлета, – границы l -той полосы, – четное число.
На основе КЛП
  коэффициенты предсказателя порядка p ,
  нормированная автокорреляция сигнала ,
  коэффициенты отражения КЛП ,
  площади поперечных сечений акустической трубы , A 1=1,
  нормированная автокорреляция КЛП ,
  нормированный сглаженный энергетический спектр КЛП , ,
  кепстр импульсной характеристики , ,

 

Компоненты вектора признаков сегмента РС получаются усреднением соответствующих компонент векторов признаков по всем фреймам, входящим в сегмент РС.

 

Содержаниеотчета

Отчетдолженсодержать:

1. Постановку задачи.

2. Экранные формы, демонстрирующие результаты работы программы.

3. Выводы. В выводах необходимо оценить сглаженность нормированного сглаженного энергетического спектра КЛП при р =50 и р =100, проанализировать, при использовании какого из наборов признаков и для какой пары фонетических классов наилучшая разделимость, привести экранную форму окна визуального анализа эффективности признаков на соответствующей паре классов.

4. Листинг программы.

5. Приложение к отчету – файл с базой данных, содержащей обучающую выборку для дальнейшего распознавания.

 


 

Лабораторнаяробота№2

Тема: реализация системы предварительной обработки речи: VAD-алгоритма и алгоритма сегментации речевого сигнала.

Цель: приобрести практические навыки использования энергетических характеристик вейвлет-спектра для выделения границ речи и сегментации РС.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: