Методы представления речевого сигнала на основе кепстрального анализа и кодирования с линейным предсказанием

При обработке РС в системах распознавания используют упрощенную модель, основанную на предположении, что РС – результат свертки сигнала возбуждения последовательностью импульсов либо случайным шумом и импульсной характеристики линейного фильтра с медленно изменяющимися параметрами, представляющего собой голосовой тракт. Такая задача разделения компонент, участвующих в операции свертки, называется гомоморфной обработкой сигнала или кепстральным анализом.

Кепстр представляет собой обратное Фурье-преобразование логарифма мощности сигнала [5]:

, .  

Модификация кепстра применяется для вычисления MFCC, широко используемых в системах распознавания в качестве векторов признаков РС. Признаки, построенные на основе MFCC, учитывают психоакустические принципы восприятия речи, поскольку используют мел-шкалу, связанную с критическими полосами слуха – теми полосами, на которые слуховой анализатор разделяет весь спектр частот. В связи с чем вводится шкала частот, для которой расстоянию в одну критическую полосу соответствует 1 барк (табл. 1.1). Для мел-шкалы границы полос соответствуют центральным частотам барк-шкалы.

Таблица 1.1 – Значения центральных частот и границ полос барк-шкалы

Центральная частота, Гц Границы полос, Гц Центральная частота, Гц Границы полос, Гц
    0-100     1720-2000
    100-200     2000-2320
    200-300     2320-2700
    300-400     2700-3150
    400-510     3150-3700
    510-630     3700-4400
    630-770     4400-5300
    770-920     5300-6400
    920-1080     6400-7700
    1080-1270     7700-9500
    1270-1480     9500-12000
    1480-1720     12000-15500
    1720-2000     15500-…

 

MFCC вычисляются следующим образом.

1. Сигнал разбивается на L фреймов длиной . Для n -го фрейма выполняется свертка сигнала с оконной функцией w (n) и вычисляется спектр Фурье

, ,

.

2. Для n -го фрейма на i -ой мел-частотной полосе () вычисляется логарифмированная энергия

где – треугольное окно (Барлета),

– четное число,

– границы частотных диапазонов i -ой полосы,

P – количество мел-полос.

3. Для n -го фрейма вычисляется MFCC, используя обратное дискретное косинусное преобразование

, .  

Кепстральные коэффициенты чувствительны к шумам и искажениям сигнала. В связи с чем в системах распознавания используют методы сглаживания спектральных характеристик сигнала. Одним из самых широко используемых методов сглаживания является метод КЛП.

В этом методе спектр моделируется как авторегрессионый процесс и передаточная функция голосового тракта представляется в виде:

,

где G – коэффициент усиления модели,

– коэффициенты линейного предсказания,

p – порядок предсказателя.

Линейный предсказатель с коэффициентами определяется как система, на выходе которой выполняется равенство

.

Задача анализа на основе КЛП заключается в непосредственном определении параметров по РС с целью получения оценок его спектральных свойств. Вследствие изменения свойств РС во времени коэффициенты предсказания оцениваются на коротких фреймах.

Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать средний квадрат погрешности предсказания

,

что приводит к системе из p линейных уравнений с p неизвестными. Для подсчета коэффициентов предсказания используется автокорреляционный метод, который позволяет предсказать коэффициенты с помощью рекурсии Левинсона-Дарбина на основе автокорреляционной функции

, .

Используемые в методе коэффициенты отражения

, ,

где j -й коэффициент и - погрешность предсказания для линейного предсказателя порядка i, однозначно определяют форму кусочно-постоянной акустической трубы, содержащей (p +1) цилиндрическую секцию фиксированной длины. Процессы в этой трубе – распространение плоской акустической волны, а площади A поперечных сечений соседних секций связаны коэффициентами отражения согласно

, A 1=1, .

Пусть – автокорреляционная функция, где n – номер фрейма РС, i – порядок линейного предсказателя; j -й коэффициент линейного предсказателяпорядка i; i -й коэффициент отражения; - среднеквадратичная погрешность предсказания для линейного предсказателя порядка i,p – порядок предсказателя.

Коэффициенты линейного предсказания , согласно алгоритму Дарбина, вычисляются следующим образом:

 

 

Окончательное решение принимает вид:

 

Для устойчивости линейной системы с передаточной функцией K (z) требуется выполнение условия:

 

С помощью коэффициентов КЛП, автокорреляционной функции и автокорреляционной функции коэффициентов КЛП

, , =1  

по формуле (1.8) вычисляется сглаженный энергетический спектр, который используется в системах распознавания в качестве признаков РС.

 

, . (1.8)

 

Другим представлением сигнала является кепстр импульсной характеристики системы линейного предсказания, который получается с помощью рекурсивных соотношений

, ĥ (0)= a 0, .

 

На основе описанных методов и алгоритмов параметризации РС формируются различные наборы признаков для его распознавания.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: