Определение гауссовой смеси

В отличие от скрытых марковских моделей, GMM игнорирует временную информацию об акустической наблюдаемой последовательности и содержит состояния, отражающие различные акустические классы.

Для каждой фонемы создается модель, представленная на рис.3.1, которая определяет вероятность принадлежности фрейма этой фонеме.

Рис.3.1. Гауссова смешанная модель для одной фонемы

 

Для одного фрейма сигнала для одной фонемы (рис.3.1) GMM представлена в виде

,

где – вектор признаков фрейма,

– веса, , ,

, –многомерное распределение Гаусса,

– вектор математических ожиданий размерности ,

– диагональная ковариационная матрица размерности ,

– количество состояний фонемы, обычно (начало, середина, конец), – длина вектора признаков,

– вектор параметров ГСМ.

Для всего сигнала для одной фонемы учитываются результаты распознавания всех фреймов. Функция максимального подобия (ML) представлена в виде

,

где – количество фреймов сигнала, .

Алгоритм обучения параметров EM (максимизации ожидания)

1. Инициализация весов , параметров (например, случайно)

2. Получить очередной вектор сигнала

3. Вычислить матрицу условных вероятностей

,

, ,

4. Вычислить новые весовые коэффициенты

,

5. Вычислить новые средние

,

6. Вычислить новую диагональную ковариационную матрицу

,

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: