Исследование статистических характеристик фонем различных классов в процессе кодирования речи

4.1.1 Исследование гласной фонемы «У»

Для исследования использовался алгоритмический макет, выполненный с помощью разработанной программы в среде MATLAB. На рис. 4.1 представлен сигнал фонемы «У», поступающий на вход блока LPC. Как видно из графика, сигнал гласной является стационарным процессом. В нем присутствует колебания с несколькими различными частотами, что проявится в форме корреляционной функции и СПМ.

Рисунок 4.1 – Мгновенные значения фонемы «У»

Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 4.2. Как видно из графика период основного тона составляет 130 отсчетов. В корреляционной функции также присутствуют колебания с различной частотой. Это приводит к росту порядка модели АР и многомодовости параметрической СПМ. Большой интервал затухания корреляционной функции свидетельствует об узкополосности сигнала фонемы «У». Квазипериодичность корреляционной функции свидетельствует о квазидетерминированности гласных фонем.

Рисунок 4.2 – Корреляционная функция фонемы «У»

На рис. 4.3 представлена СПМ, полученная преобразованием Фурье от корреляционной функции фонемы (рис. 4.2). Из графика видно наличие нескольких низкочастотных мод (150 – 400 Гц). Дисперсия оценки значительна, т.к. не использовалось сглаживающее окно.

Рисунок 4.3 – СПМ фонемы «У», полученная преобразованием Фурье корреляционной функции

Параметрическая оценка спектра на основе модели авторегрессии 16 порядка представлена на рис. 4.4. Как видно из графика параметрический спектр АР(16) фонемы имеет две основные моды на частотах (примерно 200 Гц и 2400 Гц). Сравнение графиков спектра на рис. 4.3 и 4.4 показывает достоинство параметрической оценки спектра, имеющей меньшую дисперсию. Однако для 16 порядка отсутствует разрешение пика в районе 200 Гц. Для повышения разрешающей способности на рис. 4.5 приведен график СПМ, полученный по АР(50). Анализ графика показывает наличие двух мод на низкой частоте (рис. 4.3). Однако при высоких порядках проявляется недостаток параметрических спектров, заключающийся в появлении ложных пиков небольшой высоты. Поэтому для сложных сигналов с многомодовым спектром и близко расположенными пиками необходимо тщательно подбирать порядок модели.

Рисунок 4.4 - Параметрическая СПМ фонемы «У» найдена по модели авторегрессии при р=16

Рисунок 4.5 - Параметрическая СПМ фонемы «У» найдена по модели авторегрессии при р=50

В процессе кодирования фонемы сигнал подвергается обелению. Восьмизвенный решетчатый фильтр краткосрочного предсказания существенно преобразовывает входной коррелированный процесс в квазишумовой сигнал. Т.к. в кодере речи стандарта GSM порядок фильтра не адаптируется к кодируемому процессу, то на выходе LPC сигнал не является истинным белым шумом. Таким образом, на выходе фильтра получается не ошибка предсказания, а частично коррелированный остаток предсказания. Мгновенные значения остатка предсказания на выходе блока LPC представлены на рис. 4.6. Как видно из графика, процесс является существенно обеленным.

Рисунок 4.6 - Сигнал фонемы «У» на выходе блока LPC

Частичная коррелированность остатка предсказания фонемы «У» видна на графике корреляционной функции, представленной на рис. 4.7. На близость анализируемого процесса к белому шуму указывает быстрое спадание к нулю корреляционной функции при малых сдвигах. В то же время наличие значительных колебаний корреляционной функции вокруг нулевой линии свидетельствует о наличии слабой корреляции. Значительные пики для сдвигов 130, 260 отсчетов указывают на наличие периода основного тона в корреляционной функции остатка предсказания. Это связано с тем, что восьмизвенным фильтром невозможно обелить процесс, имеющих колебания с большим периодом (для фонемы «У» 130 отсчетов).

Рисунок 4.7 – Корреляционная функция фонемы «У» на выходе блока LPC

Спектр Фурье фонемы «У» на выходе блока LPC представлен на рис. 4.8. Как видно из графика, он несколько отличается от равномерного спектра белого шума. Аналогичный вид (рис. 4.9) имеет СПМ, полученная по модели АР(50).

Рисунок 4.8 – Спектр Фурье фонемы «У» на выходе блока LPC

Рисунок 4.9 - Параметрическая СПМ фонемы «У» найдена по модели авторегрессии при р=50

При прохождении остатка предсказания фонемы «У» через трехзвенный решетчатый фильтр долговременного предсказания происходит его дальнейшее обеление. Это наглядно видно из графика корреляционной функции остатка предсказания на выходе блока LTP, показанного на рис. 4.10. Анализ графика показывает уменьшение дисперсии корреляционной функции. Однако пики с периодом основного тона остаются значительными.

Рисунок 4.10 – Корреляционная функция фонемы «У» на выходе блока LTP

Параметрическая оценка спектра остатка предсказания на выходе блока LTP показана на рис. 4.11. Из графика видно наличие слабых пиков, особенно на низких частотах. Отличие остатка предсказания от белого шума требует его передачи после прореживания на приемник мобильной станции абонента.

Рисунок 4.11 – Параметрическая СПМ фонемы «У» на выходе блока LTP

4.1.2 Исследование полугласной фонемы «Р»

На рис. 4.12 представлен сигнал фонемы «Р» на входе блока LPC. Как видно из графика, сигнал полугласной является квазистационарным процессом. В нем присутствует колебания с несколькими различными частотами, что проявится в форме корреляционной функции и СПМ.

Рисунок 4.12 – Мгновенные значения фонемы «Р»

Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 4.13. Как видно из графика период основного тона определить для этой фонемы сложно. В корреляционной функции присутствуют неоднородные низкочастотные колебания. Большой интервал затухания корреляционной функции свидетельствует об узкополосности сигнала фонемы «Р». Квазипериодичность корреляционной функции свидетельствует о квазидетерминированности полугласной фонемы.

Рисунок 4.13 - Корреляционная функция фонемы «Р»

На рис. 4.14 представлена СПМ, полученная преобразованием Фурье от корреляционной функции фонемы (рис. 4.13). Из графика видно наличие нескольких низкочастотных мод (150 – 250 Гц). Дисперсия оценки значительна, т.к. не использовалось сглаживающее окно.

Рисунок 4.14 – СПМ фонемы «Р», полученная преобразованием Фурье корреляционной функции

Параметрическая оценка спектра на основе модели авторегрессии 10 порядка представлена на рис. 4.15. Как видно из графика параметрический спектр АР(10) фонемы имеет основную моду на частоте примерно 200 Гц. Сравнение графиков спектра на рис. 4.14 и 4.15 показывает достоинство параметрической оценки спектра, имеющей меньшую дисперсию. Для повышения разрешающей способности, получен спектр по модели АР(16) (рис.4.16). Однако и для 16 порядка отсутствует разрешение пика в районе 200 Гц. Однако при высоких порядках проявляется недостаток параметрических спектров, заключающийся в появлении ложных пиков небольшой высоты. Поэтому для сложных сигналов с многомодовым спектром и близко расположенными пиками необходимо тщательно подбирать порядок модели.

Рисунок 4.15 - Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=10

Рисунок 4.16 - Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=16

Восьмизвенный решетчатый фильтр краткосрочного предсказания преобразовывает входной коррелированный процесс в квазишумовой сигнал. Т.к. в кодере речи стандарта GSM порядок фильтра не адаптируется к кодируемому процессу, то на выходе LPC сигнал не является истинным белым шумом. Таким образом, на выходе фильтра получается не ошибка предсказания, а частично коррелированный остаток предсказания. Мгновенные значения остатка предсказания на выходе блока LPC представлены на рис. 4.17. Как видно из графика, процесс является существенно обеленным.

Рисунок 4.17 - Мгновенные значения фонемы «Р» на выходе блока LPC

Частичная коррелированность остатка предсказания фонемы «Р» видна на графике корреляционной функции, представленной на рис. 4.18. На близость анализируемого процесса к белому шуму указывает быстрое спадание к нулю корреляционной функции при малых сдвигах. В то же время наличие значительных колебаний корреляционной функции вокруг нулевой линии свидетельствует о наличии слабой корреляции.

Рисунок 4.18 – Корреляционная функция фонемы «Р» на выходе блока LPC

Спектр Фурье фонемы «Р» на выходе блока LPC представлен на рис. 4.19. Как видно из графика, он несколько отличается от равномерного спектра белого шума. Аналогичный вид (рис. 4.20) имеет СПМ, полученная по модели АР(16).

Рисунок 4.19 - СПМ фонемы «Р» на выходе блока LPC

Рисунок 4.20 - Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=16

При прохождении остатка предсказания фонемы «Р» через трехзвенный решетчатый фильтр долговременного предсказания происходит его дальнейшее обеление. Это наглядно видно из графика корреляционной функции остатка предсказания на выходе блока LTP, показанного на рис. 4.21. Анализ графика показывает уменьшение дисперсии корреляционной функции.

Рисунок 4.21 – Корреляционная функция фонемы «Р» на выходе блока LTP

Параметрическая оценка спектра остатка предсказания на выходе блока LTP показана на рис. 4.22. Из графика видно наличие слабых пиков, особенно на низких частотах. Отличие остатка предсказания от белого шума требует его передачи после прореживания на приемник мобильной станции абонента.

Рисунок 4.22 - Параметрическая СПМ фонемы «Р» по модели авторегрессии при р=16 на выходе блока LTP

4.1.3 Исследование согласной носовой фонемы «М»

На рис. 4.23 представлен сигнал фонемы «М» на входе блока LPC. Как видно из графика, сигнал согласной носовой является стационарным процессом. В нем присутствует колебания с несколькими различными частотами, что проявится в форме корреляционной функции и СПМ.

Рисунок 4.23 - Мгновенные значения фонемы «М»

Свойства сигнала наглядно видны по изменению корреляционной функции, представленной на рис. 4.24. Как видно из графика период основного тона составляет 125 отсчетов. В корреляционной функции присутствуют неоднородные низкочастотные колебания. Большой интервал затухания корреляционной функции свидетельствует об узкополосности сигнала фонемы «М». Квазипериодичность корреляционной функции свидетельствует о квазидетерминированности согласной носовой фонемы.

Рисунок 4.24 – Корреляционная функция фонемы «М»

На рис. 4.25 представлена СПМ, полученная преобразованием Фурье от корреляционной функции фонемы (рис. 4.24). Из графика видно наличие ярко выраженной низкочастотной моды на частоте 150 Гц. Дисперсия оценки спектра весьма значительна, т.к. не использовалось сглаживающее окно.

Рисунок 4.25 - СПМ фонемы «М», полученная преобразованием Фурье корреляционной функции

Параметрическая оценка спектра на основе модели авторегрессии 10 порядка представлена на рис. 4.26. Как видно из графика параметрический спектр АР(10) фонемы имеет основную моду на частоте примерно 150 Гц. Сравнение графиков спектра на рис. 4.25 и 4.26 показывает достоинство параметрической оценки спектра, имеющей меньшую дисперсию.

Рисунок 4.26 - Параметрическая СПМ фонемы «М» найдена по модели авторегрессии при р=10

Восьмизвенный решетчатый фильтр краткосрочного предсказания преобразовывает входной коррелированный процесс в квазишумовой сигнал. Т.к в кодере речи стандарта GSM порядок фильтра не адаптируется к кодируемому процессу, то на выходе LPC сигнал не является истинным белым шумом. Таким образом, на выходе фильтра получается не ошибка предсказания, а частично коррелированный остаток предсказания. Мгновенные значения остатка предсказания на выходе блока LPC представлены на рис. 4.27. Как видно из графика, процесс является существенно обеленным.

Рисунок 4.27 - Сигнал фонемы «М» на выходе блока LPC

Частичная коррелированность остатка предсказания фонемы «М» видна на графике корреляционной функции, представленной на рис. 4.28. На близость анализируемого процесса к белому шуму указывает быстрое спадание к нулю корреляционной функции при малых сдвигах. В то же время наличие значительных колебаний корреляционной функции вокруг нулевой линии свидетельствует о наличии слабой корреляции.

Рисунок 4.28 – Корреляционная функция фонемы «М» на выходе блока LPC

Спектр Фурье фонемы «М» на выходе блока LPC представлен на рис. 4.29. Как видно из графика, он несколько отличается от равномерного спектра белого шума. Аналогичный вид (рис. 4.30) имеет СПМ, полученная по модели АР(10).

Рисунок 4.29 - СПМ фонемы «М» на выходе блока LPC

Рисунок 4.30 - Параметрическая СПМ фонемы «М» найдена по модели авторегрессии при р=10

При прохождении остатка предсказания фонемы «М» через трехзвенный решетчатый фильтр долговременного предсказания происходит его дальнейшее обеление. Это наглядно видно из графика корреляционной функции остатка предсказания на выходе блока LTP, показанного на рис. 4.31. Анализ графика показывает уменьшение дисперсии корреляционной функции.

Рисунок 4.31 - Корреляционная функция фонемы «М» на выходе блока LTP

Параметрическая оценка спектра остатка предсказания на выходе блока LTP показана на рис. 4.32. Из графика видно наличие слабых пиков, особенно на низких частотах. Отличие остатка предсказания от белого шума требует его передачи после прореживания на приемник мобильной станции абонента.

Рисунок 4.32 - Параметрическая СПМ фонемы «М» на выходе блока LTP

В табл. 4.1 представлены параметры, при которых проводились исследования преобразования фонем в кодере речи, а также результаты расчета коэффициентов отражения фильтров кратковременного и долговременного предсказания. Указаны также порядки модели АР, используемые при построении параметрических спектров. Из таблицы видно, что, несмотря на близость параметрических спектров для многих фонем, коэффициенты отражения имеют заметные отличия. Эти отличия формируют разные фонемы в процессе декодирования речевого сигнала.

2-й вариант

3.2 Структура декодера речи в стандарте GSM

Структурная схема декодера речи в стандарте GSM представлена на рис. 3.6. В декодере речевой сигнал восстанавливается по откликам последовательности регулярного импульсного возбуждения двухступенчатым синтезирующим фильтром.

Рисунок 3.6 - Структурная схема декодера речи стандарта GSM.

Рассмотрим кратко структуру и работу декодера - синтезатора речи показанного на рис. 3.6. Из канала связи данные с помощью демультиплексора распределяются по различным блокам декодера. На блок RPE декодера поступают номер последовательности , максимальное значение импульса выборки , представляющей собой прореженный остаток предсказания. Здесь отсчеты выборки масштабируются и дополняются нулями в точках децимации. Восстановленная таким образом выборка подается на LTP - синтезатор. Его функции выполняет генератор с передаточной функцией . На него подаются с демультиплексора коэффициенты отражения долговременного предсказания и период основного тона . Синтезированный сигнал с восстановленной долговременной составляющей, подается на блок LPC синтезатора, представляющий собой генератор кратковременного предсказания на РФ восьмого порядка с передаточной функцией . Коэффициенты отражения на этот РФ поступают с демультиплексора через преобразователь коэффициента логарифма площади в по формуле

.

Сигнал с выхода LPC-синтезатора для уменьшения шумов квантования поступает на постфильтр, на выходе которого получают декодированный речевой сигнал .

Кодеры с линейным предсказанием создают речь хорошего и отличного качества при скоростях передачи 9,6 кбит/с и выше. При скоростях ниже 9,6 кбит/с качество речи становится хуже из-за увеличения шумов квантования. Для уменьшения их влияния осуществляется так называемая постфильтрация, с помощью которой изменяется спектр речевого сигнала так, что субъективно уменьшает восприятие шума квантования.

Постфильтр получается с помощью LPC - анализатора, в котором содержится инверсный фильтр

.

Рассмотрим взвешенный инверсный фильтр

.

Коэффициент взвешивания не изменяет положение формантных частот, а изменяет только ширину формантных областей. Взвешенный инверсный фильтр определяет полюса фильтра. Нули постфильтра определяет взвешенный инверсный фильтр вида

При этих обозначениях передаточная характеристика постфильтрапримет вид

,

где и - коэффициенты взвешивания; и - порядок взвешивающих фильтров.

Эти параметры постфильтра обеспечивают необходимый вид спектральной характеристики постфильтра и формирование формантных областей. При одних значениях области формант обостряются, при других - расширяются. При значениях постфильтр имеет провалы в местах расположения формант, т. е. происходит искажение формантной структуры. Поэтому должно соблюдаться условие .

Постфильтр распределяет шумы квантования таким образом, что их величина становится больше в формантных областях и меньше междуформантными областями в спектральных впадинах. Таким путем уменьшается субъективное восприятие шума. В местах расположения формант шумы квантования маскируются речевым сигналом.

Но одновременно постфильтр искажает речевой сигнал. Параметры постфильтра выбираются так, чтобы не допустить больших искажений речи и по возможности уменьшить шумы квантования. Параметры постфильтра и были определены экспериментально прослушиванием речи на выходе кодера. Они оказались равными =0.95, =0.5…0.7. При этих значениях и получено повышение сегментального отношения сигнал/шум на 7…8 дБ и повышение разборчивости речи. Таким образом, постфильтрация позволяет не только улучшить качество звучания, но и повысить разборчивость речевого сигнала на выходе кодера.

Теоретически время задержки речевого сигнала в кодеке равно длительности сегмента и составляет 20 мс. Реальное время задержки, с учетом операций канального кодирования и перемежения, а также физического выполнения рассматриваемых операций, составляет 70 - 80 мс.

3.3 Решетчатый фильтр модели СВСП

На рис. 3.7 показана схема трехзвенного РФ долговременного предсказания.

Рисунок 3.7 – РФ долговременного предсказания

Для нахождения коэффициентов отражения РФ долговременного анализа используется формула:

где - длина выборки, - порядок фильтра, - длина подвектора, - ошибка прямого преобразования, - ошибка обратного преобразования.

Работа РФ с использованием модели СВСП характеризуется графиками на рис. 3.8 и рис. 3.9 корреляционных функций сигналов на выходе блоков LTP для фонемы “O”. Сравнение графиков показывает, что корреляционная функция сигала на выходе обеляющего РФ с использованием представления СВСП заметно снижает дисперсию корреляционной функции, уменьшает уровень пика при сдвиге, равном периоду ОТ.

Рисунок 3.8 - Корреляционная функция сигнала на выходе блока LTP

Рисунок 3.9 - Корреляционная функция сигнала на выходе блока LTP в представлении СВСП

3.4 Генерация случайных процессов с использованием решетчатых фильтров

Обеляющий и формирующий решетчатые фильтры обратимы. Если на вход обеляющего РФ подается коррелированный случайный процесс, т. е. , то на выходе получаем ошибку предсказания типа белого шума . В случае же когда на выход обеляющего РФ подается случайный процесс типа белого шума, то есть , то на его входе формируется коррелированный случайный процесс, т. е. . Свойство обратимости РФ, например, эффективно применяется для анализа и синтеза речевого сигнала в кодеках речи.

Для генерации коррелированного случайного процесса можно использовать формирующий фильтр на базе РФ с обратной связью. Структура такого генератора приведена на рис. 3.10. Работа генератора на РФ описывается системой двух уравнений

(3.7)

(3.8)

Применение для генерации РФ гарантирует стабильность работы генератора, т.к. , что является необходимым условием, чтобы передаточная функция была минимально фазовой функцией и ее полюсы находились внутри единичного круга на комплексной плоскости.

Рисунок 3.10 - Генератор коррелированного случайного процесса на решетчатом фильтре с обратной связью

Генерирование случайного процесса возможно, когда известны коэффициенты отражения. Оценки коэффициентов отражения реальных сигналов получают по приведенным выше формулам. В качестве порождающего процесса используют гауссов или негауссов БШ.

3.5 Кодек речи с использованием метода представления сигнала в виде СВСП

На рис. 3.11 представлена структурная схема кодека речевого сигнала, где для учета долговременных изменений речи применен метод представления сигнала в виде СВСП. Отличие данного кодека, от используемого на практике, это отсутствие блока вычисления периода основного тона. Такой метод кодирования-декодирования речи должен сократить количество вычислений процессора обработки сигнала, при этом сохранив качество речи, существующей на данный момент системы мобильной связи GSM 06.10.

Рисунок 3.11 – Структурная схема кодека речи

X(t) - аналоговый сигнал; fd – частота дискретизации; АЦП - аналого-цифровой преобразователь; LPC - (eng. Linear Predictive Coding) фільтр кратко временного предсказания; LTP - (eng. Long Term Prediction) фільтр долговременного предсказания; RPE - (eng. Regular Pulse Excition) регулярное импульсное возбуждение; РФ – решетчатый фильтр; X1(t) - оцифрованный сигнал; X2(t), X3(t) - остатки предсказания РФ кратковременного и долговременного анализа; X5(t), X6(t) - восстановленные остатки предсказания фильтров LPC и LTP соответственно; X7(t) - Восстановленная речь в цифровом виде.

4 РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ КОДЕКА РЕЧЕВОГО СИГНАЛА


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: