Алгоритм оценки качества речи – PESQ

Алгоритм PESQ, был стандартизован МСЭ-Т (ITU-T) как рекомендация P.862 в 2001 г. Блок-схема алгоритма PESQ показана на рис.4.

 

Рис. 4. Блок-схема алгоритма PESQ

 

Модель PESQ включает в себя следующие стадии:

- выравнивание по уровню. При этом входной или эталонный и выходной или искаженный сигналы выравниваются до неизменного уровня (порядка 79 дБ), который аналогичен нормальному звуковому уровню, используемому в субъективных тестах с экспертами. Это делается для того, чтобы учесть усиления/затухания уровня сигнала в системе;

- фильтрация входного сигнала;

- временное выравнивание. Устранение задержки искаженного сигнала относительно входного, посредством вычисления параметров задержки для каждого отдельного временного речевого сегмента, который делиться на несколько маленьких, если эти параметры задержки рознятся слишком сильно. Все это делается, чтобы предотвратить любые большие задержки и джиттер;

- эквализация. Происходит сглаживание сигнала после его оцифровки, например в мобильном телефоне. При этом используется оценка взаимной спектральной плотности, а также спектральное дифференцирование. Преобразование в соответствие с человеческим восприятием звука имитирует слуховые свойства человека, удаляет неслышимые части сигнала;

- когнитивное моделирование. Производит преобразование объективной оценки в субъективную, т. е. в термины MOS;

- определение «плохих» интервалов. То есть оценка интервалов, для которых она не удалась по тем или иным причинам. И по результатам этой оценки данные интервалы вновь отправляются в алгоритм;

- выставление субъективной оценки - окончательный результат работы алгоритма.

 

Эффективность алгоритмов оценки качества речи

В табл. 6 приведены коэффициенты корреляции между рассмотренными выше методами и экспертной оценкой – MOS, позволяющие судить об эффективности алгоритмов оценки качества речи.

 

Таблица 6

Степень корреляции между рассматриваемыми алгоритмами и MOS

Тип сети: Коэффициент корреляции PESQ PAMS PSQM PSQM+

Мобильная сеть

Средний 0.962 0.954 0.924 0.935
Минимальный 0.905 0.895 0.843 0.859

Фиксированная сеть (ТфОП)

Средний 0.942 0.936 0.881 0.897
Минимальный 0.902 0.805 0.657 0.652

Voice over IP (VoIP)

Средний 0.918 0.916 0.674 0.726
Минимальный 0.810 0.758 0.260 0.469

 

Основным достоинством алгоритма PESQ является то, что он учитывает наиболее широкий диапазон факторов, пагубно влияющих на качество речи. Поэтому алгоритм на основе рекомендации P.862 превосходит по точности все предшествующие алгоритмы. К недостаткам можно отнести тот факт, что PESQ не учитывает потерю уровня громкости и изменения частотной характеристики, менее чем на 20 дБ – два важных фактора, влияющих на восприятие речи.

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: