Алгоритм PESQ, был стандартизован МСЭ-Т (ITU-T) как рекомендация P.862 в 2001 г. Блок-схема алгоритма PESQ показана на рис.4.
Рис. 4. Блок-схема алгоритма PESQ
Модель PESQ включает в себя следующие стадии:
- выравнивание по уровню. При этом входной или эталонный и выходной или искаженный сигналы выравниваются до неизменного уровня (порядка 79 дБ), который аналогичен нормальному звуковому уровню, используемому в субъективных тестах с экспертами. Это делается для того, чтобы учесть усиления/затухания уровня сигнала в системе;
- фильтрация входного сигнала;
- временное выравнивание. Устранение задержки искаженного сигнала относительно входного, посредством вычисления параметров задержки для каждого отдельного временного речевого сегмента, который делиться на несколько маленьких, если эти параметры задержки рознятся слишком сильно. Все это делается, чтобы предотвратить любые большие задержки и джиттер;
- эквализация. Происходит сглаживание сигнала после его оцифровки, например в мобильном телефоне. При этом используется оценка взаимной спектральной плотности, а также спектральное дифференцирование. Преобразование в соответствие с человеческим восприятием звука имитирует слуховые свойства человека, удаляет неслышимые части сигнала;
|
|
- когнитивное моделирование. Производит преобразование объективной оценки в субъективную, т. е. в термины MOS;
- определение «плохих» интервалов. То есть оценка интервалов, для которых она не удалась по тем или иным причинам. И по результатам этой оценки данные интервалы вновь отправляются в алгоритм;
- выставление субъективной оценки - окончательный результат работы алгоритма.
Эффективность алгоритмов оценки качества речи
В табл. 6 приведены коэффициенты корреляции между рассмотренными выше методами и экспертной оценкой – MOS, позволяющие судить об эффективности алгоритмов оценки качества речи.
Таблица 6
Степень корреляции между рассматриваемыми алгоритмами и MOS
Тип сети: | Коэффициент корреляции | PESQ | PAMS | PSQM | PSQM+ |
Мобильная сеть | Средний | 0.962 | 0.954 | 0.924 | 0.935 |
Минимальный | 0.905 | 0.895 | 0.843 | 0.859 | |
Фиксированная сеть (ТфОП) | Средний | 0.942 | 0.936 | 0.881 | 0.897 |
Минимальный | 0.902 | 0.805 | 0.657 | 0.652 | |
Voice over IP (VoIP) | Средний | 0.918 | 0.916 | 0.674 | 0.726 |
Минимальный | 0.810 | 0.758 | 0.260 | 0.469 |
Основным достоинством алгоритма PESQ является то, что он учитывает наиболее широкий диапазон факторов, пагубно влияющих на качество речи. Поэтому алгоритм на основе рекомендации P.862 превосходит по точности все предшествующие алгоритмы. К недостаткам можно отнести тот факт, что PESQ не учитывает потерю уровня громкости и изменения частотной характеристики, менее чем на 20 дБ – два важных фактора, влияющих на восприятие речи.