Алгоритм оценки качества речи – PESQ

Алгоритм PESQ, был стандартизован МСЭ-Т (ITU-T) как рекомендация P.862 в 2001 г. Блок-схема алгоритма PESQ показана на рис.4.

Рис. 4. Блок-схема алгоритма PESQ

Модель PESQ включает в себя следующие стадии:

- выравнивание по уровню. При этом входной или эталонный и выходной или искаженный сигналы выравниваются до неизменного уровня (порядка 79 дБ), который аналогичен нормальному звуковому уровню, используемому в субъективных тестах с экспертами. Это делается для того, чтобы учесть усиления/затухания уровня сигнала в системе;

- фильтрация входного сигнала;

- временное выравнивание. Устранение задержки искаженного сигнала относительно входного, посредством вычисления параметров задержки для каждого отдельного временного речевого сегмента, который делиться на несколько маленьких, если эти параметры задержки рознятся слишком сильно. Все это делается, чтобы предотвратить любые большие задержки и джиттер;

- эквализация. Происходит сглаживание сигнала после его оцифровки, например в мобильном телефоне. При этом используется оценка взаимной спектральной плотности, а также спектральное дифференцирование. Преобразование в соответствие с человеческим восприятием звука имитирует слуховые свойства человека, удаляет неслышимые части сигнала;

- когнитивное моделирование. Производит преобразование объективной оценки в субъективную, т. е. в термины MOS;

- определение «плохих» интервалов. То есть оценка интервалов, для которых она не удалась по тем или иным причинам. И по результатам этой оценки данные интервалы вновь отправляются в алгоритм;

- выставление субъективной оценки - окончательный результат работы алгоритма.

Эффективность алгоритмов оценки качества речи

В табл. 6 приведены коэффициенты корреляции между рассмотренными выше методами и экспертной оценкой – MOS, позволяющие судить об эффективности алгоритмов оценки качества речи.

Таблица 6

Степень корреляции между рассматриваемыми алгоритмами и MOS

Тип сети:	Коэффициент корреляции	PESQ	PAMS	PSQM	PSQM+
Мобильная сеть	Средний	0.962	0.954	0.924	0.935
Мобильная сеть	Минимальный	0.905	0.895	0.843	0.859
Фиксированная сеть (ТфОП)	Средний	0.942	0.936	0.881	0.897
Фиксированная сеть (ТфОП)	Минимальный	0.902	0.805	0.657	0.652
Voice over IP (VoIP)	Средний	0.918	0.916	0.674	0.726
Voice over IP (VoIP)	Минимальный	0.810	0.758	0.260	0.469

Основным достоинством алгоритма PESQ является то, что он учитывает наиболее широкий диапазон факторов, пагубно влияющих на качество речи. Поэтому алгоритм на основе рекомендации P.862 превосходит по точности все предшествующие алгоритмы. К недостаткам можно отнести тот факт, что PESQ не учитывает потерю уровня громкости и изменения частотной характеристики, менее чем на 20 дБ – два важных фактора, влияющих на восприятие речи.