Теоретические сведения

К низкоскоростным системам относят системы передачи речи, в которых речевой сигнал в цифровой форме передается со скоростью от 0,6—0,8 кбит/с до 16 кбит/с вместо стандартной скорости цифрового потока 64 или 32 кбит/с. При этом, в зависимости от метода обработки речевого сигнала и скорости цифрового потока, обеспечивается большой диапазон градаций разборчивости и качества переданной речи.

Все методы низкоскоростной передачи речи основаны на параметрическом кодировании, т. е. ее представлении не речевым колебанием, а набором медленно изменяющихся параметров, определяющих понятность речи и в ряде случаев узнаваемость говорящего, требующих для своей передачи меньшей скорости цифрового потока.

При представлении речи параметрическими методами из речевого сигнала исключается часть имеющейся в нем избыточности, но одновременно происходит и изменение его структуры, приводящее к изменению характера звучания переданной речи. Это изменение обычно тем сильнее, чем меньше скорость передачи представляющего речь цифрового потока. При скорости менее 2 кбит/с речь, как правило, имеет механическое, «роботоподобное» звучание.

При представлении речи методами кодирования формы волны речевого сигнала первым шагом кодирования является измерение значения амплитуды сигнала. Для этого 12- 14 - разрядный динамический диапазон амплитуды разбивают на 8 логарифмических поддиапазонов, в каждом из которых значение амплитуды кодируют 5 разрядами и таким образом достигают сокращения информации до 64000 бит/с (кодирование по μ - и A- законам в соответствии со стандартом ITU G.711). Следующим шагом является адаптивная дифференциальная импульсно-кодовая модуляция (adaptive differential pulse code modulation – ADPCM), (например, в соответствии со стандартами G.721 или G.726), с помощью которой осуществляют кодирование (аппроксимацию) степени приращения амплитуды сигнала во времени. Таким путем удается достичь степени сжатия речевого сигнала порядка 32000-16000 бит/с, в этом случае качество речи (по критерию отношения: полезный сигнал/шум) обеспечивается до 24000 бит/с. При более низких скоростях кодирования сохраняется разборчивость речи, но характерны сильные нелинейные и частотные искажения сигнала и ухудшение отношения сигнал/шум.

Дальнейшее уменьшение информационной емкости сигнала с помощью данного подхода считается неэффективным.

Применение низкоскоростных систем передачи речи в телефонных сетях общего пользования возможно только при условии обеспечения достаточно высокого качества передачи речи. Существующие объективные методы оценки и нормирования качества речи не учитывают специфики обработки речевых сигналов при их низкоскоростной передаче и потому не могут быть положены в основу оценки различных низкоскоростных систем, их сравнения друг с другом и определения возможности их применения на сетях ТФОП.

Оценка качества речи группой людей (экспертов) является наиболее точной, а ход ее выставления регламентирован в рекомендации Международного Союза Электросвязи – МСЭ-Т (ITU-T) P.800. В соответствии с этой рекомендацией группа экспертов оценивает качество ряда звуковых шаблонов, до и после прохождения через сеть. Оценка выставляется по шкале от 1 (худшее качество) до 5 (лучшее качество, при котором искажения не ощущаются). Этот механизм оценки качества речи носит название Mean Opinion Score (MOS) и знание балла в соответствие с ним важно для оптимизации воспринимаемого качества, например для выбора уровня «комфортного шума» или создания систем для снижения влияния внешнего шума. Существенным недостатком этого метода оценки является необходимость привлечения экспертов, что затрудняет его использование для мониторинга VoIP - сетей.

Единственным стандартизованным МСЭ-Т (ITU-T) алгоритмом пассивного (не эталонного) мониторинга является рекомендация P.56. Такой алгоритм тестирования не предполагает введение в сеть дополнительного трафика, т. е. реализующее его программное обеспечение анализирует непосредственно передаваемые потоки речевой информации. При этом программа генерирует рейтинги MOS по характеру, аналогичные оценкам группы экспертов. Коэффициент корреляции между экспертной оценкой и этим методом составляет порядка 0,85-0,9, что является хорошим показателем, учитывая тот факт, что эталонные сигналы здесь не используются.

Активный мониторинг предполагает сравнение эталонного сигнала с таким же сигналом, но прошедшим через сеть и, как следствие, искаженным.

В этой категории существует целый ряд алгоритмов, предназначенных для оценки качества узкополосных речевых сигналов. К ним относятся: Perceptual Speech Quality Measurment (PSQM), PSQM+, PSQM99, Perceptual Analysis Measurement System (PAMS), и Perceptual Evaluation of Speech Quality (PAMS).

В лабораторной работе в выбранных качественных показателях, методиках их оценок и критериях допустимости тех или иных искажений в максимальной степени учитываются особенности обработки речи при ее параметрическом представлении и возникающих при этом искажениях и отклонениях характера звучания. Эти показатели специально ориентированы на фиксацию этих явлений и их взвешенного учета при определении пригодности оцениваемой системы для выхода в сеть ТФОП.

Основным элементом систем низкоскоростной передачи речи являются низкоскоростные кодеки, преобразующие речевой сигнал в низкоскоростные цифровые потоки, передаваемые по цифровым каналам связи.

При условии передачи этих потоков с малыми ошибками (за счет соответствующей энергетики или помехоустойчивого кодирования) единственным источником возможных искажений или изменений звучания передаваемых речевых сигналов являются речевые кодеки и их стык с сетью ТФОП. Поэтому для упрощения испытаний при оценке качества речи, передаваемой в низкоскоростной системе, допускается использовать упрощенный тракт, составленный из двух кодеков, соединенных друг с другом по цифровым потокам, или одного кодека, у которого выходной цифровой поток кодера подается в качестве входного цифрового потока на вход декодера.

В работе для упрощения записи во всех случаях вместо термина «система низкоскоростной передачи речи» используется термин «низкоскоростной кодек» или «кодек».

Изучение настоящего материала по критерию качества звучания передаваемой речи позволит оценить пригодность низкоскоростных систем передачи речи для выхода в телефонную сеть общего пользования.

Полному комплексу испытаний по оценке качества речи подвергают опытные образцы вновь разрабатываемой аппаратуры системы низкоскоростной передачи речи или головные образцы серии.

Упрощенные испытания состоят из оценки качества речи методом парных сравнений с качеством аналогичного типа кодека, прошедшего полный комплекс испытаний по контрольным фразам.

Упрощенным испытаниям подвергают кодеки, головной образец серии которых прошел полный комплекс испытаний.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: