Общее описание алгоритма кодирования речевого сигнала CELP

1 2 3

Метод стохастического кодирования

2. Общее описание алгоритма кодирования речевого сигнала CELP

3. Методы оценки параметров последовательности импульсов сигнала возбуждения

4. Принципы обработка речи в стандарте GSM

5. Принципы работы кодера/декодера

6. Лекция

7. Список сокращений

8. Контрольные вопросы

Одним из возможных универсальных методов обеспечения безопасности информации является применение случайных кодов с исправлением ошибок, строящихся на основе проверочной матрицы двоичных кодов с использованием стохастического преобразования q-ичных символов. Метод стохастического обеспечения безопасности информации был разработан как помехоустойчивый код, содержащий признаки и операции введения избыточности при кодировании и принятия решения о наличии ошибок (и исправлении ошибок) при декодировании, объединённые существенным образом с операциями прямого о обратного стохастического преобразования (стохастическое кодирование), сформулированные исходя из анализа метода случайного кодирования Шеннона. Где под методом случайного кодирования Шеннона понимается случайный выбор кодовых слов из множества возможных комбинаций с длиной, равной длине кода.

Стохастическое кодирование с исправлением ошибок включает следующие основные операции:

- собственное кодирование (введение избыточности) и декодирование (локализация правильно принятых и исправление искаженны q-ичных символов)

- стохастическое преобразование с использованием квазислучайных последовательностей от датчика; для стохастического преобразования очередного q-ичного символа используется новое значение отрезка квазислучайной последовательности

- датчик квазислучайных чисел.

Для кодирования (информационного уплотнения) речевых сигналов в стандарте TETRA используется кодер с линейным предсказанием и многоимпульсным возбуждением от кода - CELP (Code Excited Linear Prediction). Данный метод кодирования основан на линейной авторегрессионной модели процесса формирования и восприятия речи и входит в группу т. н. методов анализа через синтез, реализующих современные и эффективные алгоритмы информационного уплотнения речевых сигналов. Алгоритмы данного класса занимают промежуточное положение между кодерами формы сигнала, в которых сохраняется форма колебания речевого сигнала в процессе его дискретизации и квантования, и параметрическими вокодерами, основанными на процедурах оценки и кодирования небольшого числа параметров речи, объединяя преимущества каждого из них.

В зависимости от способа описания сигнала x(n), поступающего на вход фильтра (7.5), можно выделить алгоритмы кодирования с возбуждением прореженной последовательностью импульсов - MPLP (Multi Pulses Linear Prediction), с самовозбуждением - SELP (Self Excited Linear Prediction), и наконец, с возбуждением от кода - CELP. Экспериментально установлено, что кодовое возбуждение обеспечивает наиболее высокое качество декодированного речевого сигнала, в том числе и при наличии входных акустических помех.

Метод CELP был предложен Этолом и Шредером в 1984 г. Наиболее эффективно применение этого метода при передаче речевого сигнала в диапазоне скоростей от 4 до 16 Кбит/с.

Базовая структурная схема передающей (а) и приемной (б) частей CELP-кодера показана на рисунке

По существу, в алгоритме CELP производится векторное квантование последовательности x(n), т. е. позиции импульсов и их амплитуды в сигнале многоимпульсного возбуждения оптимизируются одновременно. При этом отрезок (сегмент) сигнала возбуждения выбирается из предварительно сформированной постоянной совокупности - кодовой книги, содержащей достаточно большое количество реализаций, например, некоррелированного гауссовского шума. Выбранная реализация усиливается и подается на вход цепочки фильтров.

Для оценки параметров последовательности импульсов сигнала возбуждения существует несколько методов. В методе многоимпульсного возбуждения (MPE - Multi-Pulse Excitation) оптимизируется как положение, так и амплитуды импульсов. В методе возбуждения регулярной последовательностью импульсов (RPE - Regular-Pulse Excitation) взаимное положение импульсов предопределено. Для этого используется сетка равноотстоящих импульсов, а оптимизируется расположение этой сетки в пределах кадра возбуждения (так как число импульсов возбуждения обычно в 3-4 раза меньше числа выборок в кадре) и амплитуды импульсов. В методе стохастического кодирования, или в методе линейного предсказания с кодовым возбуждением (CELP - Code-Excited Linear Prediction), с разновидностью возбуждения векторной суммой (VSELP - Vector Sum Excited Linear Prediction), наиболее подходящий вектор возбуждения выбирается из заранее составленной кодовой книги (или кодового словаря), содержащего обычно 2N, N=7 - 10, квазислучайных векторов заданной длины с элементами, нормированными по амплитуде. Амплитуда вектора возбуждения кодируется отдельно в соответствии с громкостью передаваемого элемента речи. В методе возбуждения последовательностью бинарных импульсов с преобразованием (TBPE - Transformed Binary Pulse Excitation) сигналом возбуждения является последовательность равноотстоящих по времени и квазислучайных по знаку (с амплитудами ±1) импульсов, умноженных на некоторую матрицу преобразования.

Обработка речи в стандарте GSM осуществляется в рамках принятого режима прерывистой передачи (DTX - Discontinuous Transmission), которая обеспечивает включение передатчика только во время самого разговора. Система DTX управляется детектором активности речи (VAD - Voice Activity Detection), который обеспечивает обнаружение и выделение интервалов речи с шумом и шум без речи даже в тех случаях, когда уровень шума соизмерим с уровнем сигнала речи. В состав системы DTX также входит устройство формирования комфортного шума, который включается в паузах речи. В системе DTX происходит также экстраполяция фрагментов речи, утерянных из-за помех в канале.

Основным устройством в данной схеме является речевой кодек. В соответствии со стандартом GSM каждый радиоканал используется для организации 8 цифровых каналов с временным разделением. Следовательно, если бы это были стандартные ИКМ каналы, то потребовалась бы скорость передачи 64 х 8 = 512 кбит/с. Такую скорость передачи пользовательской информации по одному частотному радиоканалу обеспечить практически невозможно. В качестве выхода из положения используются методы уплотнения передаваемой информации и применение сложных методов кодирования, уменьшающих избыточность, а значит и требующих меньшие скорости передачи. При этом, как правило, используются методы фазовой модуляции (манипуляции). В системе GSM используется гауссовская фазовая манипуляции несущей частоты радиосигнала с минимальным сдвигом (GMSK - Gaussian Minimum Shift Keying) с индексом манипуляции, равным 0,3.

VAD Voice Activity Detection - детектор активности речи;(Discontinuous Transmission) - система прерывистой передачи речи

Снижение требуемой скорости передачи цифрового потока приводит к ухудшению качества передаваемой речи. Наиболее низкая скорость передачи информации (1 - 3 кбит/с) требуется при использовании вокодеров. Однако при этом очень низкое качество речи. Звук приобретает «синтетический» характер.

Высокое качество речи при допустимом снижении требований к скорости передачи можно получить при использовании различных модификаций ИКМ, за счет усложнения аппаратуры. Для того, чтобы иметь высокое качество речи при передаче с относительно низкими скоростями, в GSM используется способ кодирования, объединяющий вокодеры и дифференциальную ИКМ. Такой способ получил название дифференциального кодирования.

Вокодерное преобразование основано на использовании особенностей человеческого голосового тракта. Голосовые связки генерируют некоторую частоту, которая модулируется горлом и ртом, как фильтром. Зная в каждый момент частоту и параметры фильтра можно восстановить (создать) требуемый звуковой сигнал.

В фиксированные промежутки времени голосовые органы человека не остаются в фиксированном положении, и возбуждения носят более комплексный характер, чем передаваемые характер возбуждения и период основного тона. Это приводит к значительному ухудшению качества.

Дифференциальная ИКМ учитывает корреляцию дискретных отсчетов АИМ-сигнала. При этом кодируются не сами дискретные отсчеты, а разность амплитуд поступившего и предыдущего дискретных отсчетов. Поскольку диапазон изменения амплитуд разности дискретных отсчетов меньше диапазона изменения амплитуд самих дискретных отсчетов, для их кодирования требуется меньшее число разрядов. Таким образом, дифференциальное кодирование подразумевает деление речевого сигнала на отрезки в 20 мс с предыдущим кодированием.

В стандарте GSM используется метод RPE-LTP (линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказанием).

Работа кодера заключается в следующем:

Блок предварительной обработки осуществляет: предыскажение входного сигнала при помощи цифрового фильтра, подчеркивающего верхние частоты; разбиение сигнала на сегменты по 160 выборок (20 мс); взвешивание каждого из сегментов окном Хэмминга.

Далее для каждого 20-мс сегмента оцениваются параметры фильтра кратковременного ЛП - 8 коэффициентов частичной корреляции ki i=1-8 (порядок предсказания М=8), которые для передачи по каналу связи преобразуются в логарифмические отношения площадей ri, причем для функции логарифма используется кусочно-линейная аппроксимация.

Сигнал с выхода блока предварительной обработки фильтруется решетчатым фильтром-анализатором кратковременного ЛП, и по его выходному сигналу (остатку предсказания еn) оцениваются параметры длительного предсказания: коэффициент предсказания g и задержка d. При этом 160-выборочный сегмент остатка кратковременного предсказания еn разделяется на 4 подсегмента, по 40 выборок в каждом, и параметры g,d оцениваются для каждого из подсегментов в отдельности, причем для оценки задержки d для текущего подсегмента используется скользящий подсегмент из 40 выборок, перемещающийся в пределах предшествующих 128 выборок сигнала остатка предсказания еn. Сигнал еn фильтруется фильтром-анализатором ДП, а выходной сигнал последнего (остаток предсказания fn) фильтруется сглаживающим фильтром, и по нему формируются параметры сигнала возбуждения в отдельности для каждого из 40-выборочных подсегментов.

Сигнал возбуждения одного подсегмента состоит из 13 импульсов, следующих через равные промежутки времени (втрое большие, чем интервал дискретизации исходного сигнала), и имеющих различные амплитуды. Для формирования сигнала возбуждения 40 импульсов подсегмента сглаженного остатка fn обрабатываются следующим образом. Последний (40-ой) импульс отбрасывается, а первые 39 импульсов разбиваются на три последовательности: в первой - импульсы 1,4,..., 37, во второй - импульсы 2,5,..., 38, в третьей - импульсы 3,6,...,39. В качестве сигнала возбуждения выбирается та из последовательностей, энергия которой больше. Амплитуды импульсов нормируются по отношению к импульсу с наибольшей амплитудой, и нормированные амплитуды кодируются тремя битами каждая при линейной шкале квантования. Абсолютное значение наибольшей амплитуды кодируется шестью битами в логарифмическом масштабе. Положение начального импульса 13-элементной последовательности кодируется двумя битами, т.е. номер последовательности, выбранной в качестве сигнала возбуждения для данного подсегмента.

Таким образом, выходная информация кодера речи для одного 20-миллисекундного сегмента речи включает параметры: фильтра кратковременного ЛП 8 коэффициентов логарифмического отношения площадей ri, i=1-8 - один набор на весь сегмент; фильтра ДП - коэффициент предсказания g и задержка d - для каждого из четырех подсегментов; сигнала возбуждения - номер последовательности n, максимальная амплитуда v, нормированные амплитуды bi, i=1-13, импульсов последовательности - для каждого из четырех подсегментов.

Всего для одного 20-мс сегмента речи передается 260 бит информации, т.е. кодер речи осуществляет сжатие информации почти в 5 раз (1280:260=4,92). Перед выдачей в канал связи выходная информация кодера речи также подвергается дополнительно канальному кодированию.

Декодер выполняет следующие операции. Блок формирования сигнала возбуждения, используя принятые параметры сигнала возбуждения, восстанавливает 13-импульсную последовательность сигнала возбуждения для каждого из подсегментов сигнала речи, включая амплитуды импульсов и их расположение во времени. Сформированный таким образом сигнал возбуждения фильтруется фильтром-синтезатором длительного предсказания. На его выходе получается восстановленный остаток предсказания фильтра-анализатора кратковременного ЛП, который фильтруется решетчатым фильтром-синтезатором кратковременного ЛП. Причем параметры фильтра предварительно преобразуются из логарифмических отношений площадей ri, в коэффициенты частичной корреляции ki. Выходной сигнал фильтра-синтезатора кратковременного ЛП фильтруется (в блоке пост-фильтрации) цифровым фильтром, восстанавливающим амплитудные соотношения частотных составляющих сигнала речи, т.е. компенсирующим предискажение, внесеннон входным фильтром блока предварительной обработки кодера. Сигнал на выходе пост-фильтра является восстановленным цифровым сигналом речи.

Лекция

Существует большое количество методов борьбы с помехами. По мере усложнения помех, из стека извлекают более серьезные методы борьбы с помехами(в стеке эти методы складываются от более простого к более сложному).

1 2 3

Подборка статей по вашей теме: