Кодирование звуковых объектов

Широкие возможности представляет стандарт МРЕG -4 для кодирования звука. Впервые используются раздельные алгоритмы для кодирования звуков музыкального происхождения и речи, введены мощные средства создания и обработки синтезированного звука.

Наиболее широкий круг звуковых объектов, от низкоскоростных моно до многоканального звука вещательного качества, относится к категории универсального звука (GAGeneral Audiо). В качестве основного алгоритма кодирования звуков различного происхождения принят известный из МРЕG -2 алгоритм ААС с незначительными усовершенствованиями. Одно из них касается введения режима PNS (Реrсерtuаl Nоisе Substitutiоn — перцептуальное замещение шумом). Суть данного метода заключается в обнаружении в приходящем сигнале шумоподобных составляющих и исключении их из общего процесса кодирования. Декодеру передается информация о мощности шумовых компонентов в отдельных участках спектра, и он подменяет соответствующие спектральные коэффициенты псевдослучайными сигналами с требуемой мощностью. Режим PNS иллюстрируется структурной схемой, показанной на рисунке 1.7.

Рисунок 1.7 — Схема реализации режима PNS:

а) кодер; б) декодер

Еще одно усовершенствование связано с введением алгоритма ВSАС (Вit-Sliсеd Аrithmеtiс Соding — арифметическое кодирование с побитовым расщеплением). Чтобы получить масштабируемый поток, ВSАС использует альтернативный по отношению к ААС модуль кодирования квантованных коэффициентов с точным управлением скоростью потока в пределах от 16 кбит/с до 64 кбит/с с шагом 1 кбит/с.

Существенный выигрыш в скорости потока для стационарных гармонических и квазигармонических сигналов позволяет получить метод долговременного предсказания LТР (Long Теrm Рrеdiсtiоn). В технике кодирования речи этот метод широко используется во временной области. В стандарте МРЕG -4 он интегрирован в схему универсального кодера (см. рисунок 1.8), где операции квантования и кодирования осуществляются над спектральными представлениями входного сигнала.

Рисунок 1.8 — Схема универсального кодера с LТР

Для работы схемы LТР кодированный сигнал предыдущего кадра переводится обратно во временную область с помощью инверсного преобразования TNS и синтезирующего БФ, в блоке LТР он сравнивается с приходящим сигналом, а полученная разность опять переводится в спектральную область. Специальный переключатель FSS (Frequency Selective Switch — переключатель с частотной избирательностью) выбирает исходный или разностный сигнал в зависимости от того, какая альтернатива в данный момент предпочтительнее. По сравнению с предсказанием из МРЕG -2 ААС данный метод предсказания требует вдвое меньших ресурсов памяти и производительности процессора.

Для увеличения эффективности кодирования музыкальных сигналов на низких скоростях разработан алгоритм Twin VQ (Тrаnsfоrm-dоmаin Wеightеd Intеrlеаvе VQ — взвешивающее векторное квантование с перемежением и преобразованием областей). Основная идея — заменить обычное кодирование спектральных компонентов в ААС перемежающим векторным квантованием, приложенным к нормализованному спектру (см. рисунке 1.9).

Рисунок 1.9 — Алгоритм Twin VQ векторного квантования спектральных компонентов

Квантование спектральных коэффициентов осуществляется в два шага: на первом они нормализуются к некоторому пределу, на втором — квантуются с использованием векторного квантования. Процесс нормализации включает оценку спектра по шкале Барка, извлечение периодических компонентов и оценку мощности спектральных составляющих. В результате нормализации спектральные коэффициенты выравниваются и нормализуются вдоль частотной оси. Затем нормализованные коэффициенты описываются как многомерный вектор, чередуются в субвекторы, как показано на рисунке 1.9, и квантуются с использованием векторного квантования. Остальная часть алгоритма ААС остается неизменной.

Алгоритм Тwin VQ дает хорошие результаты в интервале скоростей от 6 кбит/с до 24 кбит/с и используется в основном в универсальных кодеках МРЕG -4 с масштабированием для формирования базового слоя.

1.6. Профили и уровни стандарта МРЕG -4

МРЕG -4 представляет собой обширный набор средств и алгоритмов кодирования аудиовизуальных объектов. Чтобы сделать реализацию декодера экономически оправданной и облегчить проверку на соответствие стандарту, в некоторых разделах определены ограниченные наборы инструментов, называемые профилями. Для каждого из профилей установлены один или несколько уровней, ограничивающих требования к вычислительным способностям декодера. Понятие профиля введено для визуальных объектов, аудио, системы и описаний сцены. Однако специфика МРЕG -4 потребовала некоторых дополнений по сравнению с предшествующими стандартами. В МРЕG -2 видеокадр можно представить себе как один прямоугольный объект, занимающий всю сцену, и для него достаточно определить один профиль. В МРЕG -4 объектов может быть несколько, для каждого оптимальным будет свой профиль, поэтому введена дополнительная градация, как промежуточная между уровнем и профилем — тип объекта. Этот параметр определяет синтаксис (структуру) цифрового потока для одиночного объекта. Профиль же определяет набор типов объектов, которые могут присутствовать в сцене.

Для натуральных объектов определены пять типов объектов:

1) простой — прямоугольный объект с произвольным форматом, использует простые средства кодирования, основанные на I - и Р-VОР;

2) простой масштабируемый — прямоугольный объект с пространственным и временным масштабированием;

3) базовый — производный от простого, с добавлением В-VОР; чересстрочная развертка не поддерживается;

4) основной — обеспечивает высшее качество, по сравнению с базовым дополнительно поддерживает градационное кодирование формы, спрайты, чересстрочное разложение;

5) N -битовый — аналогичен базовому, но допускает квантование плоскостей яркости и цветности с разрядностью от 4 до 12 бит.

Для кодирования неподвижных натуральных визуальных объектов существует специальный тип объекта:

6) неподвижная масштабируемая текстура — неподвижное изображение произвольной формы, использует волновое кодирование и пошаговую загрузку и восстановление.

Для синтетических объектов определены следующие три типа объектов:

7) анимированная двумерная сетка — объединяет синтетическую сетку (прямоугольную или топологии Делоне) с натуральным видео, кодируемым по базовому типу. Видео может отображаться на сетку и деформироваться путем перемещения ее узлов — это дает интересные анимационные возможности. Визуальный объект может быть любой формы;

8) базовая анимированная текстура — анимация неподвижных изображений (таких, как в типе 6);

9) примитивное лицо — средство анимации человеческого лица. Этот тип объекта не определяет конкретное лицо, анимация может быть применена к любой выбранной модели.

Профили определяют, какие типы визуальных объектов могут присутствовать в сцене. В первой версии стандарта определено 9 профилей; допустимые сочетания профилей и типов объектов приведены в таблице 1.1.

Таблица 1.1 — Профили и типы объектов МРЕG -4 видео

Профиль Тип объекта Простой Простой масштабируемый Базовый Основной N -битовый Масштабируемая текстура Простой, анимация лица Базовая анимированная структура Гибридная
Простой      
Простой масштабируемый                
Базовый          
Основной                
N -битовый                
Масштабируемая текстура          
Анимированная D -сетка                
Базовая анимированная структура              
Примитивное лицо            
Число уровней                  

Простой профиль допускает присутствие только объектов простого типа и предназначен в первую очередь для мобильных служб и Интернета. Прфиль поддерживает до 4-х объектов в сцене с максимальным разрешением QCIF, три уровня ограничивают скорость потока в пределах от 64 кбит/с до 384 кбит/с, максимальную площадь, занимаемую объектом, и число макроблоков в секунду, которое декодер должен обработать. Простой масштабируемый профиль может осуществлять кодирование с масштабированием при тех же предпосылках, имеет два уровня.

Базовый профиль воспринимает типы объектов простой и базовый, полезен для интерактивных приложений. Основной профиль создавался с учетом вещательных служб. Самый высший уровень основного профиля поддерживает до 32 объектов простого, базового или основного типа и максимальную суммарную скорость потока до 38 Мбит/с. N -битовый профиль работает с объектами простого, базового и N -битового типа и полезен в специальных системах наблюдения и медицинского контроля, где требуется широкий динамический диапазон яркости и насыщенности.

Из остальных профилей наибольший интерес представляет гибридный, объединяющий натуральные (базовый) и синтетические (все три) типы объектов. Он полезен при помещении «реального» объекта в синтетический мир и, наоборот, синтетического объекта в реальное окружение.

В нижней строке таблицы 1.1 указано число уровней, определенных в стандарте для каждого профиля. В таблице 1.2. показаны параметры потока для некоторых уровней.

В стандарте установлены следующие точки соответствия: простой профиль и базовый профиль с размерами сцены QСIF и СIF, скоростями потока 64, 128, 384 кбит/с и 2 Мбит/с. Для основного профиля нормируются форматы СIF, Рек. ВТ.601, ТВЧ со скоростями 2, 15 и 38,4 Мбит/с.

Вторая версия стандарта добавила три профиля к натуральному видео:

1) простой усовершенствованный профиль реального времени — обеспечивает эффективное кодирование с использованием обратного канала (видеотелефония, телеконференции, дистанционное наблюдение);

2) базовый масштабируемый профиль — поддерживает пространственное и временное масштабирование в базовом профиле;

3) профиль с улучшенной эффективностью кодирования — подходит для мобильного приема вещательных передач и других применений, где требуется высокая эффективность кодирования.

Таблица 1.2 — Параметры потока для некоторых профилей МРЕG -4 видео

Профили и уровни Типовой размер сцены Скорость потока, бит/с Максимальное число объектов Общая ёмкость памяти, макроблоков
Простой профиль L 1 QCIF 64 к    
L 2 CIF 128 к    
L 3 CIF 384 к    
Базовый профиль L 1 QCIF 384 к    
L 2 CIF 2 М    
Основной профиль L 2 CIF 2 М    
L 3 Рек. 601 15 М    
L 4 1920 1088 38,4 М    

Три новых профиля введены в синтетическое видео, в том числе простой профиль анимации лица и фигуры.

Общее число визуальных профилей достигло 15.

После принятия второй версии работа над дополнениями к стандарту продолжена. В частности, предполагается ввести студийный профиль, в котором VОР с кодированием формы могли бы передаваться со скоростью несколько сот мегабит в секунду.

В таблице 1.3 показаны основные параметры студийного профиля стандарта МРЕG -4.

Низкий уровень этого профиля мог бы соответствовать высокому уровню профиля «4:2:2» из стандарта МРЕG -2, в двух других уровнях предлагается ввести два подуровня — с дискретизацией «4:2:2» и «4:4:4». Группа МРЕG изучает кодирование 2 D и 3 D анимаций, цифровой кинематограф и другие вопросы.

Таблица 1.3 — Параметры студийного профиля стандарта МРЕG -4

Уровень Максимальный размер изображения и частота кадров Максимальная скорость отсчетов Скорость цифрового потока, Мбит/с Квантование, дискретизация
Низкий (совместим с 4:2:2 P @ HL) 1920 1088 30Гц     10 битов 4:2:2
Основной 4:2:2 2048 2048 60Гц     10 битов 4:2:2
4:4:4     10 битов 4:2:2 4:4:4
Высокий 4:2:2 4096 4096 120Гц     10/12 битов 4:2:2
4:4:4     10/12 битов 4:2:2 4:4:4

Как и для видеообъектов, в стандарте введена классификация типов объектов для звука. В общей сложности первая версия определила 15 типов объектов, часть из них базируется на алгоритме ААС, один на алгоритме Twin VQ, три типа объектов связаны с алгоритмами кодирования речи, еще четыре определяют типы объектов для синтезированных звуков.

Определены 4 профиля кодирования звука.

Речевой профиль — совместим с тремя «речевыми» типами объектов, имеет два уровня, допускает до 20 объектов в сцене одновременно.

Масштабируемый профиль — обеспечивает высококачественное кодирование при низкой скорости цифрового потока и гибкое приспособление к изменениям скорости в канале, наилучшим образом приспособлен для передачи звука в Интернете. Число объектов в сцене, число потоков и частоты дискретизации определяются четырьмя уровнями, определенными в условных «единицах сложности» — производительности процессора в миллионах операций в секунду (РСU) и объеме памяти в тысячах слов (RCU): уровень 1 — один моно объект любого типа, частота дискретизации до 24 кГц; уровень 2 — один стерео или два моно объекта, частота до 24 кГц; уровень 3 — один стерео или два моно объекта, частота до 48 кГц; уровень 4 — один объект 5.1 или группа объектов, частота до 48 кГц, сложность до 30 РСU и 19 RCU.

В качестве примера в таблице 1.4 приведены требования к декодеру, работающему в одном из уровней данного профиля.

Таблица 1.4 —Требования к декодеру звука масштабируемого профиля

Тип объекта Тактовая частота, кГц Быстродействие процессора, млн. операций/с Емкость памяти, тыс. слов
ААС основной      
ААС простой      
ААС с масштабируемой тактовой частотой      
ААС с долговременным предсказанием      
ААС масштабируемый      
Twin VQ      
CELP      
CELP      
CELP 8/16    
HVXC      

Синтетический профиль — группирует типы объектов синтезированного звука, может использоваться в тех случаях, когда источником звука служит не микрофон и требуется обеспечить передачу при очень низких скоростях.

Основной профиль — наиболее сложный профиль, объединяющий возможности всех остальных; пригоден для звуков всех видов, обеспечивает высочайшее качество звучания. Примеры применения — запись на DVD и мультимедийное вещание. Профиль имеет 4 уровня.

Соответствие звуковых профилей и типов объектов МРЕG -4 показано в таблице 1.5.

Таблица 1.5 — Профили и типы объектов МРЕG -4 аудио

  Профили Типы объектов Речевой Масштабируемый Основной Синтетический
ААС основной      
ААС с масштабируемой тактовой частотой      
ААС простой    
ААС с долговременным предсказанием      
ААС масштабируемый    
Twin VQ    
CELP  
HVXC  
TTSI  
Основной синтетический    
Wavetable синтезатор    
Общий MIDI    
Алгоритмический синтез    
Число уровней        

Во второй версии стандарта введены 4 новых профиля: высококачественный (High Quality), LD (Low Delay) — профиль с малой задержкой, натуральный (Natural) и межсетевой мобильный (Моbilе Audiо Intеrnеtwоrking).

Большое число возможных алгоритмов заставило ввести также три графических профиля, четыре профиля описаний сцены и один профиль дескрипторов объектов. Эти профили перечислены в таблице 1.6.

Таблица 1.6 — Профили графических средств и описаний сцены в МРЕG -4

Средство Профиль
Графика Простой 2D
Полный 2D
Полный
Описание сцены Звуковой
Простой 2 D
Полный 2 D
Полный
Дескриптор объекта Базовый

Стандарт МРЕG -4 не предназначен на замену МРЕG -2 в ТВ вещании в его нынешнем виде, но в наш век быстрых изменений можно представить себе, что и традиционная концепция ТВ вещания будет заметно изменяться. Начало этим изменениям положено переходом на цифровое вещание, предоставляющее новые возможности по количеству программ, качеству изображения и звукового сопровождения, передаче дополнительных данных и предоставлению новых услуг. Можно с определенной степенью уверенности прогнозировать слияние ТВ приемника, телефона, спутникового и кабельного терминалов (в дальнейшем к ним присоединится и персональный компьютер) в единое информационное устройство, получающее информацию из общей информационной сети по высокоскоростному цифровому каналу (проводному, оптическому или спутниковому). Большая часть ТВ программ может передаваться по такому каналу в свободное от нагрузки (ночное) время, загружаясь в емкую память информационного блока, в реальном времени будут передаваться только новости и программы, рассчитанные на интерактивное взаимодействие со зрителем.

Теперь представим себе, как расширит возможности восприятия добавление к традиционной программе дополнительной информации в форме наложенного текста, неподвижных изображений (возможно, полупрозрачных), двумерной и трехмерной графики, дополнительных зрительных и звуковых образов. Часть этих улучшений используется и сегодня, но это происходит по воле вещателя, и зритель не в состоянии что-либо изменить. В МРЕG -4 дополнительная информация передается вместе с объектом и ею легко управлять нажатием кнопки. Вы, например, можете вызвать на экран ответ на вопрос викторины, а можете убрать его и самостоятельно поломать голову над загадкой. Возможно изменить точку взгляда на сцену, как бы сменить положение камеры. Это дает возможность лучше воспринять спортивное соревнование или музыкальное шоу. В многоканальной звуковой системе можно выбрать число каналов, язык звукового сопровождения и даже самому включиться в оркестр, исполнив партию на любом понравившемся вам инструменте.

Широкие возможности открывает МРЕG -4 в интерактивной среде. Возможности МРЕG -4 позволят установить связь с несколькими людьми и организовать совместный просмотр программы, изменяя по договоренности ход сюжета, или поиграть в сетевые игры с трехмерными изображениями. А телемагазин?! Насколько расширятся здесь возможности покупателя по всесторонней оценке будущей покупки. Вы можете получить дополнительную информацию о заинтересовавшем вас объекте, например, новой марке автомобиля, подведя к нему курсор и нажав кнопку на пульте, можете рассмотреть автомобиль со всех сторон, пригласить консультанта (виртуального, разумеется) и выслушать его разъяснения, узнать цену и наличие модели на складе. Вы можете послать приятелю изображение автомобиля и всю информацию о нем по электронной почте и тут же получить его совет.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: