Стандарт сжатия MPEG-4

 

В последние годы мультимедийные и графические средства всё чаще вторгаются в область классического ТВ вещания, которое, в свою очередь, проникает в сферу мультимедиа. Аудиовизуальное содержание всё чаще используется в интерактивных приложениях, таких, например, как игры или дистанционное обучение. Все эти факторы сформировали потребность в едином стандарте, который бы определял формат представления аудиовизуальной информации, совместимый с любой средой распространения, и механизмы интерактивного взаимодействия с мультимедийным контентом [18, 20].

Стандарт MPEG-4 охватывает следующие области:

- цифровое телевидение и видеосвязь;

- интерактивную графику, синтез изображений;

- интерактивные мультимедийные приложения, в том числе передаваемые через Интернет.

Важнейшей особенностью MPEG-4 является объектно-ориентированный подход, сущность которого заключается в том, что передаваемое изображение со звуковым сопровождением представляется как совокупность видео- и/или аудио- объектов (медиа -объектов).

Любая сцена разделяется на объекты, которые соотносятся в пространстве и времени и описываются отдельными элементарными потоками (ЭП). Объекты могут быть натуральными – записанными с видеокамеры или микрофона, и синтетическими – синтезированными в компьютере. Для описания сцены и её динамического изменения в MPEG-4 используется специально разработанный двоичный язык BIFS (BinaryFormatforScenes двоичный формат описания сцен). Чтобы увязать ЭП с медиа-объектами в сцене, используются дескрипторы объекта. Они переносят информацию о числе и свойствах ЭП, связанных с конкретными медиа-объектами. Сами дескрипторы также переносятся в одном или нескольких ЭП, поэтому нетрудно добавить или удалить объект во время сеанса. Язык BIFS позаимствовал у VRML структуру описания сцены в виде графа, модели поведения, графические примитивы для построения 3D-изображений: конусы, сферы, сетки, текстовые примитивы, текстурирование и подсветку (всего их 36).

Полученные в результате кодирования элементарные потоки необходимо доставить к декодеру. Для этого MPEG-4 предлагает двухуровневый механизм мультиплексирования. Элементарные потоки поступают на мультиплексирование, пройдя уровень синхронизации SL (SyncLayer), где в заголовки пакетированных элементарных потоков (ПЭП) вводятся временные метки.

Первый уровень, названный FlexMux, играет вспомогательную роль в мультиплексировании, он объединяет низкоскоростные потоки с одинаковыми требованиями к качеству передачи, чтобы уменьшить их число в сложных сценах и сократить время передачи. Использование FlexMux не является обязательным, и он может быть пустым, если следующий уровень обеспечивает все необходимые функции.

Второй уровень, TransMux (TransportMultiplexing), предлагает транспортные услуги по передаче потоков с заданным качеством обслуживания. Условия передачи предполагают необходимую пропускную способность, допустимый уровень ошибок, максимальное время задержки, приоритет и т.д. TransMux не является транспортным протоколом как таковым, он представляет собой скорее интерфейс между кодером MPEG- 4 и стандартным транспортным протоколом. В качестве такового могут использоваться протокольные стеки RTP/UDP/IP, AAL5/ATM, транспортный поток MPEG-2.

Взаимодействие с транспортной средой управляется протоколом DMIF (DeliveryMultimediaIntegrationFramework — мультимедийная интегрированная система доставки). После запуска он устанавливает соединение с удаленным абонентом, выбирает подлежащие передаче потоки и посылает запрос на их передачу. Порт DMIF посылает отметки к тем точкам, откуда будут передаваться потоки, и устанавливает соединение.

На приёмном конце индивидуальные ЭП выделяются из пришедшего транспортного потока путем демультиплексирования. Выделенные после демультиплексирования пакеты ПЭП обрабатываются с целью извлечения из них информации о синхронизации. Эта информация переносится в заголовках пакетов, генерируемых на уровне синхронизации.

Декодирование преобразует данные в AV (аудио-визуальный) объект и выполняет необходимые операции для реконструкции исходного AV-объекта, готового для рэндеринга на соответствующем аппарате. Аудио- и визуальные объекты представлены в их кодированной форме. Реконструированный AV-объект делается доступным для слоя композиции при рэндеринге сцены. Декодированные AVO, вместе с данными описания сцены, используются для композиции сцены. Пользователь может расширить возможности, разрешённые автором, взаимодействовать со сценой, которая отображается.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: