Принцип формирования информационного пакета

Стандарт MPEG 2 предоставляет возможность формирования трех видов цифровых потоков:

· элементарного пакетированного потока,

· программного пакетированного информационного потока и

· транспортного пакетированного потока.

Определение «элементарный» означает, что цифровой поток состоит из одного вида информации: звукоданных, видеоданных или данных пользователя. Программный пакетированный информационный поток формируется внутренним мультиплексором, объединяющим в определенной последовательности элементарные пакетированные потоки сжатых видеоданных и элементарные пакетированные потоки сжатых звукоданных. На входы этого же мультиплексора подаются без сжатия служебные данные и синхрослова (см. рисунок 9).

Рисунок 9 - Принцип формирования информационного пакета

Системные часы кодера

Выходной буфер кодера производит с определенной скоростью кадры видео­последовательности. Каждый из этих кадров произведен в некоторый момент времени. Каждый кодер имеет встроенные часы, поэтому моменты времени, когда производится тот или иной кадр, легко зафиксировать и передать с ко­дера на декодер. Зачем это нужно?

Очень просто — декодер должен декодировать кадры с той же скоростью, с которой кодер их производит. Кроме того, кодер должен выдавать их в пра­вильной последовательности. На скорость кодера и декодера может влиять масса факторов — от напряжения в сети до температуры в помещении, по­этому их работу необходимо синхронизировать. Кроме того, канал связи мо­жет иметь переменную задержку и какую-то собственную буферизацию, т. е. скорость потока на входе декодера может непредсказуемо меняться (см. разд. 1.11).

В стандарте элементарных потоков имеется два значения, которые принима­ют участие в процессе синхронизации — они называются временными штампами DTC и PTS. Кроме того, может возникнуть необходимость пере­давать с кодера на декодер показания системных часов кодера. Это делается при помощи поля PCR. Поле PCR мы будем рассматривать в гл. 5, посвящен­ной транспортному потоку. Мы будем встречать эти значения, когда начнем рассматривать синтаксис элементарного потока.

Значение имеют даже не сами показания этих часов, а разницы показаний для разных кадров или моментов времени, поскольку нам необходимо синхрони­зировать скорость обработки информации.

Временной штамп декодера (Decoder Timestamp или DTC) — это время сис­темных часов, в которое кадр должен быть взят из входного буфера декодера и декодирован. Принимается, что такую операцию можно совершить мгно­венно. Таким образом, DTS показывает время, в которое кадр надо декодиро­вать и положить в выходной буфер декодера.

Временной штамп показа (Presentation Timestamp или PTS) — это время сис­темных часов, в которое кадр нужно показать зрителю, т. е. отправить из вы­ходного буфера декодера на устройство воспроизведения (например, на кодер PAL или интерфейс HDMI). Мы говорили в предыдущем разделе, что время показа может не соответствовать времени декодирования, поэтому PTS не всегда соответствует DTS. Например, при наличии В-кадров, время декоди­рования Р-кадров будет раньше, чем время их презентации.

Системные часы имеют тактовую частоту 27 МГц, т. е. "тикают" 1 раз в 3,7x10-8 сек. Этого более чем достаточно для синхронизации. Для хранения значения системных часов обычно используется 32 бита, поэтому значения системных часов при этой частоте повторяются каждые 158 сек.

Для передачи от кодера к декодеру значения системных часов делятся на две части — базовую и дополнительную (см. разд. 5.2).

Зная значение DTS и PTS, декодер сможет "рассчитать" скорость, с которой нужно производить декодирование, и работать с этой скоростью. В H.264 применена несколько другая система синхронизации, основанная на исполь­зовании служебной информации, которая называется HRD (см. разд. 4.6).

Изменение порядка кадров в элементарном потоке

Внутренний мультиплексор из элементарных потоков формирует информационную часть — блок цифрового пакета фиксированной длины в 187 байтов и синхрослово в 1 байт.

Информационная часть затем дополняется головной частью и байтами кода Рида-Соломона, обеспечивающими защиту от ошибок блока информационных байтов (см. рисунок 10).

Рисунок 10 - Структура пакета транспортного потока информационных данных с защитой от ошибок кодом Рида-Соломона

Головная часть (до 200 байтов) содержит управляющие коды и включает в себя:

- один байт стартового кода, подготавливающий приемное устройство к началу приема данных;

- коды коррекции ошибочных битов (сверточные и т.п.); биты данных пользователя;

- биты идентификации, предназначенные для распознавания видео- и аудиоинформации в пакете;

- биты флага данных, несущие информацию о скремблировании (закрытости) канала, его приоритете;

- данные, указывающие на длину заголовка пакета, содержащего до 200 байтов. Они отмечают число байтов, которые могут присутствовать до начала передачи информационной части пакета.

Кодированные данные изображения и звука, а также различная дополнительная информация объединяются в мультиплексоре в единый поток данных: это по сути программный мультиплексор.

Эта часть аппаратуры цифрового ТВ составляет подсистему кодирования источника информации и мультиплексирования. Ее функция — максимально сжать информационный поток источника.

Объединение нескольких ТВ программ (1, 2, 3) в транспортный поток осуществляется в транспортном мультиплексоре (рис. 11).

Рисунок 11 – Формирование транспортного потока

Стандарт кодирования видео- и звуковой информации MPEG-4

До недавнего времени в вещании преобладала концепция «телевидения» программа готовилась в студии и передавалась как периодическая последовательность строк изображения и сопутствующих звуков. Все усовершенствования, включая появление цифрового вещания и стандарта MPEG-2, не изменили эту концепцию в корне, хотя добавили к ней некоторые новые аспекты — многопрограммность, подписку, дополнительные услуги, зачатки интерактивности.

В последние годы мультимедийные и графические средства все чаще вторгаются в область классического ТВ вещания, которое, в свою очередь, проникает в сферу мультимедиа (значительная часть ТВ и звуковых программ транслируется в Интернете, иногда в специальных Интернет-версиях). Аудиовизуальное содержание все чаще используется в интерактивных приложениях, таких, например, как игры или дистанционное обучение. Заметно размывается граница между компьютерными изображениями, виртуальной реальностью и телевидением. Все чаще возникает необходимость перемещать один и тот же контент из одной сети в другую, из одной сферы в другую, и требуются унифицированные форматы представления и передачи информации.

Все эти факторы сформировали потребность в едином стандарте, который бы определял формат представления аудиовизуальной информации, совместимый с любой средой распространения, и механизмы интерактивного взаимодействия с мультимедийным контентом. В стандарте должны быть предусмотрены возможности передачи различных видов видео- и аудиоданных — текста, графики, двумерных (2D) и трехмерных (3D) изображений, натурального и синтезированного видео и аудио, в потоковой форме или в виде загружаемых файлов. Именно эти задачи решает стандарт MPEG-4 «Информационные технологии — Обобщенное кодирование аудиовизуальных объектов»

MPEG-4 является стандартом ISO/IEC, разработанным комитетом MPEG (Moving Picture Experts Group.

Стандарт MPEG-4 охватывает следующие области:

· цифровое телевидение и видеосвязь;

· интерактивную графику, синтез изображений;

· интерактивные мультимедийные приложения, в том числе передаваемые через Интернет.

Тенденция последних лет сближение, слияние этих источников аудиовизуальной информации, появление новых источников как натурального, так и синтезированного контента (содержания).

Стандарт MPEG-4 позволяет передавать и записывать в различные ЗУ видео- и звуковую информацию с очень большими коэффициентами сжатия. Первоначально он создавался для передачи движущихся изображений и звука по узкополосным каналам связи, что необходимо как в системах видеосвязи при использовании обычных телефонных сетей и относительно низкоскоростных цифровых каналов (64 кбит/с), так и для передачи через Интернет. В настоящее время MPEG-4 получил широкое распространение как средство записи кинофильмов и видеопрограмм на лазерные диски. Кроме того, новый стандарт обеспечивает интерактивность, т.е. возможность для пользователя управлять процессом передачи ему информации путем запросов, выбора вариантов и других действий.

Объекты и сцены

Важнейшей особенностью MPEG-4 является объектно-ориентированный подход, сущность которого заключается в том, что передаваемое изображение со звуковым сопровождением представляется как совокупность видео- и/или аудио- объектов (медиа -объектов).

Видеообъектами (VO - visual object) могут быть изображения людей и предметов, перемещающихся перед неподвижным фоном, и сам неподвижный фон. Обычное телевизионное изображение может быть единым видеообъектом.

Аудиообъектами (АО - audio object) могут быть голоса людей, музыка, другие звуки.

Связанные видео- и аудиообъекты, например, изображение человека и его голос, образуют аудио-визуальный объект (AVOs - audio-visual object).

Любая сцена разделяется на объекты, которые соотносятся в пространстве и времени и описываются отдельными элементарными потоками (ЭП). Объекты могут быть натуральными – записанными с видеокамеры или микрофона, и синтетическими – синтезированными в компьютере.

BIFS

Для описания сцены и ее динамического изменения в MPEG-4 используется специально разработанный двоичный язык BIFS (Binary Format for Scenes двоичный формат описания сцен).

Описание сцены указывает декодеру, где и когда воспроизводить объекты, входящие в сцену, и как реагировать на воздействие пользователя.

Чтобы увязать ЭП с медиа-объектами в сцене, используются дескрипторы объекта. Они переносят информацию о числе и свойствах ЭП, связанных с конкретными медиа-объектами. Сами дескрипторы также переносятся в одном или нескольких ЭП, поэтому нетрудно добавить или удалить объект во время сеанса.

Основные принципы BIFS заимствованы из языка VRML (Virtual Reality Modelling Language — язык моделирования виртуальной реальности), разработанного для создания 3D графики. Это широко распространенный и в значительной степени бесплатный язык программирования, точнее, эффективный 3D формат обмена, как бы объемный аналог HTML.

Язык BIFS позаимствовал у VRML структуру описания сцены в виде графа, модели поведения, графические примитивы для построения 3D-изображений: конусы, сферы, сетки, текстовые примитивы, текстурирование и подсветку (всего их 36).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: