П. 3. Выводы по ДКП

1. В цифровом телевидении применяемые методы преобразования изображения основаны на том, что его цифровой эквивалент (сигнал ИКМ) приводится к виду, удобному для сокращения избыточной информации. Наиболее эффективным методом является преобразование видеоинформации из временной области в спектральную. Результат преобразования представляет собой совокупность спектральных коэффициентов, которые характеризуют амплитуды пространственных частот изображения.

2. Из различных ортогональных преобразований стандартом MPEG рекомендовано использовать дискретно-косинусное преобразование (ДКП), являющееся частным случаем двумерного преобразования Фурье. Преобразование Фурье - это метод обработки, который анализирует изменение сигнала во времени, выражает их в виде частотного спектра. Любой сигнал можно разложить на частотные гармонические составляющие и затем по известным значениям амплитуды и фазы этих составляющих линейным суммированием их восстановить исходный сигнал.

3. Блок дискретного косинусного преобразования предназначен для повышения эффективности кодирования, которая связана с тремя факторами:

- в процессе преобразования ряд коэффициентов становится настолько малыми по величине, что их можно отбросить без заметного изменения качества восстановленного изображения;

- в процессе преобразования осуществляется декорреляция данных, обеспечивающая повышение эффективности статистического кодирования;

- нелинейное квантование коэффициентов преобразования позволяет существенно сократить объём передаваемой информации без заметного изменения качества изображения при его восстановлении.

4. Двумерное ДКП играет ключевую роль в обработке изображений. Алгоритм двумерного ДКП применяется к блокам изображения фиксированного размера 8х8 пикселов. Каждый блок - квадратная матрица. Ее размеры: 8 отсчетов (строк) по вертикали и 8 отсчетов по горизонтали. Таким образом, матрица содержит 8 х 8 = 64 отсчета ТВ сигнала. Она называется сигнальной матрицей. При этом в ТВ кадре создается: 576/8 = 72 зоны по вертикали и 704/8 = 88 зон по горизонтали, что в общей сложности дает: 72 х 88 = 6336 блоков, подлежащих ДКП в реальном масштабе времени. В результате ДКП исходная сигнальная матрица 8 х 8 = 64 ТВ отсчетов преобразуется в матрицу частотных коэффициентов ДКП такого же размера 8 х 8 = 64.

5. Поскольку, положение ТВ отсчетов сигнальной матрицы определяется двумя координатами, то частотные коэффициенты матрицы ДКП являются функциями этих двух переменных и обозначаются двузначными номерами. Отметим, что матрица частотных коэффициентов ДКП уже не имеет прямой геометрической связи с положением отсчетов ТВ сигнала на ТВ растре, а представляет собой только удобную форму математической записи, при которой частотные коэффициенты ДКП можно трактовать как двумерный спектр ТВ изображения в горизонтальном и вертикальном направлениях ТВ кадра.

6. Спектр ДКП имеет очень важную, если ее оценивать с позиций компрессии видеоданных, особенность: основная энергия частотных составляющих этого спектра концентрируется в небольшой области около нулевых частот. Амплитуда высокочастотных составляющих или мала, или просто равна нулю. Передаче подлежат только те частотные коэффициенты матрицы ДКП, величины которых превышают принятые пороговые значения. Коэффициенты ниже порогового значения считаются нулевыми. Следует отметить, что при кодировании динамический интервал уровней коэффициентов ДКП возрастает.

Чтобы избежать этого, после ДКП производится масштабирование (сжатие) динамического интервала сигналов коэффициентов ДКП за счет увеличения шага квантования. Эта операция сводится к делению полученных в матрице значений коэффициентов ДКП. Результат деления затем округляется до ближайших целых значений уровней новой шкалы квантования. Так, например, если исходное значение коэффициента ДКП было 22, то после деления на 8 и округления до ближайшего целого значения (22/8 = 2.75) новое значение будет 3. При этом новый динамический интервал составит от -255 до +255 дискретных уровней при ДИКМ. После выравнивания динамического диапазона коэффициенты ДКП подвергаются взвешенному квантованию для сокращения избыточности в высокочастотной области. Надо заметить, что чувствительность зрения наблюдателя здесь наименьшая. Точность кодирования зависит от шага квантования. Он выбирается разным для разных коэффициентов матрицы ДКП, его масштаб в процессе кодирования может меняться от 1 до 31.

После квантования коэффициенты ДКП преобразуют в энтропийном кодере, одновременно подвергают инверсному квантованию, обратному ДКП с целью получения декодированного изображения в кодере для более точного предсказания и компенсации движения.

7. Предсказание может быть экстраполяционным. В этом случае (его часто называют предсказанием ‘вперед’) по предшествующим значениям отсчетов ТВ сигнала оцениваются последующие отсчеты. Интерполяционное (двунаправленное) предсказание означает, что оценка среднего по положению отсчета ТВ сигнала выполняется по известным значениям предшествующих и последующих отсчетов. Такое предсказание наиболее точно оценивает текущие отсчеты. Однако, за точность приходится расплачиваться возросшим объемом вычислений и соответственно памяти, необходимой при реализации. При этом эффект не всегда окупает затраты. Предсказание выполняется по соседним с предсказываемым отсчетам, причем под соседними надо понимать отсчеты, расположенные "до и за" рассматриваемым. Возможно построчное, межстрочное, внутриполевое, внутрикадровое, межполевое и межкадровое предсказание. Это полный набор возможных направлений корреляций. MPEG-2, в отличие от MPEG-1, дает возможность обработки чересстрочных изображений. В MPEG-1 для кодирования таких изображений приходилось предварительно объединить два поля в один кадр и только после этого подавать сигнал на вход кодера. Однако процедура приводила к заметным искажениям. В этом случае отсчеты, принадлежащие однотипным элементам изображения, от поля к полю и от кадра к кадру будут смещаться. Возникают искажения типа «расчёска» при движении объекта по горизонтали и «жалюзи» - при движении по вертикали, вызванные не совпадением границ объекта в пространстве растра при совмещении нечётных и чётных полей. Для уменьшения этих искажений в MPEG-2 введена концепция полевого и кадрового кодирования. При полевом кодировании два поля одного кадра кодируются раздельно как самостоятельные изображения. Каждое поле разбивается на непересекающиеся макроблоки (8х8) или (16х16) пикселей (элементов) и к ним применяется ДКП. Кадровое кодирование предполагает построчное объединение двух полей в один кадр и обработку его как обычного изображения с прогрессивным разложением.

MPEG-2 определяет два типа ДКП для макроблоков: кадровое и полевое. Кадровое ДКП действует аналогично MPEG-1: макроблок отсчетов яркости 16х16 пикселей разбивается на 4 блока 8х8 пикселей в соответствии с их расположением. Полевое ДКП берет 8 строк из нечетного поля для верхних двух блоков и 8 строк из четного поля для нижних блоков, образуя нечетные и четные поля макроблока, как показано на рис. [8].


8. При простейшем внутриполевом предсказании вперед предшествующий отсчет ТВ строки принимается как ожидаемый уровень последующего отсчета. Фактически это означает вычеркивание постоянной составляющей или, что тоже самое, выделение разностной информации. Такой метод предсказания особенно эффективен, когда передаются крупные, не содержащих мелких деталей, фрагменты изображения, где яркость постоянна или изменяется медленно.

9. Другой способ - межкадровое предсказание “вперед”. В этом случае текущий отсчет оценивается по отсчету с теми же координатами, но предыдущего кадра. Это очень эффективный метод предсказания для неподвижных изображений. Ситуация усложняется, когда изображение содержит движущиеся объекты или изменятся в целом. Разностную информацию можно ослабить, если ввести компенсацию движения. Для этого необходимо определить векторы перемещения движущихся частей изображения при последовательном переходе от кадра к кадру. Векторы движения позволяют определить положение кодируемого отсчета в новом кадре (скомпенсировать его перемещение) и, таким образом, сохранить высокую точность предсказания.

10.Полевое ДКП более эффективно при существенном различии между полями, например, при наличии движения по вертикали. Полевое кодирование может использовать только полевое предсказание, у кадрового кодирования возможности шире – допускается применение кадрового предсказания или полевого. В последнем случае ищется сопряжение отдельно нечётного и чётного полей макроблока в каждом из двух полей опорного кадра и выбирается лучший результат.

Таким образом, в стандарте MPEG-2 кодер и декодер трактуют видеоданные как состоящие либо из 25 изображений в секунду с постоянным разрешением по вертикали, либо из 50 изображений в секунду с половинным разрешением по вертикали. Очевидно, что в обоих случаях объём информации на входе кодирующего устройства один и тот же. Полевая структура лучше подходит для компрессии изображений с быстрым движением, обеспечивая меньше артефактов. То есть она хороша для сюжетов с большим количеством движения, но хуже подходит при пространственной избыточности, обеспечивая худшее сжатие неподвижных изображений с точки зрения минимизации артефактов. Для кадровой или прогрессивной структуры справедливы, соответственно, обратные выводы. Выбор между кадровой и полевой структурами осуществляет специалист для достижения максимального уровня качества изображения [57].

11. Изображением в стандартах MPEG может быть как целый кадр так и одно из полей. Последовательность кадров делится на группы, называемые GOP.В группе есть кадры трёх типов. Так называемые “опорные” (I) кадры обрабатываются только с применением внутрикадрового кодирования. Это первый этап, где сжатие видеоданных относительно невелико, но зато при восстановлении ТВ изображения оно менее всего деградирует и зависит от ошибок кодирования и передачи видеоданных по каналу связи. Также существуют “предсказанные” (P) кадры (см. рис.), кодирование которых выполняется с использованием алгоритмов компенсации движения и предсказания “вперед” по предшествующим опорным или предсказанным кадрам. В предсказанных кадрах, если сравнивать их с опорными кадрами, в три раза выше достижимая степень сжатия видеоданных. И В-кадры – двунаправленные,которые передаются с межкадровым кодированием путем предсказания с компенсацией движения по ближайшим к ним как спереди, так и сзади

I- и P-кадрам.

12. Обработка видеоданных в предсказанном кадре при межкадровом предсказании выполняется по макроблокам. Это квадратные матрицы 16 х 16 (отсчетов х строк). Такой макроблок обрабатывается с использованием алгоритмов компенсации движения и предсказания вперед. Предшествующие предсказанные кадры являются опорными для последующих кадров и являются опорными для предсказания предшествующих и последующих кадров с двунаправленным предсказанием (B). Отметим, что необходима высокая точность восстановления исходного изображения при декодировании опорных и предсказанных кадров. Дело в том, что ошибки этих кадров распределяются по всем кадрам, связанными с данными опорных кадров.

13. Алгоритмы кодирования двунаправлено предсказанных кадров зависят от характера ТВ изображения, чаще всего применяется компенсация движения и предсказание вперед по ближайшим предшествующим опорным или предсказанным кадрам. Очевидно, что точность кодирования должна быть максимальной для опорных кадров, ниже для предсказанных кадров и минимальной для двунаправлено предсказанных кадров.

14. Метод компенсации движения основан на макроблоках. Два смежных кадра, содержащих только активные строки сигнала яркости (576 активных строк), разбиваются на макроблоки и более крупные зоны поиска. Размеры макроблока должны быть согласованы со структурой дискретизации кадра ТВ изображения, а ТВ кадр разбивается при этом на целое число зон. По вертикали (576 активных строк/16) - это 36 зон, по горизонтали (704 активных отсчета/16) - 44 зоны.

Зона поиска должна быть достаточно большой, чтобы быстро движущийся макроблок изображения первого кадра не вышел из зоны поиска второго кадра. Размеры зоны поиска ограничиваются объемом вычислений, которые необходимо выполнить в реальном масштабе времени. Эти размеры также должны быть согласованы с принятой структурой дискретизации ТВ кадра. Обычно, они в 4 раза больше размеров отдельного макроблока. Иными словами, размеры зоны поиска - это 64 х 64. Таким образом, в ТВ кадре создается 576/64 = 9 зон поиска по вертикали и 704/64 = 11 зон по горизонтали.

Найденные координаты вектора движения рассчитываются как смещение макроблока по вертикали и горизонтали относительно его начального положения. Сигналы вектора движения также преобразуют в энтропийном кодере.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: