Теоретические сведения

Идея арифметического кодирования была впервые предложена П. Элиасом. В арифметическом коде кодируемое сообщение разбивается на блоки постоянной длины, которые затем кодируются отдельно. При этом при увеличении длины блока средняя длина кодового слова стремится к энтропии, однако возрастает сложность реализации алгоритма и уменьшается скорость кодирования и декодирования. Таким образом, арифметическое кодирование позволяет получить произвольно малую избыточность при кодировании достаточно больших блоков входного сообщения.

Рассмотрим общую идею арифметического кодирования. Пусть дан источник, порождающий буквы из алфавита А ={ a ₁ ,a ₂,…, a_n } с вероятностями p_i = P (a_i), . Необходимо закодировать последовательность символов данного источника Х=х ₁ х ₂ х ₃ х ₄.

1. Вычислим кумулятивные вероятности Q ₀, Q ₁,…, Q_n:

Q ₀=0

Q ₁= p ₁

Q ₂ =p ₁ +p ₂

Q ₃ =p ₁ +p ₂ +p ₃

...

Q_n=p ₁ +p ₂ + … +p_n= 1

2. Разобьем интервал [ Q ₀, Q_n) (т.е. интервал [0,1)) так, чтобы каждой букве исходного алфавита соответствовал свой интервал, равный ее вероятности (рис. 1):

a ₁ [ Q ₀, Q ₁)

a ₂[ Q ₁, Q ₂)

a ₃[ Q ₂, Q ₃)

a ₄[ Q ₃, Q ₄)

...

a_n [ Q_n_- ₁, Q_n)

3. В процессе кодирования будем выбирать интервал, соответствующий текущей букве исходного сообщения, и снова разбивать его пропор-ционально вероятностям исходных букв алфавита. Постепенно проис-ходит сужение интервала до тех пор, пока не будет закодирован последний символ кодируемого сообщения. Двоичное представление любой точки, расположенной внутри интервала, и будет кодом исходного сообщения.

На рис. 1 показан этот процесс для кодирования последовательности а ₃ а ₂ а ₃…

Рис. 1. Схема арифметического кодирования

Для удобства вычислений введем следующие обозначения:

l_i - нижняя граница отрезка, соответствующего i- той букве исходного сообщения;

h_i - верхняя граница этого отрезка;

r_i - длина отрезка [ l_i, h_i), т.е. r_i = h_i - l_i.

Возьмем начальные значения этих величин:

l ₀ = Q ₀ = 0, h ₀ = Q_k= 1, r ₀ = h ₀ - l ₀ = 1

и далее будем вычислять границы интервала, соответствующего кодируемой букве, по формулам:

, ,

где m - порядковый номер кодируемой буквы в алфавите источника, m= 1,..., n.

Таким образом, окончательная длина интервала равна произведению вероятностей всех встретившихся символов, а начало интервала зависит от порядка расположения символов в кодируемой последовательности.

Для однозначного декодирования исходной последовательности достаточно взять разрядов двоичной записи любой точки из интервала [ l_i, h_i), где r_k - длина интервала после кодирования k символов источника.

Пример. Рассмотрим кодирование бесконечной последовательности X=a ₃ a ₂ a ₃ a ₁ a ₄ ... в алфавите A= { a ₁, a ₂, a ₃, a ₄} с помощью арифметического кода. Пусть вероятности букв исходного алфавита равны соответственно

p ₁ = 0.1, p ₂ = 0.4, p ₃ = 0.2, p ₄ = 0.3.

Вычислим кумулятивные вероятности Q_i:

Q ₀ = 0,

Q ₁ =p ₁ = 0.1,

Q ₂ =p ₁ +p₂ = 0.5,

Q ₃ =p ₁ +p ₂ +p ₃ = 0.7,

Q ₄ =p ₁ +p ₂ +p ₃ + p ₄ = 1.

Получим границы интервала, соответствующего первому символу кодируемого сообщения a ₃:

l ₁ = l ₀ + r ₀ ·Q ₂ = 0 + 1·0.5 = 0.5,

h ₁ = l ₀ + r ₀ ·Q ₃ = 0 + 1·0.7 = 0.7,

r ₁ = h ₁ - l ₁ = 0.7 - 0.5 = 0.2.

Для второго символа кодируемого сообщения a ₂границы интервала будут следующие:

l ₂ = l ₁ + r ₁ ·Q₁ = 0.5 + 0.2·0.1 = 0.52,

h ₂ = l ₁ + r₁·Q ₂ = 0.5 + 0.2·0.5 = 0.6,

r ₂ = h ₂ - l ₂ = 0.6 - 0.52 = 0.08и т.д.

В результате всех вычислений получаем следующую последовательность интервалов для сообщения a ₃ a ₂ a ₃ a ₁ a ₄:

В начале [0.0, 1.0)

После пpосмотpа a ₃ [0.5, 0.7)

После пpосмотpа a ₂ [0.52, 0.6)

После пpосмотpа a ₃ [0.56, 0.576)

После пpосмотpа a ₁ [0.56, 0.5616)

После пpосмотpа a ₄ [0.56112, 0.5616)

Кодом последовательности a ₃ a ₂ a ₃ a ₁ a ₄будет двоичная запись любой точки из интервала [0.56112, 0.5616), например, 0.56112. Для однозначного декодирования возьмем élog₂(r ₅)ù = élog₂(0.00048)ù = 12 разрядов, получим 100011111010.

Таким образом, при арифметическом кодировании сообщение представляется вещественными числами в интервале [0,1). По мере кодирования сообщения отображающий его интервал уменьшается, а количество битов для представления интервала возрастает. Очередные символы сообщения сокращают величину интервала в зависимости от значений их вероятностей. Более вероятные символы делают это в меньшей степени, чем менее вероятные, и следовательно, добавляют меньше битов к результату.