Теоретические сведения

Взаимосвязь между средней длиной кодового слова и энтропией дискретного вероятностного источника при побуквенном кодировании выражает следующая теорема.

Теорема 1 (Шеннон). Для источника с алфавитом А= { a ₁, …, a_n } и вероятностями p_i =P (a_i), и любого разделимого побуквенного кода средняя длина кодового слова всегда не меньше энтропии

L_cp ≥ H (p ₁, …, p_n)

и можно построить разделимый побуквенный код, у которого средняя длина кодового слова превосходит энтропию не больше, чем на единицу:

L_cp < H(p ₁, …, p_n)+ 1

Рассмотрим несколько классических побуквенных кодов, у которых средняя длина кодового слова близка к оптимальной. Пусть имеется дискретный вероятностный источник, порождающий символы алфавита А= { a ₁,…, a_n } с вероятностями p_i = P (a_i).

Код Шеннонапозволяет построить почти оптимальный код с длинами кодовых слов . Тогда по теореме Шеннона:

Код Шеннона, удовлетворяющий этому соотношению, строится следующим образом:

1. Упорядочиваются символы исходного алфавита А={ a ₁ ,a ₂, …, a_n } по убыванию их вероятностей: p ₁ ≥ p ₂ ≥ p ₃ ≥ … ≥ p_n.

2. Вычисляются величины Q_i, которые называются кумулятивными вероятностями:

Q ₀ = 0, Q ₁ = p ₁, Q ₂ = p ₁ +p ₂, Q ₃ = p ₁ +p ₂ +p ₃, …, Q_n = 1.

3. Представляется Q_i в двоичной системе счисления и берутся в качестве кодового слова первые знаков после запятой.

Для вероятностей, представленных в виде десятичных дробей, удобно определить длину кодового слова L_i из соотношения:

, .

Пример 1. Пусть дан алфавит A={ a ₁, a ₂, a ₃, a ₄, a ₅, a ₆} с вероятностями p ₁=0.36, p ₂=0.18, p ₃=0.18, p ₄=0.12, p ₅=0.09, p ₆=0.07. Построенный код приведен в таблице 1.

Таблица 1

Код Шеннона

a_i	P_i	Q_i	L_i	Кодовое слово
a ₁ a ₂ a ₃ a ₄ a ₅ a ₆	1/2²≤0.36<1/2 1/2³≤0.18<1/2² 1/2³≤0.18<1/2² 1/2⁴≤0.12<1/2³ 1/2⁴≤0.09<1/2³ 1/2⁴≤0.07<1/2³	0 0.36 0.54 0.72 0.84 0.93	2 3 3 4 4 4	00 010 100 1011 1101 1110

Построенный код является префиксным. Вычислим среднюю длину кодового слова и сравним ее с энтропией. Значение энтропии вычислено при построении кода Хаффмана в лабораторной работе № 2 (H = 2.37), сравним его со значением средней длины кодового слова кода Шеннона:

L_ср = 0.36 ^. 2+(0.18+0.18) ^. 3+(0.12+0.09+0.07) ^. 4 = 2.92 < 2.37 + 1,

что полностью соответствует утверждению теоремы Шеннона.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: