Энтропия
, определяемая выражением (1.9), характеризует среднее количество информации, приходящееся на один знак дискретного сообщения, и является максимальной, когда все знаки сообщения равновероятны и независимы друг от друга. При учете вероятностей появления отдельных знаков сообщения, а также статистических связей между знаками, энтропия уменьшается. Это значит, что при наличии связей между знаками часть информации не является непредвиденной для получателя и ее можно было бы не передавать по каналу связи, а восстанавливать на приемной стороне на основании известной связи между знаками. Таким образом, появляется возможность передачи сообщений в сокращенном виде.
Величина, показывающая, какая часть сообщения при данных условиях может быть устранена без потери информации, называется избыточностью.
Абсолютная величина избыточности определяется выражением:
, (2.4)
где
– максимальная энтропия сообщения, определяемая при равновероятных и статистически независимых знаках в сообщении;
– реальная энтропия сообщения.
Относительная избыточность, называемая информационной, определяется выражением:
. (2.5)
Информационная избыточность показывает относительную недогруженность одного знака алфавита и является безразмерной величиной, изменяющейся в пределах:
.
В соответствии с (2.5), избыточность, обусловленная неравновероятным появлением знаков в сообщении, будет равна:
, (2.6)
где
– объем используемого алфавита;
.
Избыточность, вызванная статистической связью между знаками сообщения:
, (2.7)
где
– вероятность нахождения источника в
характерном состоянии;
– энтропия источника в
состоянии, определяемая выражением (1.20).
Полная информационная избыточность равна [8]:
(2.8)
Подставляя (2.6) и (2.7) в (2.8), после преобразований, получаем:
(2.9)
Статистический анализ текстов на русском языке показывает, что
,
,
. Из этих данных следует, что основная избыточность здесь обусловлена наличием статистической связи между буквами.