Количество информации

Понятие «количество информации» сформулировано в работах американских учёных Хартли и (особенно) Шеннона. Оно является центральным в «классической» теории информации, основная проблема которой – изучение передачи информации по каналам связи, хранения её, кодирования и декодирования, борьбы с шумами и помехами. Отметим – безотносительно к смыслу (семантике) передаваемых сообщений. В настоящее время развиваются и другие разделы теории информации – динамическая теория информации, семантическая теория информации, теория квантовой информации. Но в их основе находится теория информации Шеннона и её методы измерения количества информации. Мы рассмотрим основные формулы, относящиеся к передаче информации в дискретном (цифровом, алфавитном) виде. Сейчас – это основной метод работы с информацией. Да и формулы проще, чем в «непрерывной» теории.

По К. Шеннону количество информации IN в сообщении, содержащем N символов определяется по формуле:

IN= -N pi log2pi (1)

M - число букв (символов) в используемом алфавите;

pi - частота (статистическая вероятность) появления i-той буквы в языке сообщения;

минус – чтобы величина IN была неотрицательной.

Двоичные логарифмы используются в теории информации исходя из естественного требования, чтобы в минимальном сообщении содержалось количество информации, равное 1. Минимальный алфавит состоит из двух символов, например 0 и 1 (меньше нельзя): M=2, минимальное сообщение – из одного символа N=1, частоты символов равны: Pi=.

Подставив эти значения в формулу (1) действительно получим 1:

I2= -1((-1) + (-1)) = 1.

Это минимальное количество информации I=1, получило название «бит» (от английских слов binary digit – двоичный знак). Если в (1) использовать натуральные логарифмы, то единица информации называется «нат». Между битами и натами существуют соотношения:

1 бит = 1.44 ната; 1нат= 0.69 бита;

Поскольку в компьютере, калькуляторе содержится стандартная функция для вычисления натуральных логарифмов, то в практическом плане удобнее сначала вычислить количество информации в натах, а затем перевести в биты, умножив на 1.44.

Рассмотрим иную ситуацию – выбор варианта (напомним, что в системном анализе варианты называются альтернативами).

Если делаем выбор одного из n возможных вариантов (с известными вероятностями этих вариантов pi, i= 1;2;…n) то количество информации, то количество информации определяется по формуле:

I = -pi log2pi (2)

Если все варианты равновероятны:

= n pi =1; pi=1/n;

И тогда формула (2) принимает вид:

I = log2n (3).

Это – исторически первая формула теории вероятностей, формула Хартли.

В частном случае бинарного алфавита (M=2; 0 и 1) число вариантов равно 2N; pi = E-N; log2pi = -N; I=N; (4)

Это совпадает с (1) при бинарном равновероятном алфавите и N символах в сообщении.

Формулы (1) и (2) отражают количество информации, но не ее ценность. Количество информации в сообщении, определяемое формулой Шеннона, не зависит от сочетания букв: переставив (случайным образом или кодированием) буквы мы можем делать сообщение бессмысленным. Количество информации по Шеннону сохранится, а ценность информации может исчезнуть.

Эта информация (по Шеннону) полезна в статистической теории связи, но бесполезна в системном анализе и других дисциплинах, занимающихся знаниями.

Количество и ценность информации – разные понятия и не стоит подменять одно другим.

Допустим, что любое сочетание букв в тексте является ценным. В этом умозрительном, нереальном случае количество ценной информации совпадает с полным количеством, определяемым формулой (2) и не может превышать его. По жизни ценной информации в тексте меньше, иногда её нет вообще. Поэтому максимальное количество информации в (2) названо информационной тарой [Корогодин]. Это понятие играет существенную роль при рецепции (приеме/ передаче) информации и при ее перекодировке.

Текст на русском языке содержит Nr букв кириллицы (алфавит содержит 32 буквы; Mr =32;). Английский перевод содержит Na букв; Ma=26; Русский текст – результат выбора определенного варианта из Na = 32Na возможных. Английский перевод – выбор (преопределенный русским текстом) одного варианта из Na = 26 Na возможных. Если смысл не искажён, то количество ценной информации одинаково, а количество информации по Шеннону различно. Процессы генерации, рецепции обработки сопровождаются «переливаем» информации из одной тары в другую. При этом, как правило, количество информации по Шеннону уменьшается, а количество ценной информации сохраняется и, даже, возрастает.

Таким образом, информационная тара – это мощность множества, из которого могут быть выбраны варианты (алфавит, слова, тексты). Информационная емкость – свойство информационных систем (например, информационная емкость компакт-диска равна 720 МБ).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: