Количество информации

Понятие «количество информации» сформулировано в работах американских учёных Хартли и (особенно) Шеннона. Оно является центральным в «классической» теории информации, основная проблема которой – изучение передачи информации по каналам связи, хранения её, кодирования и декодирования, борьбы с шумами и помехами. Отметим – безотносительно к смыслу (семантике) передаваемых сообщений. В настоящее время развиваются и другие разделы теории информации – динамическая теория информации, семантическая теория информации, теория квантовой информации. Но в их основе находится теория информации Шеннона и её методы измерения количества информации. Мы рассмотрим основные формулы, относящиеся к передаче информации в дискретном (цифровом, алфавитном) виде. Сейчас – это основной метод работы с информацией. Да и формулы проще, чем в «непрерывной» теории.

По К. Шеннону количество информации I_N в сообщении, содержащем N символов определяется по формуле:

I_N₌-N pi log₂pi (1)

M - число букв (символов) в используемом алфавите;

pi - частота (статистическая вероятность) появления i-той буквы в языке сообщения;

минус – чтобы величина I_N была неотрицательной.

Двоичные логарифмы используются в теории информации исходя из естественного требования, чтобы в минимальном сообщении содержалось количество информации, равное 1. Минимальный алфавит состоит из двух символов, например 0 и 1 (меньше нельзя): M=2, минимальное сообщение – из одного символа N=1, частоты символов равны: Pi=.

Подставив эти значения в формулу (1) действительно получим 1:

I₂= -1((-1) + (-1)) = 1.

Это минимальное количество информации I=1, получило название «бит» (от английских слов binary digit – двоичный знак). Если в (1) использовать натуральные логарифмы, то единица информации называется «нат». Между битами и натами существуют соотношения:

1 бит = 1.44 ната; 1нат= 0.69 бита;

Поскольку в компьютере, калькуляторе содержится стандартная функция для вычисления натуральных логарифмов, то в практическом плане удобнее сначала вычислить количество информации в натах, а затем перевести в биты, умножив на 1.44.

Рассмотрим иную ситуацию – выбор варианта (напомним, что в системном анализе варианты называются альтернативами).

Если делаем выбор одного из n возможных вариантов (с известными вероятностями этих вариантов pi, i= 1;2;…n) то количество информации, то количество информации определяется по формуле:

I = -pi log₂pi (2)

Если все варианты равновероятны:

= n pi =1; pi=1/n;

И тогда формула (2) принимает вид:

I = log₂n (3).

Это – исторически первая формула теории вероятностей, формула Хартли.

В частном случае бинарного алфавита (M=2; 0 и 1) число вариантов равно 2^N; pi = E^-^N; log₂pi = -N; I=N; (4)

Это совпадает с (1) при бинарном равновероятном алфавите и N символах в сообщении.

Формулы (1) и (2) отражают количество информации, но не ее ценность. Количество информации в сообщении, определяемое формулой Шеннона, не зависит от сочетания букв: переставив (случайным образом или кодированием) буквы мы можем делать сообщение бессмысленным. Количество информации по Шеннону сохранится, а ценность информации может исчезнуть.

Эта информация (по Шеннону) полезна в статистической теории связи, но бесполезна в системном анализе и других дисциплинах, занимающихся знаниями.

Количество и ценность информации – разные понятия и не стоит подменять одно другим.

Допустим, что любое сочетание букв в тексте является ценным. В этом умозрительном, нереальном случае количество ценной информации совпадает с полным количеством, определяемым формулой (2) и не может превышать его. По жизни ценной информации в тексте меньше, иногда её нет вообще. Поэтому максимальное количество информации в (2) названо информационной тарой [Корогодин]. Это понятие играет существенную роль при рецепции (приеме/ передаче) информации и при ее перекодировке.

Текст на русском языке содержит N_r букв кириллицы (алфавит содержит 32 буквы; M_r =32;). Английский перевод содержит N_a букв; M_a=26; Русский текст – результат выбора определенного варианта из N_a = 32^Na возможных. Английский перевод – выбор (преопределенный русским текстом) одного варианта из N_a = 26 ^Na возможных. Если смысл не искажён, то количество ценной информации одинаково, а количество информации по Шеннону различно. Процессы генерации, рецепции обработки сопровождаются «переливаем» информации из одной тары в другую. При этом, как правило, количество информации по Шеннону уменьшается, а количество ценной информации сохраняется и, даже, возрастает.

Таким образом, информационная тара – это мощность множества, из которого могут быть выбраны варианты (алфавит, слова, тексты). Информационная емкость – свойство информационных систем (например, информационная емкость компакт-диска равна 720 МБ).

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

1 2

Правила хранения, приготовления и использования дезинфицирующих средств

Правила транспортировки биологического материала в лабораторию

Расчёт pH в растворах кислот и оснований. Расчёт концентраций кислот и оснований по pH

Действия сотрудников ОВД при ОБНАРУЖЕНИИ взрывоопасных предметов и взрывных устройств

Логические выражения и логические операции

Механизм государства

Самый сильный аргумент, почему эволюция человека не могла быть