Понятие «количество информации» сформулировано в работах американских учёных Хартли и (особенно) Шеннона. Оно является центральным в «классической» теории информации, основная проблема которой – изучение передачи информации по каналам связи, хранения её, кодирования и декодирования, борьбы с шумами и помехами. Отметим – безотносительно к смыслу (семантике) передаваемых сообщений. В настоящее время развиваются и другие разделы теории информации – динамическая теория информации, семантическая теория информации, теория квантовой информации. Но в их основе находится теория информации Шеннона и её методы измерения количества информации. Мы рассмотрим основные формулы, относящиеся к передаче информации в дискретном (цифровом, алфавитном) виде. Сейчас – это основной метод работы с информацией. Да и формулы проще, чем в «непрерывной» теории.
По К. Шеннону количество информации IN в сообщении, содержащем N символов определяется по формуле:
IN= -N pi log2pi (1)
M - число букв (символов) в используемом алфавите;
|
|
pi - частота (статистическая вероятность) появления i-той буквы в языке сообщения;
минус – чтобы величина IN была неотрицательной.
Двоичные логарифмы используются в теории информации исходя из естественного требования, чтобы в минимальном сообщении содержалось количество информации, равное 1. Минимальный алфавит состоит из двух символов, например 0 и 1 (меньше нельзя): M=2, минимальное сообщение – из одного символа N=1, частоты символов равны: Pi=.
Подставив эти значения в формулу (1) действительно получим 1:
I2= -1((-1) + (-1)) = 1.
Это минимальное количество информации I=1, получило название «бит» (от английских слов binary digit – двоичный знак). Если в (1) использовать натуральные логарифмы, то единица информации называется «нат». Между битами и натами существуют соотношения:
1 бит = 1.44 ната; 1нат= 0.69 бита;
Поскольку в компьютере, калькуляторе содержится стандартная функция для вычисления натуральных логарифмов, то в практическом плане удобнее сначала вычислить количество информации в натах, а затем перевести в биты, умножив на 1.44.
Рассмотрим иную ситуацию – выбор варианта (напомним, что в системном анализе варианты называются альтернативами).
Если делаем выбор одного из n возможных вариантов (с известными вероятностями этих вариантов pi, i= 1;2;…n) то количество информации, то количество информации определяется по формуле:
I = -pi log2pi (2)
Если все варианты равновероятны:
= n pi =1; pi=1/n;
И тогда формула (2) принимает вид:
I = log2n (3).
Это – исторически первая формула теории вероятностей, формула Хартли.
В частном случае бинарного алфавита (M=2; 0 и 1) число вариантов равно 2N; pi = E-N; log2pi = -N; I=N; (4)
|
|
Это совпадает с (1) при бинарном равновероятном алфавите и N символах в сообщении.
Формулы (1) и (2) отражают количество информации, но не ее ценность. Количество информации в сообщении, определяемое формулой Шеннона, не зависит от сочетания букв: переставив (случайным образом или кодированием) буквы мы можем делать сообщение бессмысленным. Количество информации по Шеннону сохранится, а ценность информации может исчезнуть.
Эта информация (по Шеннону) полезна в статистической теории связи, но бесполезна в системном анализе и других дисциплинах, занимающихся знаниями.
Количество и ценность информации – разные понятия и не стоит подменять одно другим.
Допустим, что любое сочетание букв в тексте является ценным. В этом умозрительном, нереальном случае количество ценной информации совпадает с полным количеством, определяемым формулой (2) и не может превышать его. По жизни ценной информации в тексте меньше, иногда её нет вообще. Поэтому максимальное количество информации в (2) названо информационной тарой [Корогодин]. Это понятие играет существенную роль при рецепции (приеме/ передаче) информации и при ее перекодировке.
Текст на русском языке содержит Nr букв кириллицы (алфавит содержит 32 буквы; Mr =32;). Английский перевод содержит Na букв; Ma=26; Русский текст – результат выбора определенного варианта из Na = 32Na возможных. Английский перевод – выбор (преопределенный русским текстом) одного варианта из Na = 26 Na возможных. Если смысл не искажён, то количество ценной информации одинаково, а количество информации по Шеннону различно. Процессы генерации, рецепции обработки сопровождаются «переливаем» информации из одной тары в другую. При этом, как правило, количество информации по Шеннону уменьшается, а количество ценной информации сохраняется и, даже, возрастает.
Таким образом, информационная тара – это мощность множества, из которого могут быть выбраны варианты (алфавит, слова, тексты). Информационная емкость – свойство информационных систем (например, информационная емкость компакт-диска равна 720 МБ).