Лекция 5. Измерение информации

1. Подходы к измерению информации

При всем многообразии подходов к определению понятия информации, с позиций измерения информации нас интересуют два из них: определение К. Шеннона, применяемое в математической теории информации, и определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров.

В содержательном подходе возможна качественная оценка информации: новая, срочная, важная и т.д. Содержательный подход часто называют субъективным, так как разные люди (субъекты) информацию об одном и том же предмете оценивают по-разному.

Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. Алфавитный подход является объективным, т.е. он не зависит от субъекта, воспринимающего сообщение.

2. Единицы измерения информации

Единица измерения информации называется бит.

В компьютерной технике бит соответствует физическому состоянию носителя информации: намагничено - не намагничено, есть отверстие - нет отверстия. При этом одно состояние принято обозначать цифрой 0, а другое - цифрой 1. Выбор одного из двух возможных вариантов позволяет также различать логические истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется двоичным кодированием.
В информатике часто используется величина, называемая байтом и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из 256 (28). В большинстве современных ЭВМ при кодировании каждому символу соответствует своя последовательность из восьми нулей и единиц, т. е. байт. Соответствие байтов и символов задается с помощью таблицы, в которой для каждого кода указывается свой символ.

Наряду с байтами для измерения количества информации используются более крупные единицы:

1 Кбайт (один килобайт) = 210 байт = 1024 байта;

1 Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайта;

1 Гбайт (один гигабайт) = 210 Мбайт = 1024 Мбайта.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тб) = 1024 Гбайта = 240 байта,

1 Петабайт (Пб) = 1024 Тбайта = 250 байта.

Рассмотрим, как можно подсчитать количество информации в сообщении, используя содержательный подход.

Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов.

Для кодирования одного символа требуется 1 байт информации.

Если рассматривать символы как возможные события, то можно вычислить, какое количество различных символов можно закодировать:

N = 2I= 28 = 256 (формула Хартли).

При вычислении двоичных логарифмов чисел от 1 до 64 по формуле x=log2N поможет следующая таблица.

N x N x N x N x
  0,00000   4,08746   5,04439   5,61471
  1,00000   4,16993   5,08746   5,64386
  1,58496   4,24793   5,12928   5,67243
  2,00000   4,32193   5,16993   5,70044
  2,32193   4,39232   5,20945   5,72792
  2,58496   4,45943   5,24793   5,75489
  2,80735   4,52356   5,28540   5,78136
  3,00000   4,58496   5,32193   5,80735
  3,16993   4,64386   5,35755   5,83289
  3,32193   4,70044   5,39232   5,85798
  3,45943   4,75489   5,42626   5,88264
  3,58496   4,80735   5,45943   5,90689
  3,70044   4,85798   5,49185   5,93074
  3,80735   4,90689   5,52356   5,95420
  3,90689   4,95420   5,55459   5,97728
  4,00000   5,00000   5,58496   6,00000

3. Вероятностный подход к измерению информации

Формулу для вычисления количества информации, учитывающую неодинаковую вероятность событий, предложил К. Шеннон в 1948 году. Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем x выражается формулой: x=log2 (1/p). Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить следующим образом - чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии.

Рассмотрим некоторую ситуацию. В коробке имеется 50 шаров. Из них 40 белых и 10 черных. Очевидно, вероятность того, что при вытаскивании "не глядя" попадется белый шар больше, чем вероятность попадания черного. Можно сделать заключение о вероятности события, которые интуитивно понятны. Проведем количественную оценку вероятности для каждой ситуации. Обозначим pч - вероятность попадания при вытаскивании черного шара, рб - вероятность попадания белого шара. Тогда: рч=10/50=0,2; рб40/50=0,8. Заметим, что вероятность попадания белого шара в 4 раза больше, чем черного. Делаем вывод: если N - это общее число возможных исходов какого-то процесса (вытаскивание шара), и из них интересующее нас событие (вытаскивание белого шара) может произойти K раз, то вероятность этого события равна K/N. Вероятность выражается в долях единицы. Вероятность достоверного события равна 1 (из 50 белых шаров вытащен белый шар). Вероятность невозможного события равна нулю (из 50 белых шаров вытащен черный шар).

Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем x выражается формулой: . В задаче о шарах количество информации в сообщении о попадании белого шара и черного шара получится: .

Рассмотрим некоторый алфавит из m символов: и вероятность выбора из этого алфавита какой-то i -й буквы для описания (кодирования) некоторого состояния объекта. Каждый такой выбор уменьшит степень неопределенности в сведениях об объекте и, следовательно, увеличит количество информации о нем. Для определения среднего значения количества информации, приходящейся в данном случае на один символ алфавита, применяется формула . В случае равновероятных выборов p=1/m. Подставляя это значение в исходное равенство, мы получим

Рассмотрим следующий пример. Пусть при бросании несимметричной четырехгранной пирамидки вероятности выпадения граней будут следующими: p1=1/2, p2=1/4, p3=1/8, p4=1/8, тогда количество информации, получаемое после броска, можно рассчитать по формуле:

Для симметричной четырехгранной пирамидки количество информации будет: H=log24=2(бит).

Заметим, что для симметричной пирамидки количество информации оказалось больше, чем для несимметричной пирамидки. Максимальное значение количества информации достигается для равновероятных событий.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: