1. Подходы к измерению информации
При всем многообразии подходов к определению понятия информации, с позиций измерения информации нас интересуют два из них: определение К. Шеннона, применяемое в математической теории информации, и определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров.
В содержательном подходе возможна качественная оценка информации: новая, срочная, важная и т.д. Содержательный подход часто называют субъективным, так как разные люди (субъекты) информацию об одном и том же предмете оценивают по-разному.
Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. Алфавитный подход является объективным, т.е. он не зависит от субъекта, воспринимающего сообщение.
2. Единицы измерения информации
Единица измерения информации называется бит.
В компьютерной технике бит соответствует физическому состоянию носителя информации: намагничено - не намагничено, есть отверстие - нет отверстия. При этом одно состояние принято обозначать цифрой 0, а другое - цифрой 1. Выбор одного из двух возможных вариантов позволяет также различать логические истину и ложь. Последовательностью битов можно закодировать текст, изображение, звук или какую-либо другую информацию. Такой метод представления информации называется двоичным кодированием.
В информатике часто используется величина, называемая байтом и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из 256 (28). В большинстве современных ЭВМ при кодировании каждому символу соответствует своя последовательность из восьми нулей и единиц, т. е. байт. Соответствие байтов и символов задается с помощью таблицы, в которой для каждого кода указывается свой символ.
|
|
Наряду с байтами для измерения количества информации используются более крупные единицы:
1 Кбайт (один килобайт) = 210 байт = 1024 байта;
1 Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайта;
1 Гбайт (один гигабайт) = 210 Мбайт = 1024 Мбайта.
В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:
1 Терабайт (Тб) = 1024 Гбайта = 240 байта,
1 Петабайт (Пб) = 1024 Тбайта = 250 байта.
Рассмотрим, как можно подсчитать количество информации в сообщении, используя содержательный подход.
Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов.
Для кодирования одного символа требуется 1 байт информации.
Если рассматривать символы как возможные события, то можно вычислить, какое количество различных символов можно закодировать:
|
|
N = 2I= 28 = 256 (формула Хартли).
При вычислении двоичных логарифмов чисел от 1 до 64 по формуле x=log2N поможет следующая таблица.
N | x | N | x | N | x | N | x |
0,00000 | 4,08746 | 5,04439 | 5,61471 | ||||
1,00000 | 4,16993 | 5,08746 | 5,64386 | ||||
1,58496 | 4,24793 | 5,12928 | 5,67243 | ||||
2,00000 | 4,32193 | 5,16993 | 5,70044 | ||||
2,32193 | 4,39232 | 5,20945 | 5,72792 | ||||
2,58496 | 4,45943 | 5,24793 | 5,75489 | ||||
2,80735 | 4,52356 | 5,28540 | 5,78136 | ||||
3,00000 | 4,58496 | 5,32193 | 5,80735 | ||||
3,16993 | 4,64386 | 5,35755 | 5,83289 | ||||
3,32193 | 4,70044 | 5,39232 | 5,85798 | ||||
3,45943 | 4,75489 | 5,42626 | 5,88264 | ||||
3,58496 | 4,80735 | 5,45943 | 5,90689 | ||||
3,70044 | 4,85798 | 5,49185 | 5,93074 | ||||
3,80735 | 4,90689 | 5,52356 | 5,95420 | ||||
3,90689 | 4,95420 | 5,55459 | 5,97728 | ||||
4,00000 | 5,00000 | 5,58496 | 6,00000 |
3. Вероятностный подход к измерению информации
Формулу для вычисления количества информации, учитывающую неодинаковую вероятность событий, предложил К. Шеннон в 1948 году. Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем x выражается формулой: x=log2 (1/p). Качественную связь между вероятностью события и количеством информации в сообщении об этом событии можно выразить следующим образом - чем меньше вероятность некоторого события, тем больше информации содержит сообщение об этом событии.
Рассмотрим некоторую ситуацию. В коробке имеется 50 шаров. Из них 40 белых и 10 черных. Очевидно, вероятность того, что при вытаскивании "не глядя" попадется белый шар больше, чем вероятность попадания черного. Можно сделать заключение о вероятности события, которые интуитивно понятны. Проведем количественную оценку вероятности для каждой ситуации. Обозначим pч - вероятность попадания при вытаскивании черного шара, рб - вероятность попадания белого шара. Тогда: рч=10/50=0,2; рб40/50=0,8. Заметим, что вероятность попадания белого шара в 4 раза больше, чем черного. Делаем вывод: если N - это общее число возможных исходов какого-то процесса (вытаскивание шара), и из них интересующее нас событие (вытаскивание белого шара) может произойти K раз, то вероятность этого события равна K/N. Вероятность выражается в долях единицы. Вероятность достоверного события равна 1 (из 50 белых шаров вытащен белый шар). Вероятность невозможного события равна нулю (из 50 белых шаров вытащен черный шар).
Количественная зависимость между вероятностью события р и количеством информации в сообщении о нем x выражается формулой: . В задаче о шарах количество информации в сообщении о попадании белого шара и черного шара получится: .
Рассмотрим некоторый алфавит из m символов: и вероятность выбора из этого алфавита какой-то i -й буквы для описания (кодирования) некоторого состояния объекта. Каждый такой выбор уменьшит степень неопределенности в сведениях об объекте и, следовательно, увеличит количество информации о нем. Для определения среднего значения количества информации, приходящейся в данном случае на один символ алфавита, применяется формула . В случае равновероятных выборов p=1/m. Подставляя это значение в исходное равенство, мы получим
Рассмотрим следующий пример. Пусть при бросании несимметричной четырехгранной пирамидки вероятности выпадения граней будут следующими: p1=1/2, p2=1/4, p3=1/8, p4=1/8, тогда количество информации, получаемое после броска, можно рассчитать по формуле:
Для симметричной четырехгранной пирамидки количество информации будет: H=log24=2(бит).
Заметим, что для симметричной пирамидки количество информации оказалось больше, чем для несимметричной пирамидки. Максимальное значение количества информации достигается для равновероятных событий.
|
|