Кибернетический подход сейчас применяется в основном в теории вероятностей и позволяет подсчитать количество информации, которое несет результат какого-то опыта (например, бросания монеты, игральной кости, раунд в рулетке и т.д.). Этот подход был развит в конце 40-х годов XXвека математиками Хартли и Шенноном. Основные полученные ими результаты заключаются в следующем:
a) если какой-то опыт может иметь N равновероятных исходов, количество информации, появляющейся после его однократного проведения, вычисляется по формуле Хартли:
(1)
b) При введении какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Из формулы (1) следует, что H=1 при N=2. Иначе говоря, в качестве единицы измерения принимается количество информации, связанное с однократным проведением опыта, состоящего в получении одного из двух равновероятных исходов. Результаты исходов обозначаются двоичными цифрами 0 и 1, а единица информации называется «бит» (от англ. BInary digiTs – двоичные цифры).
|
|
c) Если проводится опыт с исходами, вероятности появления которых различны, то количество информации определяется формулой Шеннона:
(2)
Здесь N – количество исходов опыта, Pi – вероятность каждого исхода. Если проводится несколько независимых опытов, суммарное количество полученной информации равно сумме количеств информации, полученной после каждого из опытов.
Например, определим количество информации, связанное с появлением каждого символа в сообщении, записанном русскими буквами. Русский алфавит (упрощенно) состоит из 33 букв и пробела, и, по формуле (1), бит. Однако, в русских словах (и в словах других языков) различные буквы встречаются неодинаково часто. Если воспользоваться таблицей частотности букв русского языка и формулой (2), то получится несколько меньший результат: 4,72бит.
Объемный подход.
Объемный подход измерения количества информации возник вместе с ЭВМ. Создателям компьютеров потребовался научный подход, допускающий не просто измерение количества информации, но и предлагающий способы ее преобразования, передачи и хранения.
Вся информация в компьютере хранится, передается и обрабатывается в виде двоичных кодов – последовательностей двоичных цифр 0 и 1. Двоичная система выбрана потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния – есть ток / нет тока, направление намагниченности и т.д. В компьютере бит является наименьшей возможной единицей информации. Доказано, что любая дискретная информация может быть представлена последовательностью битов (это вопрос из раздела кодирования), а, так как мы уже знаем о возможности дискретизации непрерывной информации с любой степенью точности, то можно считать, что любая информация может быть представлена последовательностью битов с любой степенью точности. Суммарный объем какой-либо информации подсчитывается просто по количеству требуемых для такой записи битов. При этом, очевидно, невозможно нецелое число битов, в отличие от вероятностного подхода.
|
|
Для удобства использования введены и более крупные единицы:
1 байт = 8 бит
1 килобайт (кБ) = 1024 байт
1 мегабайт (МБ) = 1024 кБ
1 гигабайт (ГБ) = 1024МБ.
Между вероятностным и объемным подходом существует весьма неоднозначное соответствие. Не всякий текст, даже записанный двоичными символами, допускает измерение объема информации в кибернетическом смысле, но заведомо допускает в объемном. Даже если некоторое сообщение допускает измерение количества в обоих смыслах, то результаты измерений далеко не всегда совпадают. Но, при этом, кибернетическое количество одной и той же информации не может быть больше объемного.