Измерение информации: содержательный и алфавитный подходы. Единицы измерения информации.
Ответ:
Измерение информации: содержательный и алфавитный подходы
Вопрос «как измерить информацию?» очень непростой. Понятие "информация" является контекстным, а значит и способы её измерения могут быть различны. Если рассматривать информацию как знания, то сообщение несёт информацию только в том случае, когда пополняет знания. Такой подход позволяет рассматривать информацию как меру уменьшения неопределенности знаний. В этом случае, количество информации в одном и том же сообщении для разных получателей может быть различно, так как для одного из них информация может быть новой, а для другого - уже известной. Таким образом, количество информации в сообщении будет зависеть от степени неопределенности знаний получателя. Такой подход к измерению количества информации называется содержательным.
Существует и другой подход – алфавитный. Он позволяет определять количество информации в сообщении независимо от человеческого восприятия. В этом случае не рассматриваются социально значимые свойства информации, содержащейся в сообщении, а только общее количество символов и мощность алфавита с помощью которого оно записано. Такой подход тесно связан с теорией вероятностей.
|
|
Пример 1. Предположим, что мы подбрасываем монету. Есть два равновероятных исхода – выпадет орел или решка. Узнав результат бросания монеты, Вы получаете 1 бит информации.
Сообщение о том, что произошло одно из двух равновероятных событий, содержит один бит информации (говорят, также, что 1 бит информации уменьшает неопределенность знаний в два раза).
Можно обозначить (закодировать) возможные варианты:
Равновероятные события | Их обозначение (код) |
Решка | |
Орёл |
Преобразование информации из одной формы представления в другую называют кодированием. Для кодирования используют определенную систему знаков – алфавит. Количество знаков в алфавите может быть различным. Самый короткий алфавит состоит из двух знаков. Если для кодирования информации используется только два знака - 0 и 1, то кодирование называют двоичным. Таблица, представленная выше, называется таблицей двоичной кодировки, а один бит информации, таким образом, представляет собой один двоичный знак.
Заметим теперь, что записать результаты многократного бросания монет можно по-разному:
·
· Орёл, решка, решка, орёл, решка, орёл, орёл......
· 1, 0, 0, 1, 0, 1, 1,........
Пример 2. На уроке информатики проводится тестовая работа, состоящая из трёх заданий. Составим таблицу двоичной кодировки возможных результатов выполнения работы одним из учеников:
|
|
События | Двоичные коды |
выполнено 0 заданий | |
выполнено 1 задание | |
выполнено 2 задания | |
выполнено 3 задания |
Коды должны быть различны, поэтому сообщение о том, что произошло одно из четырех равновероятных событий, содержит уже два бита. Заметим, что мы использовали полный набор кодов, которые можно составить из 2 бит.
Пример 3. Если увеличить количество заданий до семи, то таблица примет вид:
События | Двоичные коды |
выполнено 0 заданий | 000 |
выполнено 1 задание | 001 |
выполнено 2 задания | |
выполнено 3 задания | 011 |
выполнено 4 задания | |
выполнено 5 заданий | 101 |
выполнено 6 заданий | 110 |
выполнено 7 заданий | 111 |
С увеличением количества событий в два раза увеличивается на 1 бит длина кода:
Количество событий (N) | Длина кода (i) |
N = 2 | i = 1 |
N = 4 | i = 2 |
N = 8 | i = 3 |
Нетрудно заметить, что величины N и i связаны формулой 2i = N, если N выбирать из ряда 2,4,8,16,32,64…….. Для других значений N формула выглядит так: 2i ≥ N. По ней мы можем рассчитать длину двоичного кода для любого количества событий. Неравенство можно решить подбором наименьшего значения i из ряда натуральных чисел. (Двойка в формуле показывает, что используется двоичное кодирование. Если бы использовалось, например, троичное кодирование, нужно было бы писать три и т.д.)
Для записи текстовой (знаковой) информации всегда используется какой-либо язык (естественный или формальный). Всё множество используемых в языке символов называется алфавитом. Полное число символов алфавита называют его мощностью. При записи текста в каждой очередной позиции может появиться любой из N символов алфавита, т.е. может произойти N событий. Следовательно, каждый символ алфавита содержит i бит информации, где i определяется из неравенства: 2i ≥ N. Тогда общее количество информации в тексте определяется формулой:
V = k * i, где V – количество информации в тексте; k – число знаков в тексте (включая знаки препинания и даже пробелы), i - количество бит, выделенных на кодирование одного знака.