Билет 2. Измерение информации: содержательный и алфавитный подходы

Измерение информации: содержательный и алфавитный подходы. Единицы измерения информации.

Ответ:

Измерение информации: содержательный и алфавитный подходы

Вопрос «как измерить информацию?» очень непростой. Понятие "информация" является контекстным, а значит и способы её измерения могут быть различны. Если рассматривать информацию как знания, то сообщение несёт информацию только в том случае, когда пополняет знания. Такой подход позволяет рассматривать информацию как меру уменьшения неопределенности знаний. В этом случае, количество информации в одном и том же сообщении для разных получателей может быть различно, так как для одного из них информация может быть новой, а для другого - уже известной. Таким образом, количество информации в сообщении будет зависеть от степени неопределенности знаний получателя. Такой подход к измерению количества информации называется содержательным.

Существует и другой подход – алфавитный. Он позволяет определять количество информации в сообщении независимо от человеческого восприятия. В этом случае не рассматриваются социально значимые свойства информации, содержащейся в сообщении, а только общее количество символов и мощность алфавита с помощью которого оно записано. Такой подход тесно связан с теорией вероятностей.

Пример 1. Предположим, что мы подбрасываем монету. Есть два равновероятных исхода – выпадет орел или решка. Узнав результат бросания монеты, Вы получаете 1 бит информации.

Сообщение о том, что произошло одно из двух равновероятных событий, содержит один бит информации (говорят, также, что 1 бит информации уменьшает неопределенность знаний в два раза).

Можно обозначить (закодировать) возможные варианты:

Равновероятные события Их обозначение (код)
Решка  
Орёл  

Преобразование информации из одной формы представления в другую называют кодированием. Для кодирования используют определенную систему знаков – алфавит. Количество знаков в алфавите может быть различным. Самый короткий алфавит состоит из двух знаков. Если для кодирования информации используется только два знака - 0 и 1, то кодирование называют двоичным. Таблица, представленная выше, называется таблицей двоичной кодировки, а один бит информации, таким образом, представляет собой один двоичный знак.

Заметим теперь, что записать результаты многократного бросания монет можно по-разному:

·

· Орёл, решка, решка, орёл, решка, орёл, орёл......

· 1, 0, 0, 1, 0, 1, 1,........

Пример 2. На уроке информатики проводится тестовая работа, состоящая из трёх заданий. Составим таблицу двоичной кодировки возможных результатов выполнения работы одним из учеников:

События Двоичные коды
выполнено 0 заданий  
выполнено 1 задание  
выполнено 2 задания  
выполнено 3 задания  

Коды должны быть различны, поэтому сообщение о том, что произошло одно из четырех равновероятных событий, содержит уже два бита. Заметим, что мы использовали полный набор кодов, которые можно составить из 2 бит.

Пример 3. Если увеличить количество заданий до семи, то таблица примет вид:

События Двоичные коды
выполнено 0 заданий 000
выполнено 1 задание 001
выполнено 2 задания  
выполнено 3 задания 011
выполнено 4 задания  
выполнено 5 заданий 101
выполнено 6 заданий 110
выполнено 7 заданий 111

С увеличением количества событий в два раза увеличивается на 1 бит длина кода:

Количество событий (N) Длина кода (i)
N = 2 i = 1
N = 4 i = 2
N = 8 i = 3

Нетрудно заметить, что величины N и i связаны формулой 2i = N, если N выбирать из ряда 2,4,8,16,32,64…….. Для других значений N формула выглядит так: 2i ≥ N. По ней мы можем рассчитать длину двоичного кода для любого количества событий. Неравенство можно решить подбором наименьшего значения i из ряда натуральных чисел. (Двойка в формуле показывает, что используется двоичное кодирование. Если бы использовалось, например, троичное кодирование, нужно было бы писать три и т.д.)

Для записи текстовой (знаковой) информации всегда используется какой-либо язык (естественный или формальный). Всё множество используемых в языке символов называется алфавитом. Полное число символов алфавита называют его мощностью. При записи текста в каждой очередной позиции может появиться любой из N символов алфавита, т.е. может произойти N событий. Следовательно, каждый символ алфавита содержит i бит информации, где i определяется из неравенства: 2i ≥ N. Тогда общее количество информации в тексте определяется формулой:

V = k * i, где V – количество информации в тексте; k – число знаков в тексте (включая знаки препинания и даже пробелы), i - количество бит, выделенных на кодирование одного знака.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: