На примере игры "Угадай число" можно рассмотреть уменьшение неопределенности. Один из участников загадывает целое число (например, 30) из заданного интервала (например, от 1 до 32), цель второго - "угадать" число первого участника. Для второго игрока начальная неопределенность знания составляет 32 возможных события. Чтобы найти число, необходимо получить определенное количество информации. Первый участник может отвечать только "да" и "нет". Второй должен выбрать следующую стратегию: последовательно, на каждом шаге уменьшать неопределенность знания в два раза. Для этого он должен делить числовой интервал пополам, задавая свои вопросы.
Вопрос второго | Ответ первого | Количество возможных событий (неопределенность знаний) | Полученное количество информации |
Число больше 16? | Да | 1 бит | |
Число больше 24? | Да | 1 бит | |
Число больше 28? | Да | 1 бит | |
Число больше 30? | Нет | 1 бит | |
Число 30? | Да | 1 бит |
Для того чтобы угадать число из интервала от 1 до 32 потребовалось 5 вопросов. Количество информации, необходимое для определения одного из 32 чисел, составило 5 бит.
|
|
Таким образом, очень приближенно можно сказать, что количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые необходимо задать, чтобы получить ту же информацию, ответ на эти вопросы может быть лишь "да" или "нет".
Вернемся к примеру 1.
Пусть x – количество информации в сообщении о том, что вытащен белый шар. Тогда
2 x = 1/0,5 Þ 2 x = 2 Þ x = 1 бит,
т.е. мы доказали, что сообщение об одном событии из двух равновероятных несет 1 бит информации.
Количество информации можно рассчитать методами Р. Хартли и К. Шеннона.
Американский инженер Р. Хартли в 1928 г. процесс получения информациирассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N. I =log2N. Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 = 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации. Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины. Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе. Формула Шеннона: I = – (p1log2p1 + p2log2p2 +... + pNlog2pN), где pi — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений. Легко заметить, что если вероятности p1,..., pN равны, то каждая из них равна 1/N и формула Шеннона превращается в формулу Хартли.Пример 4. В мешке лежат 64 монеты. Сообщение о том, что достали золотую монету, несет 4 бит информации. Сколько золотых монет было в мешке?
|
|
Дано: N = 64; i зол. = 4.
Найти k зол.
Сообщение о том, что достали золоту монету. несет 4 бит информации. Следовательно:
24 = 1/ p зол.
Отсюда можно найти вероятность вытаскивания золотой монеты:
pзол. = 1/16.
С другой стороны, p зол. = k зол./ N, следовательно, k зол.= Np зол. = 84/16 = 4.
Ответ: Число золотых монет – 4.
Пример 5. В ящике лежат 8 черных шаров и 24 белых. Сколько информации несет сообщение о том, что достали черный шар?
Дано: k черн. = 8; k бел. = 24.
Найти: i черн.
N = k черн. + k бел. = 32;
p = kчерн./N = 8/32 = ¼;
2 iчерн. = 1/p черн. = 4;
iчерн. = 2 бит.
Ответ: сообщение о том, что достали черный шар, несет 2 бит информации.
В примерах 1-5 количество возможных вариантов информации являлось целой степенью числа 2. Если же количество возможных вариантов информации не является целой степенью числа 2, то необходимо воспользоваться калькулятором или следующей таблицей, в которой N – общее количество равновероятных событий; i – количество информации, бит.
Таблица 1.1
Количество информации в сообщении об одном из N равновероятных событий:
N | i | N | i | N | i | N | i |
0,00000 | 4,08746 | 5,04439 | 5,61471 | ||||
1,00000 | 4,16993 | 5,08746 | 5,64386 | ||||
1,58496 | 4,24793 | 5,12928 | 5,67243 | ||||
2,00000 | 4,32193 | 5,16993 | 5,70044 | ||||
2,32193 | 4,39232 | 5,20945 | 5,72792 | ||||
2,58496 | 4,45943 | 5,24793 | 5,75489 | ||||
2,80735 | 4,52356 | 5,28540 | 5,78136 | ||||
3,00000 | 4,58496 | 5,32193 | 5,80735 | ||||
3,16993 | 4,64386 | 5,35755 | 5,83289 | ||||
3,32193 | 4,70044 | 5,39232 | 5,85798 | ||||
3,45943 | 4,75489 | 5,42626 | 5,88264 | ||||
3,58496 | 4.80735 | 5,45943 | 5.90689 | ||||
3,70044 | 4,85798 | 5,49185 | 5,93074 | ||||
3,80735 | 4,90689 | 5,52356 | 5,95420 | ||||
3,90689 | 4,95420 | 5,55459 | 5,97728 | ||||
4,00000 | 5,00000 | 5,58496 | 6,00000 |
Пример 6. При игре в кости используется кубик с шестью гранями. Сколько бит информации получает игрок при каждом бросании кубика?
Выпадение каждой грани кубика равновероятно и равно 1/6. Поэтому количество информации от каждого броска находится из уравнения 2 i = 6. Решая это уравнение по формуле (1): i = log26, получаем ответ: i = 2.585 бит. Решение примера 5 можно получить, воспользовавшись таблицей 1, в которой N – общее количество равновероятных событий; i – количество информации, бит.
Оценка информации, так же как вещества или энергии, может быть субъективной и объективной. В первом случае главное – смысл информации, а во втором – её измеримость.
Первый способ измерения информации отражает вероятностный (содержательный) подход. Этот метод является субъективным.
Алфавитный подход к измерению информации позволяет определить количество информации, заключенной в тексте. Алфавитный подход является объективным, т.е. он не зависит от субъекта (человека), воспринимающего текст.
Множество символов, используемых при записи текста, называется алфавитом. Полное количество символов в алфавите называется мощностью (размером) алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и дополнительных символов равна 54. Чем большее количество знаков содержит алфавит знаковой системы, тем большее количество информации несет один знак.
|
|
С помощью формулы (3) определим количество информации, которое несет один символ русского алфавита:
N = 54 => Используя таблицу 1.1, получаем i = 5,755 бит.
Вот сколько информации несет один символ в русском тексте! А теперь для того, чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на i.
Возьмем с книжной полки какую-нибудь книгу и посчитаем количество информации на одной ее странице. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается 50*60 = 3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.
Следовательно, при алфавитном подходе к измерению информации количество информации от содержания не зависит. Количество информации зависит от объема текста (то есть от числа знаков в тексте) и от мощности алфавита.
Отсюда следует, например, что нельзя сравнивать информационные объемы текстов, написанных на разных языках, только по объему. У них отличаются информационные веса одного символа, так как мощности алфавитов разных языков - различные.
Но если книги написаны на одном языке, то понятно, что в толстой книге информации больше, чем в тонкой. При этом содержательная сторона книги в расчет не берется.
Вероятностный подход применим и для алфавитного подхода к измерению информации, заключенной в тексте. Известно, что разные символы (буквы алфавита, знаки препинания и др.) встречаются в тексте с разной частотой и, следовательно, ммеют разную вероятность. Например, в русской письменной речи в среднем на 1000 знаков осмысленного текста приходится 200 букв "а" и в сто раз меньшее количество буквы "ф" (всего 2). Таким образом, с точки зрения теории информации, информационная емкость знаков русского алфавита различна (у буквы "а" она наименьшая, а у буквы "ф" - наибольшая).Значит, измерять информационный вес каждого символа в тексте в предположении равновероятности нельзя.
|
|
Пример 7. В алфавите 4 буквы (А, В, С, D), один знак препинания «.» и один разделитель (пробел). В тексте 10000 знаков, из них:
A – 4000
B – 1000
C – 2000
D – 1500
точек – 500
пробелов – 1000.
Какой объем информации в тексте?
Если считать, что частотный алфавит определен для любого текста на этом языке, то можно найти вероятность каждого символа текста и информационный вес:
A: 4000/10000 = 0,4; iA = log2(1/0,4) = 1,32;
B: 1000/10000 = 0,1; iB = log2(1/0,1) = 3,19;
C: 2000/10000 = 0,2; iC = log2(1/0,2) = 2,32;
D: 1500/10000 = 0,15; iD = log2(1/0,15) = 2,73;
точка: 500/10000 = 0,05; iточка = log2(1/0,05) = 4,32;
пробел: 1000/10000 = 0,1; iпробел = log2(1/0,1) = 3,19.
Общий объем информации в тексте вычислим по формуле суммы произведений информационного веса каждого символа на число повторений этого символа:
I = iA*nA + iB*nB + iC*nC + iD*nD + iточка* nточка + iпробел* nпробел =
1,32 * 4000 + 3,19 * 1000 + 2,32 * 2000 + 2,73 * 1500 + 4,32 * 500 + 3,19 * 1000 = 22841,84 бит.