Вероятность и информационные веса символов алфавита

А теперь рассмотрим, как с понятием вероятности связано вычисление информационных весов символов алфавита. Обсуждая алфавитный подход раньше, мы исходили из предположения равновероятности появление в любой позиции текста любого из символов используемого алфавита. На самом деле для естественных языков это не так. Легко доказать, что одни символы появляются в тексте чаще, а другие - реже. Частота появления символа – это отношение количества вхождений данного символа в текст к общему количеству символов в тексте. В таблице 1.1 приведены частотные характеристики букв латинского алфавита в английских текстах, а в таблице 1.2 – русских букв (кириллицы) в текстах на русском языке (символ «_» означает пробел). Эти данные получены путем усреднения результатов обработки большого числа текстов.

Таблица 1.1

Буква	Частота	Буква	Частота	Буква	Частота	Буква	Частота
E	0,130	S	0,061	U	0,024	K	0,004
T	0,105	H	0,052	G	0,020	X	0,0015
A	0,081	D	0,038	Y	0,019	J	0,0013
O	0,079	L	0,034	P	0,019	Q	0,0011
N	0,071	F	0,029	W	0,015	Z	0,0007
R	0,068	C	0,027	B	0,014
I	0,063	M	0,025	V	0,009

Таблица 1.2

Буква	Частота	Буква	Частота	Буква	Частота	Буква	Частота
_	0,175	Р	0,040	Я	0,018	Х	0,009
О	0,090	В	0,038	Ы	0,016	Ж	0,007
Е,Ё	0,072	Л	0,035	З	0,016	Ю	0,006
А	0,062	К	0,028	Ь,Ъ	0,014	Ш	0,006
И	0,062	М	0,026	Б	0,014	Ц	0,003
Т	0,053	Д	0,025	Г	0,013	Щ	0,003
Н	0,053	П	0,023	Ч	0,013	Э	0,003
С	0,045	У	0,021	Й	0,012	Ф	0,002

Как видно из этих таблиц наиболее часто употребляемая буква в английском тексте – “E”, а наименее «популярная» – “Z”. Соответственно в русском тексте это буквы “О” и ”Ф”.

По аналогии с тем, что было рассмотрено выше, вам должно быть понятно, что частота встречаемости буквы – это вероятность ее появления в определенной позиции текста – Р. Отсюда следует, что информационный вес символа вычисляется по формуле:

i = log₂(1/P).

По этой формуле для русской буквы “О” получаем: i=log₂(1/0,09)=3,47 бит. А для буквы ‘Ф’: i=log₂(1/0,002)=8,97 бит. Разница весьма существенная! Принцип прежний: чем меньше вероятность, тем больше информация.

Для оценки средней информативности символов алфавита c учетом разной вероятности их встречаемости используется формула Клода Шеннона

где - средняя информативность, P_k - вероятность (частота) встречаемости k-го символа алфавита, N – мощность алфавита. В частном случае, когда

P₁= P₂= … =P_N = 1/N

формула К.Шеннона переходит в формулу Р.Хартли (докажите это самостоятельно).

Воспользовавшись данными из таблиц 1.1 и 1.2, по формуле Шеннона можно определить среднюю информативность букв алфавита английского и русского языков. Результаты вычислений для английского языка дают величину 4,09 бит, а для русского – 4,36 бит. При допущении, что все буквы встречаются равновероятно, по формуле Р.Хартли получается для английского языка H_англ=log₂(26)=4,70 бит, а для русского языка – H_рус=log₂(32)=5 бит. Как видите, учет различия частоты встречаемости букв алфавита приводит к снижению их средней информативности.

Из полученных результатов следует, что и полный информационный объем текста будет разным, если для его вычисления использовать формулы Хартли и Шеннона. Например, текст на русском языке, состоящий из 1000 букв, по Хартли будет содержать 5´1000=5000 бита информации, а по Шеннону: 4,36´1000=4360 бит.

Вероятность и информация
Вероятность некоторого результата события измеряется частотой его повторений для большого числа событий (в пределе стремящимся к бесконечности)
Содержательный подход	Алфавитный подход
P=k/n P – оценка вероятности определенного результата; n – количество повторений события (большое число); k – число повторений данного результата.	P=k/n P – частота повторяемости символа в тексте (оценка вероятности); n – размер текста в символах; k – количество вхождений данного символа в текст.
i = log₂(1/P) i (бит) – количество информации в сообщении о результате события, вероятность которого равна P	i = log₂(1/P) i (бит) – информационный вес символа, частота которого (вероятность) равна P
	Формула Шеннона: H – средняя информативность символа алфавита, Pi – вероятность символа номер i, N – размер алфавита.