Вероятность и информационные веса символов алфавита

А теперь рассмотрим, как с понятием вероятности связано вычисление информационных весов символов алфавита. Обсуждая алфавитный подход раньше, мы исходили из предположения равновероятности появление в любой позиции текста любого из символов используемого алфавита. На самом деле для естественных языков это не так. Легко доказать, что одни символы появляются в тексте чаще, а другие - реже. Частота появления символа – это отношение количества вхождений данного символа в текст к общему количеству символов в тексте. В таблице 1.1 приведены частотные характеристики букв латинского алфавита в английских текстах, а в таблице 1.2 – русских букв (кириллицы) в текстах на русском языке (символ «_» означает пробел). Эти данные получены путем усреднения результатов обработки большого числа текстов.

Таблица 1.1

Буква Частота Буква Частота Буква Частота Буква Частота
E 0,130 S 0,061 U 0,024 K 0,004
T 0,105 H 0,052 G 0,020 X 0,0015
A 0,081 D 0,038 Y 0,019 J 0,0013
O 0,079 L 0,034 P 0,019 Q 0,0011
N 0,071 F 0,029 W 0,015 Z 0,0007
R 0,068 C 0,027 B 0,014    
I 0,063 M 0,025 V 0,009    

Таблица 1.2

Буква Частота Буква Частота Буква Частота Буква Частота
_ 0,175 Р 0,040 Я 0,018 Х 0,009
О 0,090 В 0,038 Ы 0,016 Ж 0,007
Е,Ё 0,072 Л 0,035 З 0,016 Ю 0,006
А 0,062 К 0,028 Ь,Ъ 0,014 Ш 0,006
И 0,062 М 0,026 Б 0,014 Ц 0,003
Т 0,053 Д 0,025 Г 0,013 Щ 0,003
Н 0,053 П 0,023 Ч 0,013 Э 0,003
С 0,045 У 0,021 Й 0,012 Ф 0,002

Как видно из этих таблиц наиболее часто употребляемая буква в английском тексте – “E”, а наименее «популярная» – “Z”. Соответственно в русском тексте это буквы “О” и ”Ф”.

По аналогии с тем, что было рассмотрено выше, вам должно быть понятно, что частота встречаемости буквы – это вероятность ее появления в определенной позиции текста – Р. Отсюда следует, что информационный вес символа вычисляется по формуле:

i = log2(1/P).

По этой формуле для русской буквы “О” получаем: i=log2(1/0,09)=3,47 бит. А для буквы ‘Ф’: i=log2(1/0,002)=8,97 бит. Разница весьма существенная! Принцип прежний: чем меньше вероятность, тем больше информация.

Для оценки средней информативности символов алфавита c учетом разной вероятности их встречаемости используется формула Клода Шеннона

где - средняя информативность, Pk - вероятность (частота) встречаемости k-го символа алфавита, N – мощность алфавита. В частном случае, когда

P1 = P2 = … =PN = 1/N

формула К.Шеннона переходит в формулу Р.Хартли (докажите это самостоятельно).

Воспользовавшись данными из таблиц 1.1 и 1.2, по формуле Шеннона можно определить среднюю информативность букв алфавита английского и русского языков. Результаты вычислений для английского языка дают величину 4,09 бит, а для русского – 4,36 бит. При допущении, что все буквы встречаются равновероятно, по формуле Р.Хартли получается для английского языка Hангл=log2(26)=4,70 бит, а для русского языка – Hрус=log2(32)=5 бит. Как видите, учет различия частоты встречаемости букв алфавита приводит к снижению их средней информативности.

Из полученных результатов следует, что и полный информационный объем текста будет разным, если для его вычисления использовать формулы Хартли и Шеннона. Например, текст на русском языке, состоящий из 1000 букв, по Хартли будет содержать 5´1000=5000 бита информации, а по Шеннону: 4,36´1000=4360 бит.

Вероятность и информация
Вероятность некоторого результата события измеряется частотой его повторений для большого числа событий (в пределе стремящимся к бесконечности)
Содержательный подход Алфавитный подход
P=k/n P – оценка вероятности определенного результата; n – количество повторений события (большое число); k – число повторений данного результата. P=k/n P – частота повторяемости символа в тексте (оценка вероятности); n – размер текста в символах; k – количество вхождений данного символа в текст.
i = log2(1/P) i (бит) – количество информации в сообщении о результате события, вероятность которого равна P i = log2(1/P) i (бит) – информационный вес символа, частота которого (вероятность) равна P
  Формула Шеннона: H – средняя информативность символа алфавита, Pi – вероятность символа номер i, N – размер алфавита.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: