Расчёт энтропийных характеристик

Выше приведены теоретические выкладки теоремы Шеннона. На практике эти информационные характеристики используются следующим образом:

Информативность – степень насыщенность параметра (символа, сигнала, сообщения) информацией.

Энтропия Н среднее количество информации, приходящееся на один символ.

, бит/символ,

где – количество информации, передаваемое i-м символом, бит,

m - количество символов в сообщении,

ni - количество появлений i- го символа в сообщении,

P i- вероятность появления i-го символа в сообщении,

;

Максимальная теоретическая энтропия:

Избыточность – это относительная доля излишне используемых символов в сообщении:

Пример 1. Определим информационные характеристики сообщения «Кубанский государственный технологический университет». Для этого определяется, сколько раз каждый символ входит в сообщение и рассчитываются его вероятность, информативность и энтропия:

Таблица 1

Символ ni
         
К   0,0566 -4,141 0,234
У   0,0566 -4,141 0,234
Б   0,0189 -5,722 0,108
А   0,0377 -4,727 0,178
Н   0,0343 -3,405 0,321
С   0,0943 -3,405 0,321
Й   0,0566 -4,141 0,234
Г   0,0377 -4,727 0,178
О   0,0566 -4,141 0,234
И   0,0943 -3,405 0,321
Д   0,0189 -5,722 0,108
Р   0,0377 -4,727 0,178
Т   0,0755 -3,725 0,281
В   0,0377 -4,727 0,178
Е   0,0755 -3,725 0,281
Ы   0,0189 -5,722 0,108
Х   0,0189 -5,722 0,108
Л   0,0189 -5,722 0,108
Ч   0,0189 -5,722 0,108
пробел   0,0566 -4,141 0,234
Σm = 20 N =53 0,9811≈1 SPi=1 ΣI=-72,702 ΣН= 3,954

Количество состояний системы (т.е. количество символов) N=53, включая 3 пробела.

Ii= 3,32 lg Pi= ld Pi - формула перевода десятичного логарифма в двоичный (по основанию 2).

Hm=ld m = ld 20 = 4,31.

R = 1- 3,954/4,31 = 1- 0.917=0,083=8,3%.

Таким образом, избыточность сообщения "Кубанский государственный технологический университет" составляет 8,3%, т.е. 8,3 процента букв можно убрать из текста без потери информации. Это означает, что если убрать примерно каждую двенадцатую букву (не важно, из какого места текста), то по оставшимся символам можно будет восстановить весь текст.

Избыточность текстовых сообщений чаще всего возникает из-за автокорреляции рядом стоящих символов (например, если в слове "Кубанский" известны символы "Кубан", то можно гарантировать, что дальше пойдут буквы "с" и "к"). Например, телепередача "Поле чудес" использует при отгадывании слов именно свойство избыточности сообщений.

Полученная избыточность событий очень мала. Например, для русского языка она составляет около 50%, для английского - примерно 70%.

Избыточность перегружает память компьютеров и каналов связи, но обеспечивает и повышает достоверность и надёжность информации.

Пример 2. Экзамен оценивается отметками 2,3,4,5 и “–“ (студент не явился). Студент оценивает свою подготовленность вероятностями:

Р (2)=0 - для 2-х баллов,

Р (3)=0,1 - для 3,

Р (4)=0,8 - для 4,

Р (5)=0,1 - для 5 баллов,

Для "-" (не явился) вероятность Р (-)=0, сумма вероятностей должна быть равна 1.

SPi =1

Тогда энтропия до экзамена:

Экзамен сдан на оценку "5", получено количество информации I, которое уменьшило энтропию до 0, т.е. перевело Н из 0,92 в Н =0, таким образом, в результате экзамена получено I(х) =Н`(х) = 0,92 бит.

Свойство статистического подхода - чем выше вероятность события Pi, тем меньше информации оно несет:

для P (3) = 0,1 количество информации I = 0,1∙1∙3,32 = 0,332 бит;

для P (4) = 0,8 ® I = 0,332∙0,8∙0,095=0,25 бит.

Если P =1, то I =0, т.е. событие достоверно, ничего нового не сообщено.

Статистический метод определения количества информации не учитывает семантики (смысла) и прагматики (полезности) информации. Если бы для оценки "3" была бы Р (3)=0,8, а для "четвёрки" - Р (4) = 0,1, то все равно результат экзамена передал бы количество информации I = 0,92 бит.

Контрольные вопросы

1 Что такое информация?

2 Что такое данные?

3 Что такое сообщение?

4 Что такое количество информации?

5 Что такое энтропия?

6 По какой формуле определяется количество информации?

7 Что такое информативность?

8 Что такое избыточность?


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: