Количество информации - одна из важнейших характеристик управленческих процессов. Количество, выражая внешнюю определенность объекта, проявляется через его величину, число, объем, степень развития свойств, темп протекания производственных, управленческих и иных процессов.
В 1948 году американский инженер Клод Шеннон в своей работе «Математическая теория связи» довольно убедительно разработал вопросы формально-количественного измерения информации. Он предложил учитывать при определении количества информации не только число разнообразных сообщений, которые можно получить от источника информации, но и вероятность их получения [3, стр.78].
Для определения количества информации (I) К. Шеннон дал формулу, ставшую классической:
где:
n — число возможных сообщений (исходов опыта),
pi — вероятность i-го сообщения.
На основании буквенной информации этой курсовой работы рассчитаем количество информации, приходящуюся на одну букву русского алфавита. Для этого предварительно найдем количество каждой буквы и пробела (буквы «е» и «ё», «ъ» и «ь» считаются одной буквой) в тексте и рассчитаем вероятность их появления (Pi). Результаты занесем в таблицу 3.2.1.
|
|
Таблица 3.2.1
Вероятность появления букв русского алфавита
Буква | Количество в тексте | Вероятность | Буква | Количество в тексте | Вероятность |
А | 2386 | 0,0666 | Р | 1727 | 0,0482 |
Б | 609 | 0,0170 | С | 1807 | 0,0504 |
В | 1255 | 0,0350 | Т | 2179 | 0,0608 |
Г | 425 | 0,0119 | У | 690 | 0,0193 |
Д | 964 | 0,0269 | Ф | 191 | 0,0053 |
Е,Ё | 2694 | 0,0752 | Х | 352 | 0,0098 |
Ж | 179 | 0,0050 | Ц | 289 | 0,0081 |
З | 538 | 0,0150 | Ч | 472 | 0,0132 |
И | 2589 | 0,0723 | Ш | 81 | 0,0023 |
Й | 327 | 0,0091 | Щ | 177 | 0,0049 |
К | 910 | 0,0254 | Ъ,Ь | 427 | 0,0119 |
Л | 1184 | 0,0330 | Ы | 520 | 0,0145 |
М | 901 | 0,0251 | Э | 98 | 0,0027 |
Н | 2189 | 0,0611 | Ю | 145 | 0,0040 |
О | 3612 | 0,1008 | Я | 720 | 0,0201 |
П | 1028 | 0,0287 | пробел | 4164 | 0,1162 |
С помощью полученных данных рассчитаем двоичный логарифм от Pi и произведение полученных чисел на вероятность появления данной буквы в тексте. Данные представим в виде таблицы 3.3.2.
Таблица 3.3.2
Расчет количества информации приходящуюся на одну букву русского алфавита
Буква алфавита | Вероятность появления, Pi | LogPi | Pi·logPi |
А | 0,0666 | -3,9085 | -0,2603 |
Б | 0,0170 | -5,8785 | -0,0999 |
В | 0,0350 | -4,8354 | -0,1694 |
Г | 0,0119 | -6,3975 | -0,0759 |
Д | 0,0269 | -5,2160 | -0,1403 |
Е,Ё | 0,0752 | -3,7333 | -0,2807 |
Ж | 0,0050 | -7,6450 | -0,0382 |
З | 0,0150 | -6,0574 | -0,0910 |
И | 0,0723 | -3,7907 | -0,2739 |
Й | 0,0091 | -6,7757 | -0,0618 |
К | 0,0254 | -5,2991 | -0,1346 |
Л | 0,0330 | -4,9194 | -0,1626 |
М | 0,0251 | -5,3135 | -0,1336 |
Н | 0,0611 | -4,0328 | -0,2464 |
О | 0,1008 | -3,3103 | -0,3337 |
П | 0,0287 | -5,1232 | -0,1470 |
Р | 0,0482 | -4,3748 | -0,2109 |
С | 0,0504 | -4,3095 | -0,2173 |
Т | 0,0608 | -4,0394 | -0,2457 |
У | 0,0193 | -5,6984 | -0,1097 |
Ф | 0,0053 | -7,5514 | -0,0403 |
Х | 0,0098 | -6,6694 | -0,0655 |
Ц | 0,0081 | -6,9539 | -0,0561 |
Ч | 0,0132 | -6,2462 | -0,0823 |
Ш | 0,0023 | -8,7890 | -0,0199 |
Щ | 0,0049 | -7,6612 | -0,0378 |
Ъ,Ь | 0,0119 | -6,3907 | -0,0762 |
Ы | 0,0145 | -6,1065 | -0,0886 |
Э | 0,0027 | -8,5141 | -0,0233 |
Ю | 0,0040 | -7,9489 | -0,0322 |
Я | 0,0201 | -5,6370 | -0,1133 |
Пробел | 0,1162 | -3,1051 | -0,3609 |
|
|
Таким образом, средняя информация на одну букву русского языка, подсчитанная по данным таблицы, будет равна: