Мощность (размер) алфавита - полное количество символов в алфавите

Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54.

Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфного аппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита. В действительности это не совсем так, но для упрощения примем такое предположение. В каждой очередной позиции текста может появиться любой из N символов. Тогда, согласно известной нам формуле N = 2I (см. содержательный подход) каждый такой символ несет I бит информации, которое можно определить из решения уравнения: 2I = 54. Получаем: I = 5.755 бит - такое количество информации несет один символ в русском тексте.

Чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на I.

Посчитаем количество информации на одной странице книги. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, на странице умещается 50x60=3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.

При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощности алфавита.

Таким образом, алфавитный подход к измерению информации можно изобразить в виде схемы:

При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации.

Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.

Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 24 = 16. А если N =32, то один символ «весит» 5 бит.

Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. Это алфавит мощностью 256 символов. В алфавит такого размера можно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможные скобки, знаки препинания....

Поскольку 256 = 28, то один символ этого алфавита «весит» 8 бит. Причем 8 бит информации — это настолько характерная величина, что ей даже присвоили свое название - байт.

1 байт = 8 бит.

Для измерения больших объемов информации используются следующие единицы:

1 Кб (один килобайт)= 1024 байт=210байт

1 Мб (один мегабайт)= 1024 Кб=210Кбайт=220байт

1 Гб (один гигабайт)= 1024 Мб=210Mбайт=230байт

1Тбайт (один терабайт)= 1024Гбайт =210Гбайт=240байт

1Пбайт(один петабайт)= 1024Тбайт= 210Тбайт=250байт

1Эбайт(один эксабайт)= 1024Пбайт =210Пбайт=260байт

1Збайт(один зеттабайт)= 1024Эбайт = 210Эбайт=270байт

1Йбайт(один йоттабайт)= 1024Збайт=210Збайт=280байт.

Кодирование текстовой информации
Текстовая информация в компьютере, как и все другие виды информации, кодируется двоичными кодами. Каждому символу алфавита ставится в соответствие целое число, которое принято считать кодом этого символа.
В традиционных кодировках для кодирования одного символа используется последовательность из 8 нулей и единиц 8 бит = 1 байт.
Различных последовательностей из 8 нулей и единиц существует 256 (28=256). Поэтому такой 8-ми разрядный код позволяет закодировать 256 различных символов.
Присвоение символу определенного числового кода - это вопрос соглашения. В качестве международного стандарта принята таблица ASCII (American Standard Code for Information Interchange - Американский стандартный код для обмена информацией), кодирующая первую половину символов с числовыми кодами от 0 до 127 (коды от 0 до 32 отведены не символам, а функциональным клавишам).

Таблица кодов ASCII

Для кодирования символов национальных алфавитов используется расширение кодовой таблицы ASCII, то есть 8-ми разрядные коды от 128 до 255.

Национальные стандарты кодировочных таблиц включают международную часть кодовой таблицы без изменений, а во второй содержат коды национальных алфавитов, символы псевдографики и некоторые математические знаки. В настоящее время существует 5 различных кодировок кириллицы (КОИ8, Windows. MSDOS, Macintosh, ISO), что вызывает определенные трудности при работе с русскоязычными документами.
В конце 90-х годов появился новый международный стандарт Unicode, который отводит под 1 символ не один байт, а два, поэтому с его помощью можно закодировать 65536 различных символов. Он включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: