Кодирование текстовой информации

Определим, сколько бит нужно для того, чтобы закодировать символы русского и английского алфавита для представления в компьютере.

26 строчных букв английского алфавита + 26 заглавных + 33 + 33 (рус) + 10 знаков препинания + 10 цифр + дополнительные знаки (скобки, доллар и т.п.) = более 150 символов. Для двоичного кода количество представляемых им символов алфавита рассчитывается по формуле К = 2^N, где N = количество бит для представления одного сиивола. Для N=6 бит мы можем представить лишь 64 символа – этого мало, для N=7 – 128 символов, тоже недостаточно. А вот для N=8 мы можем представить 256 символов, этого уже достаточно. Поэтому основная кодировка ASCII, принятая во всем мире в качестве стандарта, является однобайтной (8-битной).

То есть, суть кодирования заключается в том, что каждому символу ставится в соответствие двоичный код от 00000000 до 11111111 или соответствующий ему десятичный код от 0 до 255.

Таблица ASCII просуществовала долгое время, пока в 1993 году не начался процесс перехода на так называемый UNICODE – семейство стандартов, включающих сначала 16-битную кодировку (65546 символов), а затем и 20+16=36-битную кодировку (более миллиона символов), которая содержит буквы алфавитов всех языков Земли, а также множество дополнительных символов (например, до сих пор не расшифрованные символы, нанесенные на знаменитый Фестский диск, найденный на острове Крит), а также управляющие символы для возможности двунаправленного письма и использования верхних/нижних индексов и составных букв.

Кодирование графической информации

Существует несколько способов кодирования графической информации.

Растровое кодирование черно-белого изображения базируется на использовании двоичного кода представления графических данных. Общеизвестным стандартом считается приведение черно-белых иллюстраций в форме комбинации точек с 256 градациями серого цвета, т. е. для кодирования яркости любой точки необходим 1 байт.

В основу кодирования цветных изображений положен принцип разложения произвольного цвета на основные составляющие, в качестве которых применяются три основных цвета: красный (Red), зеленый (Green) и синий (Blue). На практике принимается, что любой цвет, который воспринимает человеческий глаз, можно получить с помощью комбинации этих трех цветов. Такая система кодирования называется RGB (по первым буквам основных цветов). При применении 24 бит (3 байта) для кодирования цветной графики такой режим носит название полноцветного (True Color). Данное кодирование применяется во всех электронных устройствах, показывающих изображение.

В полиграфии применяется противоположный принцип - каждый из основных цветов сопоставляется с цветом, дополняющим основной цвет до белого (голубой (Cyan), пурпурный (Magenta) и желтый (Yellow). Эта система кодирования обозначается четырьмя буквами – CMYK. Для представления каждой точки цветной графики в этой системе используется 32 бита (4 байта).

При уменьшении количества разрядов, применяемых для кодирования цвета каждой точки, сокращается объем данных, но заметно уменьшается диапазон кодируемых цветов. Кодирование цветной графики 16-разрядными двоичными числами носит название режима High Color и используется для экономии памяти или улучшения быстродействия. При кодировании графической цветной информации с применением 8 бит данных можно передать только 256 цветов. При использовании таких методов кодирования на изображении возможно появление т.н. градиентов – ступенчатых изменений цвета на однородных участках.