Представление символьной информации в ЭВМ

Символьная (алфавитно-цифровая) информация хранится и обрабатывается в ЭВМ в форме цифрового кода. Кодом называется уникальное беззнаковое целое двоичное число, поставленное в соответствие некоторому символу.

Необходимый набор символов, предусмотренный в конкретной ЭВМ, включает в себя:

- арабские цифры

- буквы латинского алфавита

- знаки препинания

- специальные символы и знаки

- буквы национального алфавита

- символы псевдографики — растры, прямоугольники, одинарные и двойные рамки, стрелки.

Среди наборов символов наибольшее распространение получили знаки кода ASCII (American Standard Code of Information Interchange — американский стандартный код информационного обмена информацией).

В таблице ASCII содержится 256 символов и их кодов. Таблица состоит из двух частей: основной и расширенной. Основная часть (символы с кодами от 0 до 127 включительно) является базовой, она в соответствии с принятым стандартом не может быть изменена. В нее вошли:

- управляющие коды (им соответствуют коды с 1 по 31), которым не соответствуют никакие символы языков, и соответственно эти коды не выводятся ни на экран, ни на устройства печати, но они могут управлять тем, как производится вывод данных.

- арабские цифры, буквы латинского алфавита, знаки препинания, знаки арифметических действий, специальные символы (коды с 32 по 127).

Расширенная часть (символы с кодами от 128 до 255) отдана национальным алфавитам, символам псевдографики и некоторым специальным символам.

В расширенной таблице стандартной кодировки фирмы IBM:

- коды 176-223 занимают символы псевдографики;

- коды 128-175, 224-239 используются для размещения некоторых символов национальных алфавитов различных европейских языков;

- коды 240-255 для размещения специальных знаков.

ОС Windows поддерживает большое число расширенных таблиц для различных национальных алфавитов.

В России используются следующие кодировки символов русского языка:

- ГОСТ-альтернативная кодировка (главное достоинство – расположение символов псевдографики на тех же местах, что и в кодировке IBM);

- кодировка Windows 1251 (используется на большинстве ПК, работающих на платформе Windows);

- КОИ-8 (используется в компьютерных сетях на территории России).

В 1991 году была создана универсальная система кодирования текстовых данных – UNICODE. В данной системе символы кодируются 16-разрядными числами. 16 разрядов позволяет обеспечить уникальные коды для 65536 различных символов – этого достаточно для размещения в одной таблице всех широкоупотребляемых языков.