Билет 3. Дискретное представление информации: двоичные числа, двоичное кодирование текста в памяти компьютера

Дискретное представление информации: двоичные числа, двоичное кодирование текста в памяти компьютера. Информа­ционный объем текста.

План ответа

1. Дискретное представление информации.

2. Двоичные числа.

3. Двоичное кодирование текста.

4. Информационный объем текста. Дискретное представление информации

Вся информация, которая попадает в компьютер, преобразуется в последовательность электрических импульсов. Наличие импулк»! са принято условно обозначать «1», а его отсутствие — «О». ТаИЯ способ кодирования информации называется двоичным или бинарм ным. Один двоичный символ получил название бит. (bit — от щШ лийского bjnary digit — «двоичная цифра»). Таким образом, двоич­ное кодирование — это представление информации при помощи ми* J нимально возможного числа элементарных символов.

С точки зрения инженеров двоичное кодирование привлекательно тем, что легко реализуется технически. Электронные схемы дл< обработки двоичных кодов должны находиться только в одном И1 I двух состояний — есть сигнал/нет сигнала (или высокое напряжсние/низкое напряжение), а так как состояний всего два, то их легад ■] различать, а схему легко переключать из одного состояния в другое, К техническим устройствам, которые могут надежно сохраняв и распознавать информацию, закодированную с помощью двух со» стояний (т.е. в двоичной системе кодирования) можно отнести:

• электромагнитные реле (замкнуто/разомкнуто), которые широко использовались при конструировании первых ЭВМ;

• поверхности магнитных носителей информации (намагничено/размагничено);

• поверхности лазерных дисков (отражает/не отражает);

• триггер, который может находиться в одном из двух состояний (О или 1), широко используется в оперативной памяти компьютере.

Таким образом, в компьютерах используют двоичную систему потому, что она имеет ряд преимуществ перед другими системами:

• для ее реализации нужны технические устройства с двумя устойчивыми состояниями (есть ток — нет тока, намагничен — не намагничен и т. п.), а не, например, с десятью, — как в десятичной;

• представление информации посредством только двух состоя­ний надежно и помехоустойчиво;

• возможно применение аппарата алгебры логики для выполне­ния логических преобразований информации;

• двоичная арифметика намного проще десятичной.
Двоичные числа

Двоичное кодирование автоматически дает способ кодирования чисел в двоичной системе счисления.

Системой счисления называется совокупность приемов наиме­нования и записи чисел. В любой системе счисления для представ­ления чисел выбираются некоторые символы (их называют цифра­ми), а остальные числа получаются в результате каких-либо опера­ций над цифрами данной системы счисления.

Система называется позиционной, если значение каждой цифры (ее вес) изменяется в зависимости от ее.положения (позиции) в пос­ледовательности цифр, изображающих число.

Наиболее употребительными в настоящее время являются деся­тичная и двоичная позиционные системы счисления.

Десятичная система счисления имеет алфавит, состоящий из 10 цифр (соответственно основание этой системы счисления равно 10): 0,1,2, 3,4, 5, 6,7, 8, 9. Информацию несет не только сама цифра, но и то место, на котором она стоит (ее позиция в числе). Например, в десятичном числе 444 и количество единиц, и количество десят­ков, и количество сотен обозначается одинаковыми цифрами. А вот в числе 700 значима только первая цифра — 7, обозначающая коли­чество сотен, а две цифры 0 нужны лишь для обозначения позиции цифры 7 и сами по себе вклад в число не дают.

Мы используем сокращенную запись десятичных чисел. Напри­мер, десятичное число 12345 в развернутой форме записи будет выглядеть следующим образом: 12345=5+4-10+3 -100+2-1000+1 -10000=5- 10D+4-r01+3-102+2-103 + HOt

В любой позиционной системе счисления с основанием к можно записать число N в виде:./V =а„ • к" + ап_Л ■ к"л +... + а, ■ к1 + й0£°, где а, — цифры в записи числа, п - количество разрядов в числе, к — основание системы счисления.

Таким образом, числа в позиционных системах счисления запи­сываются в виде суммы степеней основания, при этом в роли коэф­фициентов выступают цифры данного числа.

Двоичное кодирование текста

Традиционно для кодирования одного символа используется ко­личество информации, равное 1 байту (8 битам). Кодирование за­ключается в том, что каждому символу ставится в соответствие уни­кальный десятичный код (или соответствующий ему двоичный код). Код символа хранится в памяти компьютера, где занимает, как уже говорилось, 1 байт. При таком способе можно закодировать 256 раз­личных символов (256 = 28). Такое количество символов вполне до­статочно для представления текстовой информации, включая про­писные и заглавные буквы русского алфавита, цифры, знаки, графи­ческие символы и т.д.

Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размеще­ния символов алфавита в кодовой таблице.

В настоящее время существует несколько различных кодировок (кодовых таблиц) для русских букв. Каждая кодировка задается своей кодовой таблицей. Одному и тому же двоичному коду в различных кодировках соответствуют различные символы. Поэтому если текст создан в одной кодировке, то он не будет правильно отображаться в другой.

Присвоение символу конкретного кода является вопросом согла­шения, которое и фиксируется в конкретной кодовой таблице. В ка­честве международного стандарта принята кодовая таблица ASCII. В этой кодовой таблице латинские буквы (прописные и строчные) располагаются в алфавитном порядке. Расположение цифр также упорядочено по возрастанию значений. Это правило соблюдается и в других таблицах кодировки и называется принципом последова­тельного кодирования алфавитов.

Стандартными в этой таблице кодов ASCII являются только перввые 128 символов, т. е. символы с номерами от нуля (двоичный ко 00000000) до 127 (01111111). Сюда входят буквы латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов, начиная со 128 (двоичный код 10000000 и кончая 255 (11111111), используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов Одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 (код обмена информацией, 8-битный). Эта кодировка применялась еще в 1970-е годы на компьютерах серии ЕС ЭВМ Операционная система MS DOS использует кодировку СР866. Наиболее распространенной в настоящее время является кодирошг MS Windows, которая обозначается как СР1251, или Windows 1251, В настоящее время все большее число программ начинает поддерживать стандарт Unicode, который позволяет кодировать прак­тически все языки и диалекты жителей Земли. Этот стандарт отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать 65 536 различных символов (65 536 = 216).

Информационный объем текста

Для определения информационного объема текста используется алфавитный подход к измерению информации. В частности для представления текстов в компьютере используется алфавит из 256 символов. Один символ такого алфавита несет в себе 8 бит (1 байт) ин» формации, т. к. 256 = 2s.

В качестве примера рассмотрим следующую задачу. Пусть требуется определить, какой объем информации содержит реферат, ни» бранный на компьютере и содержащий 88 страниц, если на каждой странице 50 строк, а в каждой строке — в среднем 60 символов.

Одна страница будет содержать 50 х 60 = 3000 байт информации. Объем всей информации в реферате: 3000 х 88 = 264000 байт, или в более крупных единицах: 264000: 1024 = 257,8125 кбайт.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: