Кодирование текста

Цифровое представление различных видов информации.

Лекция 2

Когда человек воспринимает информацию с помощью органов чувств, то стремится зафиксировать ее в такой форме, чтобы она была понятна другим людям, например, записать ее. Для этого применяются специальные символы. Например, для представления текстовой информации используют буквы какого-либо языка (русского, английского, немецкого и т.д.). Не всегда эти буквы относятся к естественному языку. Для представления текстовой информации также можно использовать искусственные языки, например, эсперанто. При обработке информации человек дает инструкции компьютеру на искусственном языке – языке программирования. Музыка звучит с помощью нот, числа записывают с помощью цифр. Все это примеры кодирования информации.

Кодирование - процесс представления данных последовательностью символов.

Имеются и такие системы знаков, для которых нет какого-то общепринятого порядка, то есть, нет алфавита. К таким системам, например, относятся азбука Брайля (для слепых), язык жестов, язык цветов, знаки генетического кода и т.д.

В отличие от человека, компьютер может обрабатывать информацию, представленную только в цифровой форме в виде последовательности цифр. Причем «компьютерный алфавит» состоит только из двух символов 0 и 1. Это связано с тем, что устройства, которые могут принимать только два устойчивых состояния: намагничено (1) – не намагничено (0), высокое напряжение (1) – низкое напряжение (0) и т.д., являются самыми надежными и дешевыми. В современной электронике развитие аппаратной базы компьютеров идет именно в этом направлении. Поэтому предварительно вся информация, представленная в компьютере, и текстовая, и графическая, и звуковая должна пройти оцифровку.

Оцифровка – приведение чего-либо к числовому виду или кодирование чего-либо с помощью чисел.

Такие понятия, как «информация», «сообщения» и «данные» не являются синонимами. Не вся информация, которую мы воспринимает с помощью своих органов чувств, может считаться сообщением, равно как и данными.

Любое сообщение на любом языке состоит из последовательности символов- букв, цифр, знаков. Действительно, в каждом языке есть свой алфавит из определенного набора букв (например, в русском- 33 буквы, английском- 26, и т.д.). Из этих букв образуются слова, которые в свою очередь, вместе с цифрами и знаками препинания образуют предложения, в результате чего и создается текстовое сообщение. Не является исключением и язык на котором "говорит" компьютер, только набор букв в этом языке является минимально возможным.

В ЭВМ ИСПОЛЬЗУЮТСЯ 2 СИМВОЛА- НОЛЬ И ЕДИНИЦА (0 и 1), АНАЛОГИЧНО ТОМУ, КАК В АЗБУКЕ МОРЗЕ ИСПОЛЬЗУЮТСЯ ТОЧКА И ТИРЕ. Действительно, закодировав привычные человеку символы (буквы, цифры, знаки) в виде нулей и единиц (или точек и тире), можно составить, передать и сохранить любое сообщение.

Это связано с тем, что информацию, представленную в таком виде, легко технически смоделировать, например, в виде электрических сигналов. Если в какой-то момент времени по проводнику идет ток, то по нему передается единица, если тока нет - ноль. Аналогично, если направление магнитного поля на каком-то участке поверхности магнитного диска одно - на этом участке записан ноль, другое - единица. Если определенный участок поверхности оптического диска отражает лазерный луч - на нем записан ноль, не отражает - единица. Оперативная память состоит из очень большого числа триггеров - электронных схем, состоящих из двух транзисторов. Триггер может сколь угодно долго находиться в одном из двух состояний - когда один транзистор открыт, а другой закрыт, или наоборот. Одно состояние обозначается нулем, а другое единицей.

ОБЪЕМ ИНФОРМАЦИИ, НЕОБХОДИМЫЙ ДЛЯ ЗАПОМИНАНИЯ ОДНОГО ИЗ ДВУХ СИМВОЛОВ-0 ИЛИ 1, НАЗЫВАЕТСЯ 1 БИТ (англ. binary digit- двоичная единица). 1 бит - минимально возможный объем информации. Он соответствует промежутку времени, в течение которого по проводнику передается или не передается электрический сигнал, участку поверхности магнитного диска, частицы которого намагничены в том или другом направлении, участку поверхности оптического диска, который отражает или не отражает лазерный луч, одному триггеру, находящемуся в одном из двух возможных состояний.

Итак, если у нас есть один бит, то с его помощью мы можем закодировать один из двух символов - либо 0, либо 1.

Если же есть 2 бита, то из них можно составить один из четырех вариантов кодов: 00, 01, 10, 11.

Если есть 3 бита- один из восьми: 000, 001, 010, 100, 110, 101, 011, 111.

Закономерность очевидна:

1 бит- 2 варианта,

2 бита- 4 варианта,

3 бита- 8 вариантов;

Продолжая дальше, получим:

N бит - 2 в степени N вариантов.

В обычной жизни нам достаточно 150-160 стандартных символов (больших и маленьких русских и латинских букв, цифр, знаков препинания, арифметических действий и т.п.). Если каждому из них будет соответствовать свой код из нулей и единиц, то 7 бит для этого будет недостаточно (7 бит позволят закодировать только 128 различных символов), поэтому используют 8 бит.

ДЛЯ КОДИРОВАНИЯ ОДНОГО ПРИВЫЧНОГО ЧЕЛОВЕКУ СИМВОЛА В ЭВМ ИСПОЛЬЗУЕТСЯ 8 БИТ, ЧТО ПОЗВОЛЯЕТ ЗАКОДИРОВАТЬ 256 РАЗЛИЧНЫХ СИМВОЛОВ.

СТАНДАРТНЫЙ НАБОР ИЗ 256 СИМВОЛОВ НАЗЫВАЕТСЯ ASCII (произносится "аски", означает "Американский Стандартный Код для Обмена Информацией"- англ. American Standart Code for Information Interchange).

Он включает в себя большие и маленькие русские и латинские буквы, цифры, знаки препинания и арифметических действий и т.п.

Каждому символу ascii соответствует 8-битовый двоичный код, например:

A - 01000001,

B - 01000010,

C - 01000011,

D - 01000100,

и т.д.

Таким образом, если человек создает текстовый файл и записывает его на диск, то на самом деле каждый введенный человеком символ хранится в памяти компьютера в виде набора из восьми нулей и единиц. При выводе этого текста на экран или на бумагу специальные схемы - знакогенераторы видеоадаптера (устройства, управляющего работой дисплея) или принтера образуют в соответствии с этими кодами изображения соответствующих символов.

Набор ASCII был разработан в США Американским Национальным Институтом Стандартов (ANSI), но может быть использован и в других странах, поскольку вторая половина из 256 стандартных символов, т.е. 128 символов, могут быть с помощью специальных программ заменены на другие, в частности на символы национального алфавита, в нашем случае - буквы кириллицы.

ОБЪЕМ ИНФОРМАЦИИ, НЕОБХОДИМЫЙ ДЛЯ ЗАПОМИНАНИЯ ОДНОГО СИМВОЛА ASCII НАЗЫВАЕТСЯ 1 БАЙТ.

Очевидно что, поскольку под один стандартный ASCII-символ отводится 8 бит,

1 БАЙТ = 8 БИТ.

Остальные единицы объема информации являются производными от байта:

1 килобайт = 1024 байта,

1 мегабайт = 1024 килобайтам,

1 гигабайт = 1024 мегабайтам,

1 терабайт = 1024 гигабайтам.

Обратите внимание, что в информатике смысл приставок кило-, мега- и других в общепринятом смысле выполняется не точно, а приближенно, поскольку соответствует увеличению не в 1000, а в 1024 раза.

Скорость передачи информации по линиям связи измеряется в бит/сек.