Алфавит и лексемы

Основныепонятияязыка

Состав языка

Язык программирования можно уподобить очень примитивному иностранному языку с жесткими правилами без исключений. Изучение иностранного языка обычно начинают с алфавита, затем переходят к словам и законам построения фраз, и только в результате длительной практики и накопления словарного запа­са появляется возможность свободно выражать на этом языке свои мысли. При­мерно так же поступим и мы при изучении языка С#.

Алфавит и лексемы

Все тексты на языке пишутся с помощью его алфавита. Например, в русском языке один алфавит (набор символов), а в албанском — другой. В С# использу­ется кодировка символов Unicode. Соответствие между символами и кодирую­щими их числами называется кодировкой, или кодовой таблицей (character set). Существует множество различных кодировок символов. Например, в Windows часто используется кодировка ANSI, а конкретно — СР1251. Каждый символ представляется в ней одним байтом (8 бит), поэтому в этой кодировке можно од­новременно задать только 256 символов. В первой половине кодовой таблицы находятся латинские буквы, цифры, знаки арифметических операций и другие распространенные символы. Вторую половину занимают символы русского алфавита. Если требуется представлять символы другого национального алфавита (например, албанского), необходимо использовать другую кодовую таблицу.

Кодировка Unicode позволяет представить символы всех существующих алфави­тов одновременно, что коренным образом улучшает переносимость текстов. Каждому символу соответствует свой уникальный код. Естественно, что при этом для хранения каждого символа требуется больше памяти. Первые 128 Unicode-символов соответствуют первой части кодовой таблицы ANSI.

Алфавит С# включает:

буквы (латинские и национальных алфавитов) и символ подчеркивания (_),
который употребляется наряду с буквами;

цифры;

специальные символы, например +, *, { и &;

пробельные символы (пробел и символы табуляции);

символы перевода строки.

Из символов составляются более крупные строительные блоки: лексемы, дирек­тивы препроцессора и комментарии.

Лексема (token) (часто это слово ленятся переводить и пишут просто «токен») —это минимальная единица языка, имеющая самостоятельный смысл. Существуют следующие виды лексем:

имена (идентификаторы);

ключевые слова;

знаки операций;

разделители;

литералы (константы).

Директивы препроцессора пришли в С# из его предшественника — языка C++. Препроцессором называется предварительная стадия компиляции, на которой формируется окончательный вид исходного текста программы. Например, с по­мощью директив (инструкций, команд) препроцессора можно включить или вы­ключить из процесса компиляции фрагменты кода. Директивы препроцессора не играют в С# такой важной роли, как в C++. Мы рассмотрим их в свое вре­мя—в разделе «Директивы препроцессора».

Комментарии предназначены для записи пояснений к программе и формирова­ния документации. Правила записи комментариев описаны далее в этом разделе. Из лексем составляются выражения и операторы. Выражение задает правило вычисления некоторого значения. Например, выражение а + b задает правило вычисления суммы двух величин.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: