Регистры состояния и управления

Сегментные регистры

Эту группу регистров можно отнести к регистрам состояния. Сегментные регистры (CS, SS, DS, ES, FS и GS) только 16-разрядные. Регистры из этой группы используются при вычислении реального адреса (адреса, который будет передан на шину адреса). Процесс вычисления реального адреса зависит от режима процессора (реальный или защищенный) и будет рассмотрен позже.

Названия этих регистров соответствуют выполняемым функциям:

– CS (Code Segment, сегмент кода) вместе с EIP (IP) определяют адрес памяти, откуда нужно прочитать следующую инструкцию;

– аналогично регистр SS (Stack Segment, сегмент стека) в паре с ESP (SS:SP) указывают на вершину стека.

Сегментные регистры DS, ES, FS и GS (Data, Extra, F и G сегменты) используются для адресации данных в памяти.

Регистр ESP (SP) – это указатель памяти, который указывает на вершину стека (х86-совместимые процессоры не имеют аппаратного стека). Организацию и назначение стековой памяти мы рассмотрим позже.

Также программно не может быть изменен регистр EIP (IP, Instruction Pointer) – указатель команд. Этот регистр указывает на инструкцию, которая будет выполнена следующей. Значение этого регистра изменяется непосредственно контроллером процессора согласно инструкциям, полученным из памяти.

Нам осталось рассмотреть только регистр флагов (иногда его называют регистром признаков) – EFLAGS. Он состоит из одноразрядных флагов, отображающих в основном текущее состояние арифметико-логического устройства. Рассмотрим только самые важные из них:

• признак нуля ZF (Zero Flag) – 1, если результат предыдущей операции равен нулю;

• признак знака SF (Sign Flag) – 1, если результат предыдущей операции отрицательный.

• признак переполнения OF (Overflow Flag) – 1, если при выполнении предыдущей операции произошло переполнение (overflow), то есть результат операции больше, чем зарезервированная для него память;

• признак переноса CF (Carry Flag) – 1, если бит был «перенесен» и стал битом более высокого порядка;

• признак прерывания IF (Interrupt Flag) – 1, если прерывания процессора разрешены;

• признак направления DF (Direction Flag) – используется для обработки строк.

Лекция 6. Структура программы на языке Ассемблера

Рассмотрим вопросы организации и компоновки программного кода на языке ассемблера, вопросы взаимодействия различных частей ассемблерной программы, организации сегментов программного кода, данных и стека в контексте различных моделей памяти.

6.1. Организация сегментов

Для хорошего понимания, как работает программа на ассемблере, нужно очень четко представлять себе организацию сегментов. Применительно к процессорам Intel Pentium термин «сегмент» имеет два значения:

– область физической памяти заранее определенного размера. Для 16-разрядных процессоров размер сегмента физической памяти не может превышать 64 Кбайт, в то время как для 32-разрядных может достигать 4 Гбайт;

– область памяти переменного размера, в которой могут находиться программный код, данные или стек.

Физический сегмент может располагаться только по адресу, кратному 16, или, как иногда говорят, по границе параграфа. Логические сегменты тесно связаны с физическими. Каждый логический сегмент ассемблерной программы определяет именованную область памяти, которая адресуется селектором сегмента, содержащимся в сегментном регистре. Сегментированная архитектура создает определенные трудности в процессе разработки программ. Для небольших программ, меньших 64 Кбайт, программный код и данные могут размещаться в отдельных сегментах, поэтому никаких особых проблем не возникает.

Для больших программ, занимающих несколько сегментов кода или данных, необходимо правильно адресовать данные, находящиеся в разных сегментах данных. Кроме того, если программный код находится в нескольких сегментах, то усложняются реализация переходов и ветвлений в программе, а также вызовы процедур. Во всех этих случаях требуется задавать адреса в виде сегмент:смещение.

При использовании 32-разрядного защищенного режима эти проблемы исчезают. Например, в плоской модели памяти (о ней мы поговорим чуть позже) для адресации программного кода и данных достаточно 32-разрядного эффективного адреса внутри непрерывной области памяти.

Логические сегменты могут содержать три основных компонента программы: программный код, данные и стек. Макроассемблер MASM обеспечивает правильное отображение этих компонентов на физические сегменты памяти, при этом сегментные регистры CS, DS и SS содержат адреса физических сегментов памяти.

6.2. Директивы управления сегментами и моделями памяти

макроассемблера MASM

В макроассемблер MASM включены директивы, упрощающие определение сегментов программы и, кроме того, предполагающие те же соглашения, которые используются в языках высокого уровня Microsoft. Упрощенные директивы определения сегментов генерируют необходимый код, указывая при этом атрибуты сегментов и порядок их расположения в памяти. Везде мы будем использовать именно упрощенные директивы определения сегментов, наиболее важные из которых перечислены ниже:

• .DATA (.data) – определяет начало сегмента инициализированных данных с именем DATA и при наличии предыдущего сегмента завершает его. Этой директиве должна предшествовать директива.MODEL. Сегмент, определенный с атрибутом.DATA, должен содержать только инициализированные данные, то есть имеющие начальные значения, например:

.data

val1 dw 11

string1 db "Text string"

byte1 db?

• .DATA? (.data?) – определяет сегмент данных, в котором располагаются неинициализированные данные. При наличии предыдущего сегмента новый сегмент завершает его. Неинициализированные данные могут объявляться в сегменте.DATA? при помощи оператора?. Преимуществом директивы.DATA? является то, что при ее использовании уменьшается размер исполняемого файла и, кроме того, обеспечивается лучшая совместимость с другими языками. Этой директиве должна предшествовать директива.MODEL. Вот пример использования директивы.DATA?:

.data?

DB 5 DUP (?)

• .CONST (.const) – определяет начало сегмента данных, в котором определены константы. При наличии предыдущего сегмента новый сегмент завершает его. В целях совместимости с другими языками данные должны быть в формате, совместимом с принятыми в языках высокого уровня соглашениями. Сегмент, определенный директивой.CONST, имеет атрибут «только для чтения». Этой директиве должна предшествовать директива.MODEL.

• .STACK (.stack) [размер] – определяет начало сегмента стека с указанным размером памяти, который должен быть выделен под область стека. Если параметр не указан, размер стека предполагается равным 1 Кбайт. При наличии предыдущего сегмента новый сегмент завершает его. Этой директиве должна предшествовать директива.MODEL.

• .CODE (.code) [имя] – определяет сегмент программного кода и заканчивает предыдущий сегмент, если таковой имеется. Необязательный параметр имя замещает имя TEXT, заданное по умолчанию. Если имя не определено, ассемблер создает сегмент с именем TEXT для моделей памяти tiny, small, compact и flat или сегмент с именем имя_модуля_ТЕХТ для моделей памяти medium, large и huge. Этой директиве должна предшествовать директива.MODEL, указывающая модель памяти, используемую программой.

• .MODEL (.model) модель_памяти [,соглашение_о_вызовах] [,тип_ОС] [.параметр_стека] – определяет модель памяти, используемую программой. Директива должна находиться перед любой из директив объявления сегментов. Она связывает определенным образом различные сегменты программы, определяемые ее параметрами tiny, small, compact, medium, 1arge, huge или flat. Параметр модель_памяти является обязательным.

Если разрабатывается процедура для включения в программу, написанную на языке высокого уровня, то должна быть указана та модель памяти, которая используется компилятором языка высокого уровня. Кроме того, модель памяти должна соответствовать режиму работы (типу) процессора. Это имеет значение для плоской модели памяти, которую можно применять только в режимах.386,.486,.586,.686. Модель памяти определяет, какой тип адресации данных и команд поддерживает программа (near или far). Это имеет смысл для команд перехода, вызовов и возврата из процедур. В табл. 6.1 демонстрируются эти особенности.

В зависимости от «расстояния» переходы бывают трех типов: короткие (short), ближние (near) и дальние (far). Тип перехода задается необязательным параметром инструкции jmp. Если тип не задан, по умолчанию используется тип near.

Максимальная «длина» короткого перехода (то есть максимальное расстояние между текущим и целевым адресом) ограничена. Второй байт инструкции (операнд) содержит только одно 8-разрядное значение, поэтому целевой адрес может быть в пределах от -128 до 127 байтов. При переходе выполняется знаковое расширение 8-разрядного значения и его добавление к текущему значению Е(IР).

«Длина» ближнего перехода (near) зависит только от режима процессора. В реальном режиме меняется только значение IP, поэтому мы можем «путешествовать» только в пределах одного сегмента (то есть в пределах 64 Кб); в защищенном режиме используется EIP, поэтому целевой адрес может быть где угодно в пределах 4 Гб адресного пространства.

Переход типа far модифицирует кроме IP еще и сегментный регистр CS, который используется при вычислении фактического адреса памяти. Поэтому команда перехода должна содержать новое значение CS.

Таблица 6.1

Модель памяти	Адресация кода	Адресация данных	Операционная система	Чередование кода и данных
tiny	near	near	MS-DOS	Допустимо
small	near	near	MS-DOS, Windows	Нет
medium	far	near	MS-DOS, Windows	Нет
compact	near	far	MS-DOS, Windows	Нет
large	far	far	MS-DOS, Windows	Нет
huge	far	far	MS-DOS, Windows	Нет
flat	near	near	Windows NT, Windows 2000, Windows XP, Windows 2003	Допустимо

Все семь моделей памяти поддерживаются всеми компиляторами MASM, начиная с версии 6.1.

Модель small поддерживает один сегмент кода и один сегмент данных. Данные и код при использовании этой модели адресуются как near (ближние). Модель large поддерживает несколько сегментов кода и несколько сегментов данных. По умолчанию все ссылки на код и данные считаются дальними (far).

Модель medium поддерживает несколько сегментов программного кода и один сегмент данных, при этом все ссылки в сегментах программного кода по умолчанию считаются дальними (far), а ссылки в сегменте данных – ближними (near). Модель compact поддерживает несколько сегментов данных, в которых используется дальняя адресация данных (far), и один сегмент кода с ближней адресацией (near). Модель huge практически эквивалентна модели памяти large.

Нужно отметить, что разработчик программ может явно определить тип адресации данных и команд в различных моделях памяти. Например, ссылки на команды внутри одного сегмента кода в модели large можно сделать ближними (near). Проанализируем, в каких случаях лучше всего подходят те или иные модели памяти.

Модель tiny работает только в 16-разрядных приложениях MS-DOS. В этой модели все данные и код располагаются в одном физическом сегменте. Размер программного файла в этом случае не превышает 64 Кбайт. С другой стороны, модель flat предполагает несегментированную конфигурацию программы и используется только в 32-разрядных операционных системах. Эта модель подобна модели tiny в том смысле, что данные и код размещены в одном сегменте, только 32-разрядном.

Для разработки программы для модели flat перед директивой.model flat следует разместить одну из директив:.386,.486,.586 или.686. Желательно указывать тот тип процессора, который используется в машине, хотя на машинах с Intel Pentium можно указывать директивы.386 и.486. Операционная система автоматически инициализирует сегментные регистры при загрузке программы, поэтому модифицировать их нужно, только если необходимо смешивать в одной программе 16- и 32-разрядный код. Адресация данных и кода является ближней (near), при этом все адреса и указатели являются 32-разрядными.

Параметр соглашение_о_вызовах используется для определения способа передачи параметров при вызове процедуры из других языков, в том числе и языков высокого уровня (С++, Pascal). Параметр может принимать следующие значения: С, BASIC, FORTRAN, PASCAL, SYSCALL, STDCALL. При разработке модулей на ассемблере, которые будут применяться в программах, написанных на языках высокого уровня, обращайте внимание на то, какие соглашения о вызовах поддерживает тот или иной язык. Более подробно соглашения о вызовах мы будем рассматривать при анализе интерфейса программ на ассемблере с программами на языках высокого уровня.

Параметр тип_ОС равен 0S_D0S, и на данный момент это единственное поддерживаемое значение этого параметра.

Наконец, последний параметр параметр_стека устанавливается равным NEARSTACK (регистр SS равен DS, области данных и стека размещаются в одном и том же физическом сегменте) или FARSTACK (регистр SS не равен DS, области данных и стека размещаются в разных физических сегментах). По умолчанию принимается значение NEARSTACK. Рассмотрим примеры использования директивы. MODEL:

.model flat, с

Здесь параметр f1at указывает компилятору на то, что будет использоваться 32-разрядная линейная адресация. Второй параметр с указывает, что при вызове ассемблерной процедуры из другой программы (возможно, написанной на другом языке) будет задействован способ передачи параметров, принятый в языке С. Следующий пример:

.model large, с, farstack

Здесь используются модель памяти large, соглашение о передаче параметров языка С и отдельный сегмент стека (регистр SS не равен DS).

.model medium, pascal

В этом примере используются модель medium, соглашение о передаче параметров для Pascal и область стека, размещенная в одном физическом сегменте с данными.

6.3. Структура программ на ассемблере MASM

Программа, написанная на ассемблере MASM, может состоять из нескольких частей, называемых модулями, в каждом из которых могут быть определены один или несколько сегментов данных, стека и кода. Любая законченная программа на ассемблере должна включать один главный, или основной (main), модуль, с которого начинается ее выполнение. Основной модуль может содержать программные сегменты, сегменты данных и стека, объявленные при помощи упрощенных директив. Кроме того, перед объявлением сегментов нужно указать модель памяти при помощи директивы. MODEL. Поскольку подавляющее большинство современных приложений являются 32-разрядными, то основное внимание необходимо уделить именно таким программам, хотя нужно вспомнить и 16-разрядные программы, которые все еще используются.

В следующем примере показана 16-разрядная программа на ассемблере, в которой используются упрощенные директивы ассемблера MASM:

.model small, с; эта директива указывается до

; объявления сегментов

.stack 100h; размер стека 256 байт

.data; начало сегмента данных

: данные

.code

main:; здесь начинается сегмент программ

команды ассемблера

end main

end

Здесь оператор end main указывает на точку входа main в главную процедуру. Оператор end закрывает последний сегмент и обозначает конец исходного текста программы. В 16-разрядных приложениях MS-DOS можно инициализировать сегментные регистры так, чтобы они указывали на требуемый логический сегмент данных. Следующий пример демонстрирует это:

Листинг 6.1. Пример адресации сегментов в программе MS-DOS

.model large

.data

S1 DB "TEST STRINGS"

.code

mov AX, @data

mov DS, AX

lea DX, S1

mov AH, 9h

int 21h

mov ax, 4c00h

int 21h end

Здесь на экран дисплея выводится строка s1. При помощи следующих команд в сегментный регистр DS помещается адрес сегмента данных, указанного директивой.data:

mov АХ, @data

mov DS, AX

Затем строка s1, адресуемая через регистры DS:DX, выводится на экран с использованием прерывания 9h функции 21h MS-DOS. Попробуйте закомментировать проанализированные две строки кода и посмотреть на результат работы программы.

Для 32-разрядных приложений шаблон исходного текста выглядит иначе:

.model flat

.stack

.data

: данные

.code

main:

: команды ассемблера

end main

end

Основное отличие от предыдущего примера – другая модель памяти (flat), предполагающая 32-разрядную линейную адресацию с атрибутом near.

Как видно из примера, «классический» шаблон 32-разрядного приложения содержит область данных (определяемую директивой.data), область стека (директива.stack) и область программного кода (директива.code).

5 6 7 8 9 10 11

Подборка статей по вашей теме: