Численные методы программирования оптимального управления

В связи с тем, что задача программирования оптимального управления стохастической дискретной системой в общем случае может быть интерпретирована как специальная задача математического программирования, для ее численного решения могут быть применены и соответствующие методы [28].

Ниже обсуждаются особенности применения для этой цели 'наиболее распространенных методов математического программирования, таких, как градиентные методы и методы второго порядка.

Градиентные методы при отсутствии ограничений. Обратимся снова к задаче оптимизации программы управления системой

с целью минимизации терминального критерия

Как и прежде, считается, что начальное состояние х₀ известно. Предположим сначала, что ограничения на вектор управления отсутствуют.

Не стремясь здесь к получению точного решения с использованием условий оптимальности, рассмотрим процедуру приближенного решения задачи методом последовательных приближений, основу которого составляет градиентный метод поиска.

Обозначим через , , q-e приближение искомой последовательности. Тогда в соответствии с градиентным методом [28] новое (q+1)-е приближение может быть найдено с помощью соотношения

где — градиент критерия оптимальности по вектору на q-й итерации; — шаг поиска.

Смысл данного соотношения заключается в том, что новое приближение управления получается путем перехода из старого приближения в направлении антиградиента с шагом .

Такое направление поиска, как известно, является локально наилучшим. В этом направлении минимизируемая функция имеет наибольшую скорость убывания.

Составляющие градиента могут быть определены численными методами как отношение приращения критерия к малому приращению (пробному) соответствующей составляющей управления .

Однако при таком подходе возникают настолько значительные вычислительные трудности, особенно при больших числах N и размерностях т вектора управления ,что возможность получения решения становится сомнительной. Указанные трудности существенно сокращаются, если обратиться к методу сопряженных систем. Напомним, что согласно этому методу вычисление градиента может быть осуществлено по формуле

Здесь через обозначен гамильтониан на q-й итерации, равный

где в свою очередь вектор удовлетворяет сопряженной системе

Из приведенных соотношений видно, что для вычисления градиентов на каждой итерации необходимо вычислить математическое ожидание производной гамильтониана по вектору управления . А это может быть осуществлено путем совместного статистического моделирования исходной системы (4.26) и сопряженной (4.28).

Алгоритм такого моделирования состоит в следующем. С помощью датчика случайных чисел формируется конкретная j -я реализация последовательности случайных векторов , . Далее при заданном начальном условии х₀ и известном управлении на q -итерации согласно (4.26) моделируется в прямом времени при изменении i от 0 до N j -я реализация фазовой траектории

Определив фазовый вектор в конечный момент и вычислив граничное значение сопряженного вектора

можем промоделировать и сопряженную систему в соответствии с(4.28):

Зная сопряженный вектор в j -й реализации, согласно можно вычислить градиент критерия в данной реализации:

Если теперь произвести осреднение по всем реализациям, то получим градиент исходного критерия оптимальности по управлению на q -й итерации:

Здесь через k обозначено количество реализаций.

Основное преимущество метода сопряженных систем состоит в том, что в процессе моделирования для вычисления значения критерия оптимальности и набора градиентов для всех моментов в каждой реализации достаточно лишь один раз обратиться к системе (4.26) в прямом времени и к системе (4.28) - в обратном времени.

С целью улучшения процесса сходимости рассматриваемого градиентного метода при моделировании целесообразным оказывается применение зависимых испытаний, точнее, использование одних и тех же реализаций случайных векторов , , на всех итерациях градиентного поиска. Такой способ моделирования является более экономичным, так как в конечном счете позволяет ограничиться существенно меньшим числом реализаций, чем при использовании независимых испытаний [26].

Шаг поиска может быть выбран различными способами. Например, при реализации простейшего градиентного метода он принимается постоянным, =const. При реализации метода наискорейшего спуска шаг выбирается наилучшим на данной итерации, т. е. из условия достижения критерием своего наименьшего значения в направлении антиградиента:

Учет ограничений на компоненты вектора управления. Часто в

задачах управления ограничения, накладываемые на компоненты вектора управления , имеют вид

где через обозначено предельное значение компоненты .

В этих случаях для поиска может быть использована следующая модификация градиентного метода, являющаяся по сути дела реализацией проективного градиентного метода [28].

Если точка является внутренней точкой допустимого множества U или граничной, но с градиентом, направленным внутрь допустимого множества U, то переход к новому приближению осуществляется в соответствии с обычной схемой

где градиент вычисляется по-прежнему согласно (4.27). Однако выбор шага поиска теперь следует проводить с учетом дополнительного ограничения

где через обозначен максимально возможный на q-й итерации шаг поиска. Для его определения найдем сначала предельное значение шага поиска , если принять во внимание только ограничения на компоненту управления :

Тогда с учетом всех ограничений будет равен

где через обозначено множество индексов i, k, для которых . Заметим, что равенство означает, что компонента принимает свое предельное значение, а градиент направлен во вне множества U.

Если множество окажется пустым, то это будет означать, что точка является граничной, а градиент направлен во вне допустимой области U. В этом случае переход к новому приближению естественно осуществить по следующей схеме:

Смысл данной схемы состоит в том, что если при движении вдоль антиградиента какая-либо компонента вектора управления не выходит за пределы допустимого множества, то новое приближение по этой компоненте определяется согласно градиентному методу, если же при таком движении происходит выход за допустимое множество, то значение компоненты принимается равным прежнему предельному значению.

Оптимизация программы проведения однопараметрической коррекции. Проиллюстрируем возможность, применения изложенного метода на задаче оптимизации программы проведения однопараметрической коррекции космического аппарата. В качестве математической модели процесса коррекции, как и прежде, примем скалярное конечноразностное уравнение

Будем считать, что имеют место соотношения (4.16).

Требуется определить последовательность корректирующих воздействий , обращающих в минимум терминальный критерий

В отличие от рассмотренного ранее случая полагаем, что «а каждое корректирующее воздействие накладывается ограничение .

Для получения точного решения задачи следовало бы воспользоваться необходимыми условиями оптимальности в форме дискретного принципа минимума. При этом задача оптимизации свелась бы к некоторой краевой задаче, трудности решения которой обсуждались в предыдущем разделе. Если же получение точного решения не требуется, то для получения приближенного решения можно использовать изложенный выше градиентный метод. Вычислительный алгоритм такого метода в данном случае может быть представлен следующим образом.

1. Задается любое допустимое управление — начальное приближение .

2. Переход от произвольного q- го приближения к новому (q+1)- му осуществляется по схеме

где — шаг поиска, а вектор определяет направление поиска на q-й итерации.

3. Определение вектора на q-й итерации предполагает выполнение следующих операций:

1) определяется производная на q-й итерации.

Так как в данном случае гамильтониан равен

то согласно (4.27) и (4.28) имеем

причем

Отсюда следует, что математическое ожидание сопряженной переменной для всех моментов времени есть величина постоянная и равная

Математическое ожидание конечного промаха в свою очередь может быть найдено на основании исходной модели движения

Заметим, что в силу линейности модели в данном случае при определении производных статистического моделирования проводить не требуется;

2) вычисляется максимально допустимый шаг поиска на q-й итерации согласно соотношениям

где

3) формируются компоненты вектора , определяющего направление поиска на q-й итерации:

4) выбор шага поиска hi можно осуществить наилучшим образом, т. е. из условия

Причем характерно, что для вычисления значения самого критерия на q-й итерации можно воспользоваться уравнением для' второго момента текущего промаха , которое имеет вид

с граничным условием . При i = N+1 получаем .

Таким образом, в данной задаче удается избежать статистического моделирования на всех этапах поиска.

Применение методов второго порядка. Наиболее существенным недостатком всех градиентных методов (особенно при решении задач большой размерности) является медленная сходимость процесса поиска. В стохастических задачах, где в общем случае для вычисления как самой минимизируемой функции, так и ее производных на каждой итерации должно производиться статистическое моделирование, этот недостаток еще более усугубляется. Одним из способов улучшения сходимости процесса поиска является учет при формировании нового приближения вторых производных критерия оптимальности, другими словами, использование методов второго порядка. Простейшим среди этих методов является метод Ньютона.

Его суть состоит в том, что в качестве нового (q+1)-го приближения принимается оптимальное решение, обеспечивающее минимум квадратичной аппроксимации критерия оптимальности на q-м приближении. Итак, квадратичная аппроксимация, получаемая путем разложения критерия в ряд Тейлора в окрестности q -го приближения, имеет вид

Произведя обычную минимизацию по вектору и путем приравнивания нулю градиента , получаем

Предполагается, естественно, что ограничения на управления отсутствуют, а матрица положительно определенная, что обеспечивает, с одной стороны, существование обратной матрицы, а с другой стороны, гарантирует достижение в точке минимума .

Покажем, что вычисление матриц вторых частных производных в каждой реализации может быть осуществлено, как и вычисление составляющих градиента при использовании сопряженных систем, путем однократного обращения к некоторой системе уравнений.

С этой целью продифференцируем дважды терминальный критерий по текущему управлению . Дифференцируя в свое время этот критерий один раз, получали следующие соотношения, справедливые для каждой реализации:

где

Для определения элементов матрицы вторых частных производных продифференцируем еще один раз по .

Учитывая при этом (4.30), получим следующее соотношение:

которое можно представить в более компактном виде

если ввести в рассмотрение обозначения

Аналогично для матрицы смешанных производных в предположении j>i будем иметь

или в компактной форме

где — матрицы, удовлетворяющие рекуррентному соотношению

Таким образом, на основании соотношений (4.31) — (4.34) с граничными условиями на правом конце путем однократного просчета в обратном времени можно получить значения всех элементов матрицы вторых частных производных в конкретной реализации. Используя далее метод статистического моделирования по описанной ранее схеме и произведя осреднение по совокупности реализаций, получаем матрицу в алгоритме (4.29).

Хорошо известно [28], что метод Ньютона, имея большую скорость сходимости, чем градиентные методы, обладает лишь локальной сходимостью. Это значит, что метод обеспечивает сходимость процесса поиска к оптимальному решению при условии выбора достаточно хорошего начального приближения. В противном случае метод может оказаться расходящимся. Для придания методу свойства глобальной сходимости по аналогии с градиентными методами вводят шаг поиска на каждой итерации , и схема, теперь уже модифицированного метода Ньютона, принимает вид

Шаг поиска может выбираться разными способами, например, из условия

Естественно, что при больших числах N, а значит, и при больших размерностях вектора и вычисление полной матрицы может потребовать значительных затрат машинного времени. Для их сокращения можно рекомендовать использование приема погрупповой оптимизации, согласно которому последующее приближение получается из предыдущего варьированием компонент вектора управления лишь в один единственный i -й момент времени при фиксированных значениях управлений в другие моменты. Затем последовательно варьируются и другие векторы. При такой погрупповой оптимизации алгоритм (4.29) принимает вид

Простота данного алгоритма состоит в том, что он не требует вычисления матриц вторых смешанных производных , , с которыми и связаны основные вычислительные трудности. Вычисление матриц не вызывает затруднений.

Иногда может оказаться полезным и другой, еще более простой алгоритм поиска, предполагающий, что матрица является диагональной. В этом случае для каждой j -й компоненты вектора получаем следующую расчетную формулу:

С одной стороны, как только что было установлено, этот алгоритм может рассматриваться как частный случай модифицированного метода Ньютона. С другой стороны, он может интерпретироваться как одна из разновидностей градиентных методов, в которой поиск осуществляется в пространстве управлений с переменной на каждой итерации метрикой.

Параметрическая оптимизация закона коррекции. Проиллюстрируем применение методов второго порядка снова на задаче, связанной с оптимизацией процесса коррекции космического аппарата путем определения коэффициентов обратной связи в зависимости .

Как и прежде, математическую модель процесса коррекции и критерий оптимальности представим в виде

Сначала преобразуем данную задачу к задаче терминального управления. С этой целью введем вспомогательную переменную , определив ее с помощью уравнения

Тогда критерий оптимальности становится терминальным в пространстве

Теперь для решения задачи обратимся к алгоритму (4.35). В данном случае гамильтониан имеет вид

а сопряженные переменные удовлетворяют уравнениям

откуда следует, что

Как и прежде, производная критерия оптимальности , равная согласно (4.30)

может быть приведена к виду

где определяются согласно (4.23) - (4.25), а второй момент согласно соотношению

Найдем теперь выражение для второй производной . Раскрывая (4.31), с учетом (4.32) в данном случае можно получить

где определяется с помощью рекуррентного соотношения

Нетрудно заметить, что матрицы и связаны условием

Учитывая это, получаем

Анализируя полученные выражения, можно установить, что не зависит от текущего параметра , хотя зависит от всех последующих при j>i.

Поэтому целесообразно оптимизацию по отдельным компонентам искомой последовательности проводить в такой очередности: j =N, N—1,..., 1. Оказывается, что применение алгоритма (4.35) в этом случае позволяет за один цикл итераций по всем , i = N,..., 1, найти сразу точное решение задачи. Действительно, получаем

Учитывая данный результат, можно рекомендовать и при решении более сложных задач, в частности, при оптимизации нелинейных систем погрупповой поиск управляющих воздействий осуществлять в очередности j = N, N -1,..., 1.

1 2 3 4 5 6 7

Подборка статей по вашей теме: