Рассмотрим применение метода динамического программирования для непрерывной задачи.
Предположим, что оптимальное управление
найдено и ему соответствует траектория движения объекта
. Выберем на оптимальной траектории две точки, соответствующие моментам времени
и
(рис. 5.4), где
– малая величина.
![]() |
Рисунок 5.4 – Оптимальная траектория движения объекта
Тогда, согласно принципу оптимальности, участки оптимальной траектории от
до
и от
до
будут оптимальными. Как и в случае дискретной задачи, обозначим минимальное значение функционала
этих участков через
и
, соответственно:
; (5.15)
. (5.16)
Определим, насколько изменяется минимальное значение функционала при переходе от точки
до
. Для этого из (5.15) вычтем (5.16):

.
Откуда следует, что
. (5.17)
Учитывая, что
мало, то подынтегральная функция
на малом отрезке
изменяется незначительно и её можно считать постоянной с какой-то погрешностью
. Математически это можно записать следующим выражением:
, (5.18)
где
– малая величина, более малая чем
.
Теперь рассмотрим второе слагаемое в (5.17). Разложим функцию
в ряд Тейлора с учётом того, что
зависит как от
, так и от времени
:
, (5.19)
где
- разложение
в ряд Тейлора;
и
– совокупность последующих членов ряда Тейлора.
Подставив (5.18) и (5.19) в (5.17), получим:
.
Сократим обе части на
и поделим оставшееся выражение на
.
. (5.20)
Проанализируем полученное уравнение (5.20). Так как
, то им можно пренебречь по сравнению с другими слагаемыми. Производная
, также как и функция
не зависит от управления
и может быть вынесена за фигурные скобки. Напомним, что согласно (2.23)
.
После выполнения всех указанных операций уравнение (5.20) перепишем следующим образом:
. (5.21)
Полученное уравнение (5.21) называется уравнением Беллмана в векторной форме.
В скалярной форме уравнение Беллмана имеет вид:
. (5.22)
Уравнение Беллмана представляет собой дифференциальное уравнение в частных производных. Методика определения оптимального управления
с помощью уравнения Беллмана сводится к следующим процедурам.
1. Из условия минимума выражения в фигурных скобках (5.21) находится оптимальное управление
как функция
,
,
, т.е. в форме
.
2. Найденное управление
подставляется в выражение в фигурных скобках, что приведёт к новой форме уравнения, не содержащей управление
:
. (5.23)
Это уравнение называется уравнением типа Гамильтона-Якоби.
3. При решении уравнения Гамильтона-Якоби (5.23) с учётом граничного условия
определяется функция
. Способы решения уравнения Гамильтона-Якоби в каждой задаче свои.
4. Определив функцию
, подставляют её в выражение для оптимального управления
, полученного в пункте 1.
В результате получаем выражение для оптимального управления
как функцию состояния
и времени
. Это и будет окончательное решение задачи.
Полученное уравнение Беллмана (5.22) применимо к неавтономным (с обратной связью) системами, так как в нём присутствует явная зависимость от времени
.
Для автономных систем, при отсутствии явной зависимости функции
от времени
,
. Тогда уравнение Беллмана примет вид:
(5.24)
и методика вычислений упростится.







