Рассмотрим задачу управления дискретной стохастической системой, описываемой уравнением

где по-прежнему считается, что
— n -мерный вектор состояния;
— m-мерный вектор управления, принимающий значения из допустимого множества
;
- q -мерный вектор случайных возмущений, независимых для разных моментов времени;
— n -мерная вектор-функция. Начальное значение вектора х0 считается заданным.
Критерий оптимальности также зададим в виде математического ожидания от некоторой терминальной функции

Однако в отличие от программирования управления будем считать, что в процессе управления в любой текущий момент i может быть точно измерен полный вектор состояния
. Ставится задача отыскания такого алгоритма (закона) управления системой (5.1), т. е. последовательности зависимостей
, который обеспечивает перевод системы (5.1) из начального состояния х0 в некоторое конечное состояние с минимальным значением критерия (5.2).
Покажем, что применение метода динамического программирования в данной задаче обеспечивает выполнение достаточных условий оптимальности. Для этого введем в рассмотрение функцию будущих потерь

представляющую собой минимальное значение исходного критерия (5.2), которое может быть достигнуто при оптимальном управлении системой (5.1), начиная с момента времени i из состояния
. Символ M[.../
] означает условное математическое ожидание.
Раскрывая в (5.3) операцию математического ожидания, используя правило пересчета переходных плотностей вероятностей марковского процесса и применяя поэтапную оптимизацию, можно записать

Здесь через
обозначена переходная плотность вероятностей процесса (5.1) при управлении
, т. е. условная плотность вероятностей вектора
при фиксированных значениях
. Интегралы всюду следует понимать как многомерные с областями интегрирования, совпадающими с областями изменения векторов
,
соответственно.
Другими словами, функция будущих потерь
, определяемая соответственно (5.3), удовлетворяет рекуррентному соотношению

называемому также основным рекуррентным соотношением метода динамического программирования. Так как для последнего момента управления i = N по определению имеем

то граничное условие для рекуррентного соотношения (5.4) может быть формально записано в виде

Применяя соотношение (5.4) последовательно начиная с момента i = N, получаем при i — 0 величину
, которая согласно (5.3J представляет собой минимальное значение критерия (5.2):

Другими словами, последовательность управляющих воздействий
, вычисленная в соответствии с рекуррентным соотношением (5.4) с учетом граничного условия (5.5), оптимальна.
Таким образом, соотношения (5.4) с учетом (5.5) можно рассматривать как достаточные условия оптимальности в задаче синтеза оптимального управления системой (5.1) с критерием (5.2).
Нетрудно показать, что если критерий оптимальности вместо (5.2) имеет более общий вид

то достаточные условия оптимальности могут быть представлены в виде рекуррентного соотношения

с прежним граничным условием

Действительно, вводя дополнительную переменную
, определяемую согласно уравнению

критерий (5.6) сведем к виду (5.2) по отношению к расширенному вектору состояния (х°, х):

Применим формально основное рекуррентное соотношение (5.4) с учетом (5.5). Получим

причем

Для момента i=N функция
может быть представлена в виде

где

Аналогично для момента i=N —1

где

Для произвольного момента

где

Нетрудно видеть, что компонента
не влияет на выбор оптимального управления. Поэтому ее можно исключить из рассмотрения, ограничившись рекуррентным соотношением для функции

которое совпадает с соотношением (5.7).
Граничное условие для функции
по построению имеет вид (5.8).






