При условии, что количество этапов в задаче выбора наилучшей стратегии ограничено, эту задачу можно представить как задачу динамического программирования с конечным числом этапов. Пусть число состояний для каждого этапа равно m. Обозначим через оптимальный ожидаемый доход, полученный на этапах от n до N включительно, при условии, что система находилась вначале этапа n в состоянии i.
Обратное рекуррентное уравнение, связывающее и , запишем в виде:
,
где для всех j.
k – альтернативы.
- вероятности перехода системы из i в j при альтернативе k.
- элемент матрицы доходов R при переходе системы из i в j при альтернативе k.
- доход, который был получен на этапе n+1, когда система была в состоянии j.
Приведенное уравнение основано на том, что накапливающийся доход получается в результате перехода из состояния i на этапе n в состояние j этапе n+1 с вероятностью . Введя обозначение
,
рекуррентное уравнение динамического программирования можно записать следующим образом:
.
Для промежуточных значений функция состояния:
|
|
.