Модель динамического программирования с конечным числом этапов

При условии, что количество этапов в задаче выбора наилучшей стратегии ограничено, эту задачу можно представить как задачу динамического программирования с конечным числом этапов. Пусть число состояний для каждого этапа равно m. Обозначим через оптимальный ожидаемый доход, полученный на этапах от n до N включительно, при условии, что система находилась вначале этапа n в состоянии i.

Обратное рекуррентное уравнение, связывающее и , запишем в виде:

,

где для всех j.

k – альтернативы.

- вероятности перехода системы из i в j при альтернативе k.

- элемент матрицы доходов R при переходе системы из i в j при альтернативе k.

- доход, который был получен на этапе n+1, когда система была в состоянии j.

Приведенное уравнение основано на том, что накапливающийся доход получается в результате перехода из состояния i на этапе n в состояние j этапе n+1 с вероятностью . Введя обозначение

,

рекуррентное уравнение динамического программирования можно записать следующим образом:

.

Для промежуточных значений функция состояния:

.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: