Модель динамического программирования с конечным числом этапов

13 14 15 16 17 18 19

При условии, что количество этапов в задаче выбора наилучшей стратегии ограничено, эту задачу можно представить как задачу динамического программирования с конечным числом этапов. Пусть число состояний для каждого этапа равно m. Обозначим через оптимальный ожидаемый доход, полученный на этапах от n до N включительно, при условии, что система находилась вначале этапа n в состоянии i.

Обратное рекуррентное уравнение, связывающее и , запишем в виде:

,

где для всех j.

k – альтернативы.

- вероятности перехода системы из i в j при альтернативе k.

- элемент матрицы доходов R при переходе системы из i в j при альтернативе k.

- доход, который был получен на этапе n+1, когда система была в состоянии j.

Приведенное уравнение основано на том, что накапливающийся доход получается в результате перехода из состояния i на этапе n в состояние j этапе n+1 с вероятностью . Введя обозначение

,

рекуррентное уравнение динамического программирования можно записать следующим образом:

.

Для промежуточных значений функция состояния:

.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

13 14 15 16 17 18 19

Расчет на прочность при срезе и смятии

Источники международного права

Контроль за санитарным состоянием тумбочек, холодильников, за ассортиментом и сроками хранения продуктов

МЕТОДЫ ПРОГНОЗИРОВАНИЯ

Назначение, устройство и работа делителя передач. Управление коробкой передач с делителем

ВЫПИСКА, ХРАНЕНИЕ И ПРИМЕНЕНИЕ ЛЕКАРСТВЕННЫХ СРЕДСТВ

Самый сильный аргумент, почему эволюция человека не могла быть