Принципы оптимальности

Лекция 13 – Метод динамического программирования

1. Принципы оптимальности.

2. Основное функциональное уравнение Беллмана.

3. Примеры.

- начальное состояние динамической системы S.

- состояние системы на k-том шаге, где k=1,2,…,N.

- управление, обеспечивающее переход системы из состояния в состояние , .

- определённый выигрыш, который обеспечен в результате реализации k-того шага.

- конечное состояние системы S.

P – общий выигрыш за N шагов.

N – конечное число шагов.

Задача ДП .

<…>

Требуется найти такое уравнение U, в результате реализации которого система S переходит из начального состояния в конечное, при чём функция P(U) достигает своего экстремального значения, при .

Пусть ЗДП удовлетворяет двум условиям:

1) Отсутствие последействия

Новое состояние системы зависит только от данного состояния системы и выбранного управления и не зависит от того, каким образом система пришла в состояние .

2) Аддитивность и.ф.

(1)

Общий выигрыш за N шагов равен сумме выигрышей за каждый из N шагов.

В основе метода ДП лежит идея постепенной, пошаговой оптимизации. Однако планируя многошаговую оптимизацию надо выбрать на каждом шаге управление таким образом, чтобы учитывать его последствия на следующих шагах.

Условно оптимальное уравнение – каждое уравнение , выбранное при определённых предположениях о том, как окончился предыдущий шаг, и обеспечивающее экстремальное значение функции выигрыша .

Оптимальное управление (оптимальная стратегия управления) – совокупность управлений

, в результате которой система S за N шагов переходит из начального состояния в конечное , и при этом функция (1) принимает экстремальное значение.

Принцип оптимальности:

Оптимальная стратегия такова, что каковы бы ни были начальное состояние и начальные решения, последующие решения должны приниматься исходя из оптимальной стратегии с учётом состояний, получающихся в результате первого решения.

Из принципа оптимальности следует 1-я специфическая особенность метода ДП: процесс решения задачи разворачивается от конца к началу; прежде всего планируется последний шаг решения задачи.

Идея многошаговой процедуры:

· Управление на k-том шаге планируют так, чтобы была максимальна (минимальна) сумма выигрышей на всех оставшихся до конца шагах, плюс данныйШТО?.

· Последний, N-ный шаг, планируют так, чтобы он сам принёс наибольший (наименьший) выигрыш.

Процесс ДП:

· Планируется последний, N-ный шаг, исходя из предположений о том, чем закончился предпоследний, (N-1)-ый шаг. Для каждого такого предположения находят условно оптимальное управление и соответствующий ему условный оптимальный выигрыш .

· Планируется предпоследний, (N-1)-ый шаг, исходя из предположений о том, чем закончился предпоследний, (N-2)-ой шаг. Для каждого такого предположения находят условно оптимальное управление , при котором выигрыш за последние 2 шага максимален.

· Далее оптимизируют управление , по не доходят до 1-го шага и управления .

· Оптимальная стратегия управления будет состоять из оптимальных шаговых управлений:

.

Отметим 2-ю специфическую особенность метода ДП: многошаговый процесс проходят дважды. Первый раз – от конца к началу, в результате чего находят условно оптимальное управление и условно оптимальные выигрыши. Второй раз – от начала к концу, в результате чего находят оптимальное управление u*, состоящее из оптимальных шаговых управлений.

Замечание. Принцип погружения.

Природа задачи ДП не зависит от количества шагов N, то есть форма ЗДП инвариантна относительно N.

Реализация принципов оптимальности и погружения гарантирует то, что решение на очередном шаге является наилучшим относительно всего процесса ДП.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: