Принятие решения В условиях неопределенности

Системное описание задачи принятия решения в условиях неопределенности состоит в следующем. Имеется некоторая система, в которой выделена управляющая подсистема, и вся система погружена в некоторую среду. Управляющая подсистема может воздействовать на систему с помощью альтернативных управляющих воздействий, приводящих


к изменению состояния этой системы. Выбор управляющего воздействия происходит в соответствии с целями управляющей подсистемы. Принятие решения, то есть выбор одной из имеющихся альтернатив, - является центральным моментом управления.

Состояние системы определяется двумя факторами: выбранным управляющим воздействием со стороны управляющей подсистемы и

состоянием среды.

Математическая модель задачи принятия решения (далее – ЗПР) в условиях неопределенности представляет собой формализацию указанной

конструкции. Пусть Х – множество управляющих воздействий (альтернатив) управляющей подсистемы. Y – множество состояний среды. В соответствии со сказанным выше, состояние системы однозначно определяется парой (x, y),

где xX и yY. Управляющая подсистема оценивает каждое состояние

системы некоторым числом, выражающим "полезность" этого состояния для

управляющей подсистемы; таким образом, возникает функция F: X×Y→R.

Значение функции F (x,y) есть оценка полезности (с точки зрения управляющей подсистемы) того состояния системы, которое возникает, если

управляющая подсистема выбирает управляющее воздействие х, а среда принимает состояние у. Принципиальным является то обстоятельство, что при принятии решения управляющая система "не знает", в каком состоянии

находится среда, то есть она не имеет информации о наличном состоянии среды. Именно это обстоятельство имеют в виду, когда говорят, что принятие решения происходит в условиях неопределенности. Отметим, что

эта неопределенность не является абсолютной, так как принимающему решение известно множество состояний среды (то есть множество Y) и известна функция F (x, y).

В теории игр описанную выше ЗПР называют игрой с природой, причем управляющую подсистему принято называть игроком, выбираемые им альтернативные воздействия – стратегиями, а функцию F (x, y) – функцией

выигрыша игрока. Таким образом, в теоретико-игровой терминологии задача принятия решения в условиях неопределенности формулируется следующим образом. Пусть Х – множество стратегий игрока, Y – множество состояний среды (природы), F (x,y) – функция выигрыша игрока. Требуется указать

наилучшую в некотором смысле альтернативу, или, как говорят в теории игр, найти оптимальную стратегию. Подчеркнем еще раз, что основная сложность данной задачи, носящая принципиальный характер, связана с

отсутствием у игрока информации о состоянии среды (если бы игрок такую информацию имел, то его функция выигрыша стала бы функцией одной переменной х и задача нахождения оптимальной стратегии превратилась бы в

задачу нахождения наибольшего значения этой функции).

В случае, когда и Х, и Y конечны, функцию выигрыша F (x, y) удобно


задавать в виде матрицы


A = (aij), i =1, n,


j =1, m, считая Х ={1,…, n },


Y ={1,…, m }; при этом aij есть значение функции выигрыша F в ситуации,

когда игрок выбирает стратегию i, а среда принимает состояние j.


Замечание. Так как в математической модели "природа" стратегий игрока и состояний среды несущественна, удобно различать их по номерам, полагая Х ={1,…, n }, Y ={1,…, m }.

Изложим основные принципы, по которым из конечного множества стратегий выбираются оптимальные. Далее в 1-й и 2-й главах мы будем

рассматривать только конечные множества.

Надо иметь некоторый способ сравнения двух стратегий. Самый простой и естественный принцип, по которому можно их сравнить - это принцип доминирования, состоящий в следующем: стратегия i 1 называется

доминирующей стратегию i 2 (записывается i 1≥ i 2), если при любом состоянии

среды выигрыш игрока при выборе им стратегии i 1 будет не меньше, чем


выигрыш при выборе стратегии i 2 (то есть


aa

i
j
i
1 2 j


при всех j =1,…, m).


Очевидно, что если i 1≥ i 2, то независимо от состояния среды стратегия i 1

является лучшей для игрока, чем стратегия i 2, поэтому стратегию i 2 можно

исключить из дальнейшего рассмотрения. Итак, принцип доминирования

состоит в том, что исключаются доминируемые стратегии.

Для того, чтобы выбрать из оставшихся стратегий оптимальную,

нужны какие-то дополнительные соображения.

Основной метод, позволяющий найти оптимальную стратегию в ЗПР в условиях неопределенности, состоит в следующем:

формулируется некоторая гипотеза о поведении среды, позволяющая дать единственную численную оценку каждой стратегии. Оптимальной считается та стратегия, для которой численная оценка является максимальной.

Заметим, что задание оценки каждой стратегии позволяет сравнить любые две стратегии: из двух стратегий лучшей считается та, которая имеет

большую оценку (стратегии, имеющие одинаковую численную оценку, считаются эквивалентными). Таким образом, задание оценок стратегий устанавливает критерий для сравнения стратегий. Рассмотрим теперь важнейшие критерии, используемые для задач принятия решений в условиях

неопределенности.

КРИТЕРИЙ ЛАПЛАСА L основан на гипотезе равновероятности и содержательно может быть сформулирован следующим образом: «поскольку

мы ничего не знаем о состояниях среды, их надо считать равновероятными». Иногда этот принцип называется также принципом недостаточного основания. При принятии данной гипотезы в качестве оценки стратегии i

надо брать соответствующий ей средний выигрыш, то есть


L (i) = 1

m


m

ai j.

j =1


Оптимальная по данному критерию стратегия L 0 находится из условия


i
L (0) =


max

1≤ in


L (i).


КРИТЕРИЙ ВАЛЬДА V основан на гипотезе крайней осторожности (крайнего пессимизма), которая формулируется так: "При выборе той или иной стратегии надо рассчитывать на худший из возможных вариантов". Если принять эту гипотезу, то оценкой стратегии i является число


V (i) =


min

1≤ jm


aij. Оптимальная по данному критерию стратегия i 0 находится


из условия V (i 0) =


max V (i), то есть


min


aij =


max


min


aij.


1≤ in


1≤ jm


1≤ in 1≤ jm


Принцип оптимальности, основанный на критерии Вальда, называется

принципом максимина.

Замечание. Если значения функции выигрыша имеют характер потерь

(то есть, фактически они являются не выигрышами, а проигрышами), то


оценкой стратегии i является


max


aij, а оптимальной будет та стратегия


1 ≤ jm

i 0, при которой указанный максимум достигает наименьшего значения, то


есть


max


ai j =


min


max


aij. Такая стратегия i 0 называется


1≤ jm 0


1≤ in 1≤ jm


минимаксной, а соответствующий принцип оптимальности называется

принципом минимакса.

КРИТЕРИЙ ГУРВИЦА G связан с введением числа 0≤ α≤1,

называемого "показателем пессимизма-оптимизма". Гипотеза о поведении

среды состоит в том, что наихудший вариант реализуется с вероятностью α,

а наилучший - с вероятностью 1-α. Тогда оценкой стратегии i является число


G (i) =α


min


aij


+ (1 −α)


max


aij, а оптимальная стратегия i 0


1 ≤ jm


1 ≤ jm


находится из условия


G (i) =


max

1 ≤ in


G (i). Ясно, что при α=1 данный


критерий превращается в критерий крайнего пессимизма (то есть в критерий

Вальда), а при α=0 - в критерий крайнего оптимизма. Содержательная

трудность при использовании критерия Гурвица - назначение показателя

пессимизма α.

Известны и другие критерии. Критерий Сэвиджа определяется так:


S (i) =


max

1≤ jm


(max

1 ≤ kn


akjaij).


В отличие от предыдущих критериев, оптимальная стратегия – та, что минимизирует значение S (i). Этот критерий - мера сожаления о незнании истинного состояния среды. Критерий Ходжа-Лемана –линейная комбинация критериев Вальда и математического ожидания. Более сложным образом рассчитываются критерии Гермейера и произведения.

Замечание. В общем случае оптимальные решения, полученные по указанным критериям, могут не совпадать (как говорят, критерии

противоречат друг другу). Это неудивительно, ибо эти критерии основаны на разных гипотезах. Вводя ту или иную гипотезу, мы тем самым "снимаем неопределенность", однако, гипотеза является только предположением, а не


знанием. Было бы странно, если бы различные предположения приводили всегда к одному и тому же результату.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: