Построение математической модели задачи принятия решения сводится к заданию функции выигрыша F. Формально функция выигрыша есть функция двух переменных х и у, но эти переменные входят в нее неравноправно, что является отражением неравноправия управляющей системы и среды. Дело в том, что управляющая система имеет цель, поэтому ее поведение носит целенаправленный характер; в то же время среда (которую можно рассматривать как обобщенный аналог природы), цели не имеет, и ее поведение носит недетерминированный характер. Если в этой недетерминированности имеются какие-то закономерности, они являются закономерностями стохастического типа. В общем случае это обстоятельство проявляется в том, что существует некоторая вероятностная мера, в соответствии с которой появляются те или иные состояния среды. В том простейшем случае, который мы рассматриваем, множество состояний среды Y является конечным, и в этом случае задание вероятностной меры на
множестве Y сводится к заданию вероятностного вектора
|
|
m
y 0 = (y 01 ,...,y 0 m),
где
y 0 j
≥ 0,
∑ y 0 j
j = 1
=1;
при этом
y 0 j
есть вероятность появления состояния j.
Вектор y 0
называется априорным распределением вероятностей на
множестве состояний природы.
Предположим, что управляющей подсистеме (игроку) известен
вероятностный вектор y 0, то есть для каждого возможного состояния среды известна вероятность его наступления. В этом случае говорят, что принятие решения происходит в условиях риска. Пусть функция выигрыша задана в виде матрицы A=(aij). При принятии решения в условиях риска игрок,
выбирая стратегию i, получает выигрыш aij с вероятностью
y 0 j
(j =1,…, m).
Таким образом, исходом, соответствующим выбору стратегии i, является случайная величина, распределение которой задано следующим рядом:
ξ i | ai 1 | … | ai j | … | ai m |
P | y 01 | y 0 j | y 0 m |
Взяв в качестве числовой оценки i -й стратегии математическое ожидание случайной величины ξ i, получаем следующий
КРИТЕРИЙ МАТЕМАТИЧЕСКОГО ОЖИДАНИЯ М. В задаче принятия решения в условиях риска в качестве оценки стратегии i выступает математическое ожидание соответствующей ей случайной величины ξ i. В явном виде.
M(i) =
m
∑
j = 1
|
ij
В соответствии с этим правилом оптимальная стратегия игрока i0
находится из условия
M(i) =
max
M (i)
или
m
|
max
m
∑ aij y 0 j.
1 ≤ i ≤ n
j = 1 0
1 ≤ i ≤ nj = 1
Как известно из теории вероятностей, математическое ожидание М(i) представляет собой величину, к которой будет приближаться средний выигрыш игрока при выборе им стратегии i с ростом числа испытаний, то есть при многократном повторении игры (в предположении, что условия игры сохраняются, т.е. вероятность наступления состояний среды остается одной и той же). Стратегия i0, определяемая из данного условия, называется
|
|
байесовской стратегией для априорного распределения
y, а подход к
решению игр с природой, основанный на критерии М - байесовским подходом.
Очевидно, в основе каждого из рассмотренных в этой и предыдущей главах критериев лежит некоторое, и достаточно сильное, упрощение ситуации. Выбор же критерия лежит за рамками теории игр. Теория принятия
решений дает рекомендации лишь для определенного критерия. Было бы неразумно принимать решение, не обосновав применение какого-то одного критерия. Потому в случае, когда нет весомых причин использовать
определенный критерий (нет гипотез о поведении среды) желательно (хотя бы и в учебных целях) подсчитать значения нескольких критериев и проинтерпретировать полученные результаты. Достаточно важной является
теория принятия решения в условиях риска с проведением эксперимента. Эксперимент, исходы которого стохастически связаны с состояниями природы, может положительно повлиять на правильность решения. Эта теория не рассматривается в данном пособии.
Пример 2.1. Режим проверок наличия вируса.
При работе ЭВМ необходимо периодически приостанавливать обработку информации и проверять ЭВМ на наличие в ней вирусов.
Приостановка в обработке информации приводит к определённым экономическим издержкам. Если же вирус не будет вовремя обнаружен, возможна потеря и некоторой части информации, что приведёт к ещё
большим убыткам.
Варианты решения таковы:
Е 1 – полная проверка; Е 2 – минимальная проверка; Е 3 – отказ от проверки.
ЭВМ может находиться в следующих состояниях:
F 1 – вирус отсутствует; F 2 – вирус есть, но он не успел повредить информацию; F 3 – есть файлы, нуждающиеся в восстановлении.
Затраты на поиск вируса и его ликвидацию, а также затраты, связанные с
восстановлением информации (A = (ai
j), i =1,..,3,
j =1,..,3) приведены в
первых трех столбцах таблицы 2.1. По этим значениям
aij
рассчитываются
значения критериев Вальда, Лапласа, Гурвица (максимальные значения критериев выделены полужирным шрифтом).
|
= − 20− 22 − 25 ≈ −22.33.
3 j =1 1 j 3
V (1) =
min
1≤ j ≤3
a 1 j
= min{−20,−22,−25} = −25.
α = 0.2 ⇒
G (1) =α
min
a 1 + (1−α)
max
a 1 j =
1≤ j ≤ 3 j
1≤ j ≤ 3
= 0.2 ⋅ (−25)+ 0.8⋅ (−20)= −21.
α = 0.8 ⇒
G (1) =α
min
a 1 + (1−α)
max
a 1 j =
1≤ j ≤ 3 j
1≤ j ≤ 3
= 0.8⋅ (−25)+ 0.2 ⋅ (−20)= −24.
Аналогичным образом рассчитываются значения критериев при i =2 или 3.
Таблица 2.1
Стратегия | F 1 | F 2 | F 3 | Критерий Вальда | Критерий Лапласа | Критерий Гурвица | ||||||||||
α =0.2 | α =0.8 | |||||||||||||||
E 1 | -20 | -22 | -25 | -25 | -22.33 | -21 | -24 | |||||||||
E 2 | -14 | -23 | -31 | -31 | -22.66 | -17.4 | -27.6 | |||||||||
E 3 | -24 | -40 | -40 | -21.33 | -8 | -32 | ||||||||||
Согласно критерию Вальда следует проводить полную проверку. Критерий Лапласа, в предположении, что все состояния машины равновероятны, рекомендует отказаться от проверки. Рекомендации по
критерию Гурвица зависят от значения параметраα.Таким образом,
необходимо подумать о том, какая из гипотез о поведении среды более
обоснована.
Пример 2.2. Выбор проекта отеля.
Предприниматель намерен взять в аренду отель сроком на 1 год.
Имеются отели четырех типов: на 20, 30, 40 или 50 комнат. По условию аренды предприниматель должен оплатить все расходы, связанные с содержанием отеля. Эти расходы (в немецких марках) состоят из трех частей.
1) Расходы, не зависящие от выбора проекта отеля:
а) благоустройство территории - 10 тыс. ДМ;
б) затраты на текущий ремонт и содержание - 1.5 тыс. ДМ;
|
|
в) один ночной дежурный - 6 тыс. ДМ;
г) один служащий для уборки территории - 8 тыс. ДМ.
Всего –25.5 тыс. ДМ.
2) Расходы, пропорциональные числу комнат отеля:
а) меблировка одной комнаты - 4 тыс. ДМ;
б) 1 горничная на 10 комнат - 6 тыс. ДМ;
в) содержание одной комнаты - 150 ДМ;
г) страхование на случай пожара для одной комнаты - 25 ДМ.
Всего на комнату – 4,775 тыс. ДМ.
3) Расходы, пропорциональные среднему числу занятых комнат:
а) стирка, уборка - 5 ДМ в день;
б) электричество, газ, вода - 5 ДМ в день.
Всего на занятую комнату – 10 ДМ в день.
Доход предпринимателя составляет 60 ДМ в день с каждой занятой комнаты.
Выбор какого проекта отеля следует считать оптимальным?
Решение. Прибыль (точнее, средняя прибыль) предпринимателя определяется здесь двумя параметрами: х - общее число комнат отеля и у -
среднее число заявок на комнату в год (т.е. среднегодовой спрос). При этом мы предполагаем, что х принимает значения 20, 30, 40, 50, а у - любое целое
значение, не превосходящее 50. Общий расход за год составляет (4775 х
+3650 у +25500) ДМ, а доход 21900 у ДМ. Прибыль за год F (x,y) = =18250 y’ -
4775 х -25500 (ДМ). Здесь y' = min { y,x }. Данная задача является задачей принятия решения в условиях неопределенности, в которой стратегии
предпринимателя (игрока) x ∈{20,30,40,50}, а состояния среды y ∈{0,1,…,50}.
Функция выигрыша, указывающая выигрыш (прибыль) предпринимателя в
любой ситуации, есть F (x, y). Составим таблицу функции выигрыша, взяв для упрощения записи отдельные значения переменной y: 10, 15, 20, 25, 30, 40,
50; получаем таблицу 2.2. Таким образом, в таблице 2.2 записана матрица
A = (ai
j), i =1,..,4,
j =1,..,7
Оценки стратегий по критериям Лапласа,
Вальда, Гурвица (при α=0.2; 0.5; 0.9) приведены в таблице 2.3 (выделены
полужирным шрифтом клетки, соответствующие наилучшему исходу по
каждому из критериев).
Таблица 2.2
х \ у | |||||||
-34000 | |||||||
-81750 |
Таблица 2.3
x | Критерий Лапласа | Критерий Вальда | Критерий Гурвица | ||
α =0.2 | α =0.5 | α =0.9 | |||
-34000 | |||||
-81750 | -8750 |
Из таблицы 2.3 видно, что разные критерии приводят к разным оптимальным решениям; решение об окончательном выборе проекта отеля может быть принято только при наличии новых содержательных
|
|
соображений (например, выбор показателя пессимизма α для критерия
Гурвица).
Далее, данная задача принятия решения в условиях неопределенности станет задачей принятия решения в условиях риска, если предприниматель будет обладать дополнительной информацией - знанием вероятностей
наступления тех или иных состояний среды. В нашем случае оценки этих вероятностей могут быть определены статистическим методом, если имеется статистика спроса на проживание в отелях такого типа в сходных условиях.
Пример 2.3.
Предприниматель имеет возможность вложить свои деньги либо в государственные ценные бумаги(1-я стратегия), либо в акции
высокодоходного предприятия (2-я стратегия). Для упрощения задачи мы полагаем, что деньги нельзя «класть в разные корзины». Природа (экономика) может находиться в трех состояниях: кризис, стабильное
положение, подъем. Матрица выигрыша предпринимателя
A = (ai
j), i =1,2,
j =1,..,3
представлена в табл. 2.4.
Таблица 2.4
Объект вложения | Состояние природы | ||
Кризис | Стабильность | Подъем | |
Гос. ценные бумаги | |||
Акции | -5 |
Числа в таблице – некоторые денежные единицы. Мы исходим из естественного предположения, что государственные бумаги в благоприятной для экономики ситуации менее доходны, чем акции. Очевидно, по критерию Вальда решением задачи будет покупка государственных бумаг, по
критерию Лапласа – акций. Определим, как влияет здесь параметр αна
выбор решения по критерию Гурвица. Для этого необходимо составить
уравнение
0 ⋅α+ 5 ⋅ (1 −α)= −5 ⋅α+13 ⋅ (1 −α).
Решением будет
α= 8
13
. При α<
8 критерий Гурвица рекомендует
акции, в других случаях – государственные бумаги. Естественно, числа в таблице выбраны в значительной мере произвольно. Выигрыши предпринимателя в каждой ситуации могут отличаться от тех, что приведены в таблице. Важен порядок, в котором идут элементы каждой строки этой таблицы (максимум - в 3-м столбце, минимум – в 1-м). Тогда общее
уравнение для поиска α, граничного в смысле выбора решения, будет таким:
a 11 ⋅α+ a 13 ⋅(1−α)= a 21 ⋅α+ a 23 ⋅(1− α).