Пример 4. Найти оптимальные стратегии игры «Поиск» размера 2×2 (см

Найти оптимальные стратегии игры «Поиск» размера 2×2 (см. пример1).

Решение.

Игра "Поиск" задана платежной матрицей:

.

Нижняя и верхняя цены игры соответственно равны α=-1 и β=1 (см. пример 2), т.е. игра не имеет седловой точки. Поэтому оптимальные стратегии игры будем искать в смешанных стратегиях.

Для игрока А средний выигрыш равен цене игры v (при B1 и B2); для игрока В средний проигрыш равен цене игры v (при A1 и А 2).

Системы уравнений в данном случае имеют вид:

Решая эти системы, получим р*1*2=q*1=q*2=, v=0.

Это означает, что оптимальная стратегия каждого игрока состоит в том, чтобы чередовать свои чистые стратегии случайным образом, выбирая каждое из убежищ с вероятностью , при этом средний выигрыш равен 0.

1.9 Геометрическая интерпретация игры 2×2

Решение игры 2×2 допускает наглядную геометрическую интерпретацию.

Пусть игра задана платежной матрицей Н=[hij], где i,j = 1,2.

По оси абсцисс (рисунок 4) отложим единичный отрезок A1A2. Точка A1(х=0) изображает стратегию A1, а все промежуточные точки этого отрезка - смешанные стратегии SA первого игрока, причем расстояние от SA до правого конца отрезка - это вероятность p1 стратегии A1, расстояние до левого конца - вероятность p2 стратегии A2.

На перпендикулярных осях I—I и II—II откладываем выигрыши при стратегиях A1 и A2 соответственно. Если 2-й игрок примет стратегию B1, то она дает выигрыши h11 и h21 на осях I—I и II—II, соответствующие стратегиям A1 и A2. Обозначим эти точки на осях I—I и II—II буквой B1. Средний выигрыш v 1, соответствующий смешанной стратегии SA, определяется по формуле математического ожидания v 1 = h11 p1 + h21 p2 и равен ординате точки M1, которая лежит на отрезке B1 B1 и имеет абсциссу SA (рисунок 4).

Рисунок 4 Рисунок 5

Аналогично строим отрезок B2B2, соответствующий применению вторым игроком стратегии B2 (рисунок 5).

При этом средний выигрыш ν2 =h12 p1 + h22 p2 - ордината точки M2.

В соответствии с принципом минимакса оптимальная стратегия S*A такова, что минимальный выигрыш игрока А (при наихудшем поведении игрока В) обращается в максимум. Ординаты точек, лежащих на ломаной (рисунок 6), показывают минимальный выигрыш игрока А при использовании им любой смешанной стратегии (на участке B1N - против стратегии B1 , на участке NB2 - против стратегии B2).

Оптимальную стратегию S*A = (p*1 p*2) определяет точка N, в которой минимальный выигрыш достигает максимума; ее ордината равна цене игры v. На рисунке 6 обозначены также верхняя и нижняя цены игры α и β.

Пусть Н=

Определим оптимальную стратегию игрока А геометрическим методом

Откладываем по оси абсцисс (рисунок 7) единичный отрезок A1A2.

На вертикальной оси I-I откладываем отрезки: h11, соответствующий стратегии B1, и h12, соответствующий стратегии B2.

На вертикальной оси II—II отрезок h21 соответствует стратегии B1 , отрезок h22 соответствует стратегии B2 (рисунок 7).

Нижняя цена игры α=h22 наибольшему из наименьших.

Верхняя цена игры β =h12 ( наименьшему из наибольших ), в нашем случае на графике показано, что седловая точка отсутствует. Из рисунка 7 видно, что

· абсцисса точки N определяет оптимальную стратегию S*A,

· ордината — цену игры v.

Точка N является точкой пересечения прямых B1B1 и B2B2.

Рисунок 6 Рисунок 7

Уравнение прямой B1B1, проходящей через точки (0; h11) и (1; h21):

или y = х(h21-h11)+h11.

Уравнение прямой B2B2, проходящей через точки (0; h12) и (1; h22):

или y = х(h22-h12)+h12.

Точка пересечения прямых является решением системы:

Решив систему, можно найти x и y, т.е. координаты точки N(х; у)

Тогда p*2= х, p*1= 1 - х;

оптимальная стратегия S*A = (1-х; х),

цена игры v = у

Определение оптимальной стратегии игрока В.

Оптимальную стратегию игрока В геометрически можно определить, если поменять местами игроков А и В и вместо максимума нижней границы A2MA1 в соответствии с принципом минимакса рассмотреть минимум верхней границы.

Абсцисса точки М определяет q*2 в оптимальной стратегии игрока В, ордината этой точки — цена игры.

Прямая A1A1, проходящая через точки (0; h11) и (1; h12), удовлетворяет уравнению y = х(h12-h11)+h11.

Прямая A2A2, проходящая через точки (0; h21) и (1; h22), удовлетворяет уравнению у = х(h22-h21)+h21.

Координаты их точки пересечения М - это решение системы уравнений:

.

Откуда найдем x и y М(х; у)

q*2= х, q*1= 1 - х

v = y S*B = (1-х; х)

Оптимальное решение игры найдено.

Из решения задачи следует, что геометрически можно определять оптимальную стратегию как игрока А, так и игрока В, в обоих случаях используется принцип минимакса, но во втором случае строится не нижняя, а верхняя граница выигрыша и на ней определяется не максимум, а минимум.

Если платежная матрица содержит отрицательные числа, то для графического решения задачи лучше перейти к новой матрице с неотрицательными элементами; для этого к элементам исходной матрицы достаточно добавить соответствующее положительное число. Решение игры при этом не изменится, а цена игры увеличится на это число.

В примере 4 платежная матрица не имела седловой точки (α ≠β).

При наличии седловой точки графическое решение дают варианты, изображенные на рисунке 8 и 9. На рисунке 8 наибольшей ординатой на ломаной B1NB2 обладает точка B2, поэтому оптимальной является чистая стратегия A2 для игрока А (B2 - для игрока В), т.е. оптимальное решение:

S*A = (0;1), S*B = (0;1).

Игра имеет седловую точку h22 = v.

Рисунок 8 Рисунок 9

Чистая стратегия B2 (рисунок 9) не выгодна для игрока В, поскольку при любой стратегии игрока А она дает последнему больший выигрыш, чем чистая стратегия B1.

На основании принципа минимакса выделим прямую B1B1 и на ней точку B1 с наибольшей ординатой на оси I-I. Чистая стратегия A2 является оптимальной для игрока А, а чистая стратегия B1 - для игрока В.

Оптимальное решение: S*A = (0;1), S*B = (1;0),

цена игры v = h21 = α = β, т.е. имеется седловая точка.

Замечание:

графический метод можно применять при решении игры 2 × n и m × 2.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: