Устойчивые и неустойчивые стратегии. Игры с седловой точкой. Чистые стратегии

Продолжим рассмотрение примера 2. Повторим ее платежную матрицу:

Bj Ai B 1 B 2 B 3 минимум в строках αi  
A 1   –3   –3 максимин
A 2 –3   –5 –5  
A 3   –5   –5  
максимум в столбцах βj          
  минимакс      

Если мы заранее не знаем, какую стратегию выберет противник В, то для минимизации нашего проигрыша нам следует выбирать стратегию A 1 (чтобы проиграть не больше 3). Однако если мы каким-то образом заранее, до нашего хода, получим информацию о том, что противник будет придерживаться какой-то конкретной стратегии, мы можем увеличить свой выигрыш. Например, если мы узнаем, что противник будет придерживаться стратегии B 1, нам целесообразно выбрать стратегию A 3, и тогда мы будем выигрывать 4. Но на это противник, заметив, что мы все время выбираем стратегию A 3, выберет стратегию B 2 и будет выигрывать 5. Мы, в свою очередь, заметив, что противник стал выбирать стратегию B 2, ответим стратегией A 2 и будем выигрывать 4. В ответ на это противник будет выбирать стратегию B 1 и т.д.

Таким образом, в данном примере минимаксные стратегии неустойчивы по отношению к информации о поведении другой стороны. Это означает, что если у нас есть сведения о стратегии, которую будет применять противная сторона, наша оптимальная стратегия будет изменяться.

Однако такая неустойчивость наблюдается не всегда. Рассмотрим пример 3. Пусть в нашем распоряжении имеется три вида противовоздушного вооружения A 1, A 2, A 3, а у противника – три вида самолетов B 1, B 2, B 3. Наша задача – поразить самолет; задача противника – сохранить его непораженным. Наш личный ход – выбор вооружения; личный ход противника – выбор самолета для боевых действий. При этом есть элемент случайности – вооружение поражает самолеты с определенной вероятностью. Запишем эти вероятности в платежную матрицу игры (на пересечении строки Ai и столбца Bj стоит вероятность поражения вооружением Ai самолета Bj) и найдем нижнюю и верхнюю цены игры:

Bj Ai B 1 B 2 B 3 минимум в строках αi  
A 1 0.5 0.6 0.8 0.5  
A 2 0.9 0.7 0.8 0.7 максимин
A 3 0.7 0.5 0.6 0.5  
максимум в столбцах βj 0.9 0.7 0.8    
    минимакс      

В данном случае нижняя цена игры равна верхней цене:

α = β = 0.7.

Отсюда следует, что минимаксные стратегии A2 и B2 будут устойчивыми: если один из игроков придерживается своей минимаксной (максиминной) стратегии, то другой игрок никак не может улучшить свое положение, отступая от своей. Даже если мы заранее будем знать, что противник всегда выбирает стратегию B2, любое наше отступление от стратегии A2 может только ухудшить наше положение.

Пара стратегий A2, B2 обладает свойством равновесия, а выигрыш (в нашем случае 0.7), достигаемый при этой паре, называется седловой точкой матрицы. (Термин «седловая точка» взят из геометрии – так называется точка на поверхности, где одновременно достигается минимум по одной координате и максимум по другой.) Признак наличия седловой точки и уравновешенной пары стратегий – равенство нижней и верхней цены игры. Общее значение α и β называется чистой ценой игры ν:

α = β = ν.

А стратегии, при которых этот выигрыш достигается, называются оптимальными чистыми стратегиями, а их совокупность – решением игры.

Таким образом, можно сформулировать правило: если игра имеет седловую точку, то игрокам выгоднее всего придерживаться оптимальных чистых стратегий. Любое отклонение от них невыгодно игрокам.

Замечание: в платежной матрице может быть не одна седловая точка, а несколько. Например, в матрице

Bj Ai B 1 B 2 B 3 B 4 B 5 минимум в строках αi
A 1            
A 2            
A 3            
A 4            
максимум в столбцах βj            

имеется шесть седловых точек с чистой ценой игры α = β = ν = 1. Если в матрице несколько седловых точек, то все они дают одно и то же значение выигрыша.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: