Оптимизация процесса контроля (наблюдения)

Ранее была построена равновесная стратегия на классе стратегий, при использовании которых предполагается постоянное наблюдение и контроль над действиями партнеров (или подчиненных). Оказывается, что такое постоянное наблюдение не обязательно.

Поставим перед собой задачу определить такие моменты времени контроля (наблюдения) t_k, k=1,2,…, что контролируемому игроку не удастся избежать наказания за отклонение, что сделает это отклонение нецелесообразным. При этом будем предполагать, что в момент времени t₁ будет известно о нарушении обязательств на интервале [0, t₁). Далее аналогичную информацию о поведении наблюдаемого игрока на [t_1, t₂) необходимо знать в момент времени t₂ и т. д.

Итак, пусть выигрыш в равновесной ситуации игроков определяется величиной

() = > , где – минимаксный выигрыш игрока i и

Как и ранее обозначим:

Тогда момент первого наблюдения за игроком i мы получим из условия: ∙ + (1 ) ,

здесь максимальный выигрыш игрока i при условии того, что его партнёр придерживается договорённости.

Смысл последнего равенства заключается в том, что, отклонившись от намеченного решения до момента t_1, игрок i будет наказан после этого момента до окончания игры. Тогда левая часть равенства определяет его максимально возможный выигрыш.

Из этого равенства получаем:

Аналогично для следующего момента времени наблюдения имеем:

Отсюда:

Обозначим:

Очевидно, что

Так как , то 0 , 0

Итак, = =1

= ∙ +

Окончательно, для произвольного момента получаем:

Так как , то при

Таким образом, точки наблюдения расположены на отрезке неравномерно и сгущаются к концу этого отрезка, поэтому, задаваясь некоторой точностью, можно провести конечное число проверок.

Более того, если игроки имеют возможность выплачивать в конце «планового периода» побочный платёж (премии), то в этом случае также можно ограничиться конечным числом проверок.

Полученным результатам можно дать и другую содержательную интерпретацию. Игроки могут создать некоторый организационно-информационный центр наблюдения, основная задача которого заключается в контроле над действиями игроков и своевременном сообщении о «нарушителе». В частности, игроки могут образовать запас побочных платежей, который потом возвращается им (за исключением расходов по содержанию центра) в случае, если они придерживаются выбранного решения. При этом возникает задача минимизации расходов центра на проведение наблюдений.

В одном из вариантов возможных постановок такая задача выглядит следующим образом. Пусть наблюдение можно проводить как непрерывным, так и дискретным образом. Будем считать, что каждое дискретное наблюдение и начало непрерывного обходится центру в d_i временных единиц (i – номер контролируемого игрока), а непрерывное наблюдение оценивается величиной отрезка наблюдения. Требуется так организовать наблюдение, чтобы расходы времени (и связанные с ними финансовые расходы) были минимальными.

Раньше момента времени наблюдение за игроком i проводить не нужно. Очевидно также, что непрерывное наблюдение требуется проводить только после последнего момента «включения» наблюдения. Следовательно, в данной модели расходы на наблюдение за игроком i можно определить следующим образом:

где - число «включений» наблюдений, после которых остаётся отрезок длины для непрерывного наблюдения;

- стоимость «включения» наблюдения;

- стоимость непрерывной проверки.

Таким образом, расходы на наблюдение определяются числом дискретных проверок и последующего непрерывного наблюдения.

Оптимальное значение при должно удовлетворять системе неравенств:

, тогда

Отсюда получаем соотношение для определения целого положительного числа B_i:

Действительно, из неравенства последовательно получим:

Пусть ,

то есть ,

тогда по правилам логарифмирования имеем:

то есть

Аналогично доказывается оценка сверху.

В случае (включение очень дорогое) имеем 1, т.е. необходимо один раз провести фиксированное наблюдение, после которого следует непрерывно наблюдать за игроком i.