Оптимизация процесса контроля (наблюдения)

Ранее была построена равновесная стратегия на классе стратегий, при использовании которых предполагается постоянное наблюдение и контроль над действиями партнеров (или подчиненных). Оказывается, что такое постоянное наблюдение не обязательно.

Поставим перед собой задачу определить такие моменты времени контроля (наблюдения) tk, k=1,2,…, что контролируемому игроку не удастся избежать наказания за отклонение, что сделает это отклонение нецелесообразным. При этом будем предполагать, что в момент времени t1 будет известно о нарушении обязательств на интервале [0, t1). Далее аналогичную информацию о поведении наблюдаемого игрока на [t1, t2) необходимо знать в момент времени t2 и т. д.

Итак, пусть выигрыш в равновесной ситуации игроков определяется величиной

() = > , где – минимаксный выигрыш игрока i и

Как и ранее обозначим:

Тогда момент первого наблюдения за игроком i мы получим из условия: ∙ + (1 ) ,

здесь максимальный выигрыш игрока i при условии того, что его партнёр придерживается договорённости.

Смысл последнего равенства заключается в том, что, отклонившись от намеченного решения до момента t1, игрок i будет наказан после этого момента до окончания игры. Тогда левая часть равенства определяет его максимально возможный выигрыш.

Из этого равенства получаем:

Аналогично для следующего момента времени наблюдения имеем:

Отсюда:

Обозначим:

Очевидно, что

Так как , то 0 , 0

Итак, = =1

= +

Окончательно, для произвольного момента получаем:

Так как , то при

Таким образом, точки наблюдения расположены на отрезке неравномерно и сгущаются к концу этого отрезка, поэтому, задаваясь некоторой точностью, можно провести конечное число проверок.

Более того, если игроки имеют возможность выплачивать в конце «планового периода» побочный платёж (премии), то в этом случае также можно ограничиться конечным числом проверок.

Полученным результатам можно дать и другую содержательную интерпретацию. Игроки могут создать некоторый организационно-информационный центр наблюдения, основная задача которого заключается в контроле над действиями игроков и своевременном сообщении о «нарушителе». В частности, игроки могут образовать запас побочных платежей, который потом возвращается им (за исключением расходов по содержанию центра) в случае, если они придерживаются выбранного решения. При этом возникает задача минимизации расходов центра на проведение наблюдений.

В одном из вариантов возможных постановок такая задача выглядит следующим образом. Пусть наблюдение можно проводить как непрерывным, так и дискретным образом. Будем считать, что каждое дискретное наблюдение и начало непрерывного обходится центру в di временных единиц (i – номер контролируемого игрока), а непрерывное наблюдение оценивается величиной отрезка наблюдения. Требуется так организовать наблюдение, чтобы расходы времени (и связанные с ними финансовые расходы) были минимальными.

Раньше момента времени наблюдение за игроком i проводить не нужно. Очевидно также, что непрерывное наблюдение требуется проводить только после последнего момента «включения» наблюдения. Следовательно, в данной модели расходы на наблюдение за игроком i можно определить следующим образом:

где - число «включений» наблюдений, после которых остаётся отрезок длины для непрерывного наблюдения;

- стоимость «включения» наблюдения;

- стоимость непрерывной проверки.

Таким образом, расходы на наблюдение определяются числом дискретных проверок и последующего непрерывного наблюдения.

Оптимальное значение при должно удовлетворять системе неравенств:

, тогда

и

Отсюда получаем соотношение для определения целого положительного числа Bi:

Действительно, из неравенства последовательно получим:

,

.

Пусть ,

то есть ,

тогда по правилам логарифмирования имеем:

,

то есть

Аналогично доказывается оценка сверху.

В случае (включение очень дорогое) имеем 1, т.е. необходимо один раз провести фиксированное наблюдение, после которого следует непрерывно наблюдать за игроком i.

Заметим, что суммарные затраты центра по наблюдению за всеми игроками можно определить, например, следующим образом:

Если игроку обещана премия за выполнение обязательств, то последняя проверка проводится при t=1, а предпоследняя определяется из равенства:

Отсюда получаем

, при .

При нарушать и соответственно наблюдать нет смысла.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: