Механизмы стимулирования в одноэлементной системе

Рассмотрим целевую функцию центра. Она представляет собой при использовании компенсаторной системы стимулирования с доход центра минус стимулирование агента: . Если вознаграждение агента равно затратам, то выигрыш центра в зависимости от того, какое действие он побуждает выбирать агента, представляет собой разность между доходом центра и затратами. Следовательно, нужно выбрать x ^*, который будет доставлять максимум по разности .

Таким образом, сначала имелась сложная система стимулирования – ее упростили до системы с двумя параметрами. Первый параметр рассчитали. Осталось найти второй параметр – план x^*. Он должен быть такой, чтобы максимизировать разность между доходом центра и системой стимулирования, равной в точности затратам агента. В результате оптимальным решением задачи стимулирования будет компенсаторная система стимулирования такого вида, в которой размер вознаграждения равен затратам агента, а оптимальный план равен плану, максимизирующему разность между доходом центра и затратами агента. Окончательно оптимальное решение будет выглядеть следующим образом:

Рассмотрим данное решение задачи поиска оптимального плана x^*. Это выражение означает, что разность между доходом центра и затратами агента – «толщина» области компромисса (см. рис. 4.3) – максимальна. При дифференцировании в точке x^* угол наклона касательной к функции дохода центра будет равен углу наклона касательной к функции затрат агента. В экономике это интерпретируется как точка оптимума, в которой предельная производительность равна предельным затратам.

Значит, точка x ^* является оптимальной с точки зрения центра и реализуется исход, определяемый точкой В на рис. 4.3. Возможна другая ситуация. Рассмотрим модель, в которой первое предложение делает агент. Он предлагает центру: «я буду делать столько-то, а ты мне будешь платить столько-то». Если центр это устраивает, он соглашается.

Вопрос: что должен предложить агент? Агент должен предложить центру то же самое действие x^*, а плату запросить соответствующую точке А на рис. 4.3. В этой ситуации всю «прибыль» [ H (x^*) –c (x^*)] будет забирать агент.

Другими словами, в данной игре выигрывает тот, кто делает ход первым. Если начальник, то он «сажает на ноль» подчиненного, если подчиненный, то он «сажает на ноль» начальника. В рамках формальной модели и тот, и другой на это согласятся.

Рассмотрим следующую ситуацию. Пусть заданы целевые функции центра и агента, в которых фигурируют доход центра и затраты агента. Переменная – функция стимулирования – является внутренней характеристикой системы, отражающей взаимодействие между центром и агентом: сколько центр отдал, столько агент и получил. Если просуммировать целевые функции центра и агента, то сократятся значения функции стимулирования, и останется разность доходов и затрат. Значит действие x^*, которое является решением задачи стимулирования, максимизирует сумму целевых функций, то есть, действие агента, которое реализует центр, оптимально по Парето.

Можно ставить задачи определения конкретной точки внутри отрезка АБ на рис. 4.3. Мы рассмотрели две крайности:

1) всю прибыль себе забирает центр;

2) всю прибыль забирает агент.

Возможно определение компромисса между ними, то есть центр и агент могут договориться делить эту прибыль, например, пополам. Тогда агент, кроме компенсации затрат, получает половину этой прибыли. Или другой принцип: фиксированный норматив рентабельности, то есть пусть стимулирование агента составляет не только затраты, а затраты, умноженные на единицу плюс норматив рентабельности. Аналогично анализируется большое количество модификаций задачи стимулирования.

Решение задачи найдено – компенсаторная система стимулирования с планом x^*. Единственно ли оно? Рассуждение очень простое: пусть есть функция затрат агента, и есть план x ^*. Оптимальная система стимулирования – квазикомпенсаторная – побуждает агента выбирать x ^*, и центр несет затраты на стимулирование в точности равные затратам агента.

Возьмем другие системы стимулирования, которые побуждают агента выбирать то же действие, а центр платить столько же. Для того чтобы такая система стимулирования существовала необходимо, чтобы функция стимулирования проходила через точку (x ^*, c (x ^*)).

Утверждение 4.2. Для того чтобы агент выбирал действие x^*, достаточно, чтобы функция стимулирования проходила через точку (x^*, c (x^*)), а во всех остальных точках была не больше, чем затраты агента.

Если взять любую систему стимулирования из изображенных на рис. 4.11, то она тоже будет побуждать агента выбирать это действие, и центр будет платить столько же.

Можно взять скачкообразную систему стимулирования – при действиях, меньших плана, вознаграждение равно нулю, выполнил план – получил вознаграждение не меньшее затрат (аккордная оплата). Можно выбрать монотонную систему стимулирования, которая проходит через точку (x^*, c (x^*)), и всюду лежит ниже затрат. То есть любая кривая, проходящая через точку (x^*, c (x^*)) и лежащая ниже функции затрат, будет решением задачи стимулирования.

В табл. 4.1 приведены оценки сравнительной эффективности различных базовых систем стимулирования.

Табл. 4.1. Оценки сравнительной эффективности базовых системстимулирования

	K	C	L	LK	D	L+C	LL
K	=	=		=		=	=
C	=	=		=		=	=
L			=		?
LK	=	=		=		=	=
D			?		=
L+C	=	=		=		=	=
LL	=	=		=		=	=

В данной таблице сравнительная эффективность семи базовых систем стимулирования (в предположении выпуклости и монотонности функции затрат агента), отражена следующим образом: если в ячейке стоит символ «», то эффективность системы стимулирования, соответствующей строке, не ниже эффективности системы стимулирования, соответствующей столбцу (аналогичный смысл имеют и другие неравенства; символ «?» означает, что сравнительная эффективность систем стимулирования L-типа и D-типа в каждом конкретном случае зависит от функции затрат агента и функции дохода центра).

Параметрическое представление целевых функций. До сих пор мы рассматривали задачи, в которых ограничения на класс целевых функций агентов (точнее – на функции стимулирования) отсутствовали. На практике нередко класс целевых функций агентов задан в параметрическом виде f (x, y), где , X – множество значений параметра x. Представим f (x, y) в виде

где h (y)= f (y, y), .

Параметр x естественно интерпретировать как плановое задание для агента (желательное для центра состояние агента), а – как штраф при отклонении состояния от плана , . В этом случае задача стимулирования фактически становится задачей планирования в условиях полной информированности. Задача оптимального планирования становится игрой Г ₁ (см. лекцию 2). Определение решения этой игры называется принципом оптимального планирования с прогнозом состояния. Множество

называется множеством согласованных планов, а определение оптимального плана на множестве согласованных планов называется принципом оптимального согласованного планирования.

Возникает вопрос, в каких случаях принцип оптимального планирования с прогнозом состояний эквивалентен принципу оптимального согласованного планирования (в каких случаях оптимальный план будет выполнен). Наиболее известным и изящным достаточным условием согласованности является так называемое «неравенство треугольника» для функции штрафов: