Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Управление и оптимизация / Novikov - Teoriya upravleniya organizatsionnimi sistemami 2005

.pdf
Скачиваний:
52
Добавлен:
02.09.2019
Размер:
3.38 Mб
Скачать

Обозначим36 v1 = u (s1), v2 = u (s2), u–1(×) – функция, обратная к функции полезности агента, и предположим,

что функция полезности неотрицательна и в нуле равна нулю.

Пусть центр заинтересован в побуждении агента к выбору действия y1. Задача стимулирования в рассматриваемой модели примет вид (первое ограничение является ограничением согласованности стимулирования, второе – ограничением индивидуальной рациональности агента):

p u–1(v1) + (1 – p) u–1(v2) ® min

(11)

v1 ³0, v2 ³0

 

p v1 + (1 – p) v2 c1 ³ p v2 + (1 – p) v1 c2,

(12)

p v1 + (1 – p) v2 c1 ³ 0.

(13)

Заметим, что линейные неравенства (12)–(13)

сов-

падают с неравенствами (2)–(3) с точностью до переобозначения переменных. На рисунке 2.11 заштрихована область допустимых значений переменных v1 и v2. Линия уровня функции (11) (которая является выпуклой в силу вогнутости функции полезности агента) обозначена пунктиром.

В случае строго вогнутой функции полезности агента (при этом, очевидно, целевая функция (11) строго выпукла) внутреннее решение задачи условной оптимизации (11)– (13) единственно и имеет следующий вид (в качестве примера возьмем функцию полезности u(t) = b ln(1 + g t), где b

и g – положительные константы):

 

v1 = c1 + (c1 c2) (1 – p) / (2p – 1),

(14)

v2 = c1 + (c2 c1) p / (2p – 1).

(15)

36 Подобная замена переменных, позволяющая линеаризовать систему ограничений, используется в так называемом двушаговом методе решения задачи теории контрактов.

90

 

v2

 

с1 /(1 – p)

A1

 

 

 

 

C1

 

(c2 с1)/(2p – 1)

 

 

 

 

v1

0

 

B1

с1

/p

 

Рис. 2.11. Реализация центром действия y1 при несклонном к риску агенте

Легко проверить, что в рассматриваемом случае при использовании системы стимулирования (14)–(15) ожидаемая полезность агента от выплат со стороны центра равна затратам агента по выбору первого действия, то есть

Ev = c1.

(16)

Аналогично можно показать, что если центр побуждает агента выбирать второе действие, то ожидаемая полезность агента от выплат со стороны центра в точности равна затратам агента по выбору второго действия.

Из (14)–(15) видно, что в случае несклонного к риску агента, побуждая его выбрать первое действие, центр «недоплачивает» в случае реализации первого результата деятельности (v1 £ c1) и «переплачивает» в случае реализации второго результата деятельности (v2 ³ c1), причем при

91

предельном переходе к детерминированному случаю37 (чему соответствует p ® 1) имеет место: v1 ® c1.

Графически эффект страхования в рассматриваемой модели для случая реализации первого действия отражен на рисунке 2.12, на котором изображены линейная (определенная с точностью до аддитивной константы) функция полезности агента un (×) и его строго вогнутая функция полезности ua (×). Так как отрезок AB лежит выше и/или левее отрезка CD, а ожидаемая полезность агента в обоих случаях равна c1, то при несклонности агента к риску ожидаемые выплаты Eσa меньше, чем ожидаемые выплаты Eσn, соответствующие нейтральному к риску агенту (см. точки E

и F на рис. 2.12).

 

 

v

B

ua(σ) un(σ)

v2

 

 

 

 

 

D

 

 

 

 

c1

 

E

F

 

 

 

 

 

v1

A

C

 

σ

 

 

 

 

0

 

σ1 Eσa

Eσn

σ2

 

 

Рис. 2.12. Эффект страхования

 

 

 

при реализации центром действия y1

37 Отметим, что все модели с неопределенностью должны удовлетворять принципу соответствия: при «стремлении» неопределенности к «нулю» (то есть при предельном переходе к соответствующей детерминированной системе) все результаты и оценки должны стремиться к соответствующим результатам и оценкам, полученным для детерминированного случая. Например, выражения (14)–(15) при p = 1 переходят в решения, оптимальные в детерминированном случае.

92

Завершив рассмотрение примера, иллюстрирующего эффекты страхования в моделях теории контрактов, перейдем к описанию задач стимулирования в многоэлементных системах.

2.5. Механизмы стимулирования за индивидуальные результаты

В предыдущих разделах рассматривались системы индивидуального стимулирования. Настоящий и следующие три раздела посвящены описанию моделей коллективного стимулирования, то есть стимулирования коллектива агентов.

Простейшим обобщением базовой одноэлементной модели является многоэлементная ОС с независимыми (невзаимодействующими) агентами. В этом случае задача стимулирования распадается на набор одноэлементных задач.

Если ввести общие для всех или ряда агентов ограничения на механизм стимулирования, то получается задача стимулирования в ОС со слабо связанными агентами (см. ниже), представляющая собой набор параметрических одноэлементных задач, для которого проблема поиска оптимальных значений параметров решается стандартными методами условной оптимизации.

Если агенты взаимосвязаны (в настоящей работе не рассматривается ситуация, когда существуют общие ограничения на множества допустимых состояний, планов, действий агентов – этот случай подробно описан в [53]), то есть затраты или/и стимулирование агента зависят, помимо его собственных действий, от действий других агентов, то получается «полноценная» многоэлементная модель стимулирования, описываемая в настоящем разделе.

93

Последовательность решения многоэлементных и одноэлементных задач имеет много общего. Сначала необходимо построить компенсаторную систему стимулирования, реализующую некоторое (произвольное или допустимое при заданных ограничениях) действие (первый этап – этап анализа согласованности стимулирования). В одноэлементных ОС в рамках гипотезы благожелательности для этого достаточно проверить, что при этом максимум целевой функции агента будет достигаться, в том числе и на реализуемом действии. В многоэлементных ОС достаточно показать, что выбор соответствующего действия является равновесной стратегией в игре агентов. Если равновесий несколько, то необходимо проверить выполнение для рассматриваемого действия дополнительной гипотезы о рациональном выборе агентов. В большинстве случаев достаточным оказывается введение аксиомы единогласия (агенты не будут выбирать равновесия, доминируемые по Парето другими равновесиями), иногда центру приходится вычислять гарантированный результат по множеству равновесных стратегий агентов и т. д. Далее следует приравнять стимулирование затратам и решить стандартную оптимизационную задачу – какое из реализуемых действий следует реализовывать центру (второй этап – этап согласованного планирования – см. также раздел 2.1). Конкретизируем этот общий подход.

Стимулирование в ОС со слабо связанными аген-

тами. Описанные в разделе 2.1 результаты решения задачи стимулирования могут быть непосредственно обобщены на случай, когда имеются n ³ 2 агентов, функции затрат которых зависят только от их собственных действий (так называемые сепарабельные затраты), стимулирование каждого агента зависит только от его собственных действий, но существуют ограничения на суммарное стимулирование агентов. Такая модель называется ОС со слабо связанными

94

агентами и является промежуточной между системами индивидуального и коллективного стимулирования.

Пусть N = {1, 2, , n} – множество агентов, yi Ai – действие i-го агента, ci (yi) – затраты i-го агента, σi (yi) – стимулирование его со стороны центра, i N,

y = (y1, y2, …, yn) – вектор действий агентов, y A′ = Ai .

iÎN

Предположим, что центр получает доход H(y) от деятельности агентов.

Пусть размеры индивидуальных вознаграждений агентов ограничены величинами {Ci}i N, то есть yi Ai σi (yi) ≤ Ci, i N. Если фонд заработной платы (ФЗП) ограничен величиной R, то есть åСi R, то получаем (см. раз-

iÎN

дел 2.1), что максимальное множество реализуемых действий для i-го агента зависит от соответствующего ограничения механизма стимулирования и в рамках пред-

положений раздела 2.1 равно Pi (Ci ) = [0, yi+ (Ci )] , i N.

Тогда оптимальное решение задачи стимулирования в ОС со слабо связанными агентами определяется следующим образом: максимизировать выбором индивидуальных ограничений {Ci}i N, удовлетворяющих бюджетному ограничению åСi R, следующее выражение:

iÎN

Φ (R) = Îmax H ( y1, ..., yn ) ,

{ yi Pi (Ci )}i N

что является стандартной задачей условной оптимизации. Отметим, что когда ФЗП фиксирован, затраты центра

на стимулирование не вычитаются из его дохода. Если ФЗП является переменной величиной, то его оптимальное значение R* может быть найдено как решение следующей задачи:

R* = arg max [Φ (R) – R].

R³0

95

Пример 2.1.

Пусть

функции

затрат

агентов

ci (yi) = y2

/ 2ri, i Î N,

а

функция

дохода

центра

i

 

 

 

 

 

 

H (y) = åαi yi , где {αi}i N – положительные константы.

iÎN

При заданных ограничениях {Ci}i N максимальное реализуемое действие каждого агента: yi+ (Ci ) = 2riCi ,

i Î N. Задача свелась к определению оптимального набора ограничений {Ci* }i N, удовлетворяющего бюджетному

ограничению и максимизирующего целевую функцию центра:

ì

 

α

 

 

 

® max

 

 

 

 

2rC

 

ïå

 

i

 

i i

{Ci ³0}i N

 

ïí

iÎN

 

 

 

 

 

 

.

åCi £ R

 

 

 

î

iÎN

 

 

 

 

 

 

Решение этой задачи имеет вид:

 

 

*

 

 

 

rα 2

 

 

Ci =

 

i i

R , i I .

 

årjα2j

 

jÎN

Оптимальный размер ФЗП равен: R* = åriαi2 / 2.

iÎN

Стимулирование в ОС с сильно связанными аген-

тами. Обозначим yi = (y1, y2, , yi–1, yi+1, , yn) Î Ai = = Aj – обстановка игры для i-го агента.

j¹i

Интересы и предпочтения участников ОС – центра и агентов – выражены их целевыми функциями. Целевая функция центра Φ (σ, y) представляет собой разность между его доходом H(y) и суммарным вознаграждением υ (y),

n

выплачиваемым агентам: υ (y) = åσi (y) , где σi (y) – сти-

i=1

мулирование i-го агента, σ (y) = 1(y), σ2(y), …, σn(y)). Целевая функция i-го агента fi i, y) представляет собой

96

разность между стимулированием, получаемым от центра, и затратами ci (y), то есть:

n

 

Φ (σ, y) = H(y) – åσ i ( y) ,

(1)

i=1

 

fi i, y) = σi (y) – ci (y), i N.

(2)

Отметим, что и индивидуальное вознаграждение, и индивидуальные затраты i-го агента по выбору действия yi в общем случае зависят от действий всех агентов (случай сильно связанных агентов с несепарабельными затратами).

Примем следующий порядок функционирования ОС. Центру и агентам на момент принятия решения о выбираемых стратегиях (соответственно функциях стимулирования и действиях) известны целевые функции и допустимые множества всех участников ОС. Центр, обладая правом первого хода, выбирает функции стимулирования и сообщает их агентам, после чего агенты при известных функциях стимулирования одновременно и независимо выбирают действия, максимизирующие их целевые функции.

Относительно параметров ОС введем следующие предположения:

1)множество допустимых действий каждого агента совпадает с множеством неотрицательных действительных чисел;

2)функции затрат агентов непрерывны, неотрица-

тельны и yi Ai ci (y) не убывает по yi, i N; yi Ai ci (0, yi) = 0;

3) функция дохода центра непрерывна по всем переменным и достигает максимума при ненулевых действиях агентов.

Второе предположение означает, что независимо от действий других агентов любой агент может минимизировать свои затраты выбором нулевого действия. Остальные

97

предположения – такие же, как и в одноэлементной модели (см. раздел 2.1).

Так как и затраты, и стимулирование каждого агента в рассматриваемой модели зависят в общем случае от действий всех агентов, то агенты оказываются вовлеченными в игру, в которой выигрыш каждого зависит от действий всех. Обозначим P(σ) – множество равновесных при системе стимулирования σ стратегий агентов – множество решений игры (тип равновесия пока не оговаривается; единственно предположим, что агенты выбирают свои стратегии одновременно и независимо друг от друга, не имея возможности обмениваться дополнительной информацией и полезностью).

Как и в одноэлементной ОС, рассмотренной в разделе 2.1, гарантированной эффективностью (далее просто «эффективностью») стимулирования является минимальное (или максимальное – в рамках гипотезы благожелательности) значение целевой функции центра на соответ-

ствующем множестве решений игры:

 

K(σ) = min Φ (σ, y).

(3)

y P( σ )

 

Задача синтеза оптимальной функции стимулирования заключается в поиске допустимой системы стимулиро-

вания σ*, имеющей максимальную эффективность:

 

σ* = arg max K(σ).

(4)

σ M

 

Из результатов раздела 2.1 следует, что в частном случае, когда агенты независимы (вознаграждение и затраты каждого из них зависят только от его собственных действий),

то оптимальной (точнее – δ-оптимальной, где δ = åδi )

является компенсаторная система стимулирования:

i N

 

σ i K

ìci ( yi* ) + δi , yi = yi*

 

(yi ) = í0,

y

i

¹ y* , i Î N,

(5)

 

î

 

i

 

98

где {δi}i N – сколь угодно малые строго положительные константы (мотивирующие надбавки), а оптимальное действие y*, реализуемое системой стимулирования (5) как равновесие в доминантных стратегиях38 (РДС), является решением следующей задачи оптимального согласованного планирования:

y* = arg max {H(y) – åci (yi ) }.

y A

i N

 

Если стимулирование каждого агента зависит от действий всех агентов (рассматриваемый в настоящем разделе случай коллективного стимулирования) и затраты несепарабельны (то есть затраты каждого агента зависят в общем случае от действий всех агентов, что отражает взаимосвязь и взаимозависимость агентов), то множества

равновесий Нэша39 EN (σ) A′ и РДС yd Î A′ имеют вид:

EN (σ) = {yN Î A | i Î N yi Î Ai

(6)

σi (yN) – ci ( y N ) ³ σi (yi, yNi ) – ci (yi, yNi )};

yid Ai – доминантная стратегия i-го агента, тогда и толь-

ко тогда, когда

yi Ai, yi A–i σi ( yid , yi) – ci ( yid , yi) ³ σi (yi, yi) – ci (yi, yi).

Если при заданной системе стимулирования у всех агентов имеется доминантная стратегия, то говорят, что данная система стимулирования реализует соответствующий вектор действий как РДС.

38Напомним, что РДС называется такой вектор действий агентов, что каждому агенту выгодно выбирать соответствующую компоненту этого равновесия независимо от того, какие действия выбирают остальные агенты.

39Напомним, что равновесием Нэша называется такой вектор действий агентов, что каждому агенту выгодно выбирать соответствующую компоненту этого равновесия при условии, что все остальные агенты выбирают равновесные действия.

99