Добавил:

vv_sokol Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Академия Государственной противопожарной службы МЧС России

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Управление и оптимизация / Novikov - Refleksiya i upravleniye 2013

.pdf

Скачиваний:

Добавлен:

02.09.2019

Размер:

3.17 Mб

Скачать

☆

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 1617 / 4217 18 19 20 21 22 23 24 25 26 27 28 29 > Следующая >>>

Если при любых предпочтениях агентов r Î Ân сообщение ими достоверной информации является равновесием Нэша,

(2) " i N " r Î Ân " s Î Â1 fi(hi(r), ri) ³ fi(hi(r-i, s), ri),

то такой механизм называется неманипулируемым механизмом. Данное свойство далее будем называть неманипулируемостью.

Казалось бы, более сильным, чем (2), является требование того,

чтобы сообщение каждым агентом достоверной информации было его доминантной стратегией:

(3) " i Î N " ri, si Î 1 " s-i Î Ân-1 fi(hi(s-i, ri), ri) ³ fi(hi(s-i, si), ri).

Однако легко видеть, что определения (2) и (3) эквивалентны [207]. Это означает, что, так как в определениях (2) и (3) неманипу- лируемости механизмов планирования вектор r Î Ân типов агентов является «параметром», то неманипулируемость можно интерпрети- ровать следующим образом: механизм является неманипулируемым, если, каковы бы ни были истинные типы агентов, сообщение досто-

верной информации является доминантной стратегией каждого из них.

Рефлексивная неманипулируемость. Откажемся от предпо-

ложения о том, что вектор типов агентов является общим знанием, и

обобщим на этот случай задачу о неманипулируемости механизма планирования [122]. Пусть информированность i-го агента описыва- ется деревом Ii c элементами вида riσ Î Â1, σ Î S, причем ri – истин- ный тип i-го агента – достоверно ему известен, i Î N.

В этом случае агенты играют в рефлексивную игру, информаци- онное равновесие которой в данном случае определяется следующи- ми условиями (см. раздел 2.3):

1)структура информированности I имеет конечную сложность;

2)λ, μ Σ Iλi = Iμi Þ xλi* = xμi*;

3)" i Î N, " σ Î S

(4) s*	Arg max	f	(h (s*		,..., s*	, s	, s*	,..., s*	), r	) .
σi	si 1	i	i	σi1	σi,i −1	i	σi,i +1	σin	σi

В соответствии с (4) равновесное сообщение i-го агента (реаль- ного) зависит от структуры его информированности Ii, то есть

(5) si* = si* (Ii), i Î N.

161

Вчастном случае – если имеет место общее знание – выражение

(4)совпадает с определением равновесия Нэша.

Обозначим s*(I) = ( s1* (I1), s2* (I2), …,

маемое в соответствии с механизмом структуры информированности I:

sn* (In)). Решение x, прини- h(×), будет зависеть от всей

(6) x = h(s*(I)).

Обсудим теперь, что следует понимать под манипулируемостью в случае отсутствия общего знания.

Напомним, что в соответствии с (2) и (3) в условиях общего знания механизм является неманипулируемым, если, каковы бы ни были истинные типы агентов, сообщение достоверной информации является доминантной стратегией каждого агента.

Попробуем обобщить это определение на случай информацион- ного равновесия – потребуем, чтобы какова бы ни была структура информированности реального агента, сообщение достоверной

информации являлось бы для него компонентой информационного равновесия (4):

(7) r n, i N, Ii

ri Arg max

(s*

),..., s*

), s

, s*

),..., s*

)), r ) .

si 1

i,i−1

i,i+1

Легко видеть, что, если выполнено (3) (механизм является не- манипулируемым), то имеет место и (7). В другую сторону: так как

множество всевозможных структур информированности включает и структуру, соответствующую общему знанию, то, если выполнено (7), то механизм является неманипулируемым (должно иметь место (3)). Получили, что определения (3) и (7) эквивалентны.

Итак, можно сделать следующий качественный вывод: если в

рассматриваемом механизме у каждого агента при любом его типе существует доминантная стратегия (а это – очень сильное требова- ние, и класс удовлетворяющих ему механизмов чрезвычайно узок), то принимаемые им решения не зависят от структуры информиро- ванности.

Ослабления требования неманипулируемости можно добиться, введя определение рефлексивной неманипулируемости – существо- вания подструктур информированности riσ 1, i N, s Σ+, та-

162

ких, что при любых типах реальных агентов сообщение ими досто- верной информации является информационным равновесием.

Формально: будем называть механизм h(×) рефлексивно немани-

пулируемым, если существуют подструктуры информированности riσ Î Â1, s Î S+ , реальных агентов (i Î N), такие, что, каков бы ни был тип реального агента, сообщение достоверной информации является для него компонентой информационного равновесия:

(9)	" i Î N " ri Î Â1
	ri Î Arg max f		(h (s*	,..., s*	, s	, s*	,..., s*	), r ) ,
	si 1	i	i i1	i,i −1	i	i,i +1	in	i
(10)	" s Î S " j Î N

s*	Arg max f		(h	(s*	,..., s*	, s		, s*	,..., s*	), r	) .
iσj	s j 1	j	j	iσj1	iσj, j−1		j	iσj, j+1	iσjn	iσj

Понятно, что множество рефлексивно неманипулируемых меха- низмов не уже множества неманипулируемых механизмов (любой неманипулируемый механизм является рефлексивно неманипули- руемым), поэтому их характеризация (в том числе – поиск соответ- ствующих подструктур информированности) является актуальной задачей.

Обозначим EI – множество всевозможных (при всех допустимых структурах информированности) равновесных наборов действий реальных агентов, E-i = Proj-i EI, i Î N. Определение (9)–(10) можно сформулировать в следующем виде: механизм является рефлексивно неманипулируемым, если для i-го агента существует обстановка ~r−i Î E-i, такая, что:

~	Î Â	1	~	~	,	~	), ri), i Î N.
(11) " ri, ri	Î Â		fi(hi( r−i	, ri), ri) ³ fi(hi( r−i	,	ri	), ri), i Î N.

Обозначим множество равновесий Нэша

(12)EN = {r Î Ân |" i Î N " ~ri Î Â1 fi(hi(r), ri) ³ fi(hi(r-i, ~ri ), ri)},

(13)X i0 = Proji EN, i Î N.

Далее до конца данного раздела будем предполагать, что струк- тура информированности агентов является конечной регулярной.

Справедливо следующее утверждение – достаточное условие рефлексивной неманипулируемости (необходимым условием явля-

ется (11)).

163

~r = ( ~r1 ,

Утверждение 2.16.1. Для того чтобы механизм планирования являлся рефлексивно неманипулируемым, достаточно, чтобы для любого i-го агента, i N, существовал набор типов

…, ~rn ) EN такой, что выполнено (11). При этом для построения

рефлексивно неманипулируемых механизмов достаточно ограни- читься рассмотрением агентов с не более чем вторым рангом реф- лексии.

Доказательство. Достаточно сформировать структуру информи- рованности i-го агента Ii (отметим, что структуры информированно- сти различных агентов можно строить независимо) такую, что:

(14) rijσk = ~rk , j ¹ i, для любого s Σ.

Это означает, что с точки зрения i-го агента все остальные счи- тают, что имеет место общее знание (см. Рис. 42).

Легко видеть, что с точки зрения i-го агента сообщение досто-

верной информации является равновесием игры его фантомных агентов, следовательно, выполнено (10), что с учетом (11) приводит к выполнению (9). ∙

ij ik

iji

Рис. 42. Граф рефлексивной игры с точки зрения i-го агента

Содержательно, представления i-го агента о типах оппонентов и их представлениях должны быть следующими. Агент должен быть, во-первых, уверен, что типы оппонентов таковы, что выполнено условие (11), обеспечивающее выгодность сообщения ими достовер- ной информации. Во-вторых, представления оппонентов с точки

164

зрения рассматриваемого агента должны быть таковы, что сообще- ние именно данной информации является равновесием их игры (см. условие (10)). Для этого достаточно, чтобы на нижнем уровне струк-

туры информированности имело место субъективное общее знание фантомных агентов.

Отметим конструктивность приведенного доказательства – оно содержит алгоритм построения конкретной структуры информиро- ванности (14), обеспечивающей рефлексивную неманипулируе- мость.

Приведем пример механизма планирования, который является манипулируемым, но при этом рефлексивно неманипулируемым.

Пример 2.16.1. Пусть имеются два агента с неотрицательными типами r1 и r2. (Напомним, что типом агента в данном случае являет- ся оптимальный для него план.) Рассмотрим механизм, который в зависимости от сообщений агентов s1 и s2 назначает им планы x1 и x2 соответственно по следующим формулам:

(15) x1 = s1 – s2 / 2, x2 = s2 – s1 / 2, s1, s2 ³ 0.

Решая систему уравнений

ìïs1 - s22 = r1,

ïïs2 - s1 = r2 , î 2

получаем равновесные по Нэшу стратегии (заявки) агентов:

s* (r1, r2) =	2	(2 r1 + r2),	s* (r1, r2) =	2	(2 r2 + r1).

1	3		2	3

Легко видеть, что механизм (15) является манипулируемым – при любых типах агентов, не равных одновременно нулю, по край- ней мере один из агентов сообщает заявку, не совпадающую с его типом. Однако при r1, r2 ³ 0 механизм является рефлексивно нема- нипулируемым. Действительно, достаточно убедить каждого агента в том, что с точки зрения его оппонента общим знанием является равенство нулю обоих типов. Иными словами, достаточно сформи- ровать структуру информированности riσ= 0, i =1, 2, σ Î S+ . Тогда

единственным информационным равновесием является набор si* = ri, si*σ = 0, i =1, 2, σ Î S+ .

Таким образом, в равновесии оба агента сообщают свои истин- ные типы.

165

В то же время, при r1, r2 > 0 механизм (15) не является рефлек- сивно неманипулируемым, так как какова бы ни была структура информированности (и, в частности, какова бы ни была ее глубина), каждый из агентов будет уверен в том, что сообщение оппонента будет отлично от нуля. ∙

Ряд прикладных механизмов планирования исследован (с точки

зрения стабильности взаимных представлений агентов о типах друг друга, при которых механизм обладает теми же свойствами) в [7, 32, 33, 85, 116 и др.].

166

ГЛАВА 3. СТРАТЕГИЧЕСКАЯ РЕФЛЕКСИЯ

ИУПРАВЛЕНИЕ

Внастоящей главе исследуются модели стратегической рефлек- сии. В разделе 3.1 рассматривается модель стратегической рефлек- сии в игре двух лиц, что в разделе 3.2 позволяет решить задачу о

максимальном целесообразном ранге стратегической рефлексии в

биматричных играх, а также определить и изучить т.н. игры рангов. Раздел 3.3 посвящен обсуждению конечности ранга рефлексии, порождаемой ограниченностью способностей человека по перера- ботке информации. Раздел 3.4 – описанию метода рефлексивных разбиений, используемого для решения задач рефлексивного управ-

ления.

3.1. СТРАТЕГИЧЕСКАЯ РЕФЛЕКСИЯ В ИГРАХ ДВУХ ЛИЦ

Рассмотрим последовательно, в порядке возрастания информи- рованности, рефлексивные модели принятия решений в играх двух лиц.

Нулевой ранг рефлексии. Проанализируем задачу принятия агентом решения в случае полного отсутствия информации о со- стоянии природы (напомним, что предположение о том, что целевые функции и допустимые множества являются общим знанием, счита- ется выполненным). Представляется разумным, с одной стороны, принцип принятия решений на основе максимального гарантирован- ного результата, в соответствии с которым i-ый агент выберет гаран- тирующую (по состоянию природы и действию оппонента) страте-

гию

(1)	1	xг	= arg max min	min fi(θ, xi, x-i).
	1	i	xi X i θ Θ	x−i X −i
			xi X i θ Θ	x−i X −i

С другой стороны, гипотетически принцип (1) принятия реше- ний не является единственно возможным – агент может рассчиты- вать, что его оппонент выберет не наихудшее действие, а собствен- ную гарантирующую стратегию (отметим, что каждый агент может вычислить гарантирующую стратегию оппонента). Тогда наилуч-

шим ответом будет

(2)	2	xг	= arg max min fi(θ, xi,	1	xг	).
	2	i	xi X i θ Θ	1	−i
			xi X i θ Θ

Но аналогичным образом может рассуждать оппонент рассмат- риваемого агента. Если рассматриваемый агент допускает такую возможность, тогда его гарантирующей стратегией будет

(3)	3	xг	= arg max min fi(θ, xi,	2	xг	),
	3	i	xi X i θ Θ	2	−i
			xi X i θ Θ

где 2 x−гi вычисляется в соответствии с (2) заменой индекса «i» на «-

i» и наоборот. Цепочку наращивания «ранга рефлексии» (предполо- жений агента о ранге рефлексии оппонента) можно продолжать и далее (см. аналогии в динамических моделях, рассматриваемых в [126]), определив рекуррентно

(4)	k	xг	= arg max min fi(θ, xi,	k −1	xг	), k = 2, 3, ...,
	k	i	xi X i θ Θ	k −1	−i
			xi X i θ Θ

где 1 xiг , i = 1, 2, определяются (1). Набор действий типа (4) будем

называть множеством рефлексивных гарантирующих стратегий.

Рассмотрим иллюстративный пример.

Пример 3.1.1. Пусть целевые функции агентов имеют вид: f1(x1, x2) = x1 – x12 /2x2, f2(x1, x2) = x2 – x22 /2(x1 + δ),

где δ > 0. Относительно допустимых множеств предположим, что X1 = X2 = [ε; 1], 0 < ε < 1. Будем считать, что каждая из констант ε и δ много меньше единицы. Гарантирующие стратегии агентов приве- дены в Табл. 4.

Видно, что, во-первых, значения гарантирующих действий уве- личиваются с ростом «ранга рефлексии». Во-вторых, различным «рангам рефлексии» агентов соответствуют в общем случае различ- ные гарантирующие действия (отметим, что равновесием34 Нэша в данном примере является вектор (1; 1)). ∙

Табл. 4. Гарантирующие стратегии агентов в примере 3.1.1

k	1	2	3	4	5	6	7	...
k x1г	ε	ε + δ	ε + δ	ε + 2δ	ε + 2δ	ε + 3δ	ε + 3δ	...
k x2г	ε + δ	ε + δ	ε + 2δ	ε + 2δ	ε + 3δ	ε + 3δ	ε + 4δ	...

34 В качестве отступления заметим, что, если в рассматриваемом примере целевая функция второго агента имеет вид f2(x1, x2) = x2 + x22 /2x1, то у него существует доминантная стратегия (равная единице), и последовательность гарантирующих стратегий первого агента стабилизируется уже на втором члене: 1 xiг = ε, 2 xiг = 1/2. Если первый агент может вычислить доминантную стратегию своего оппонента, то представляется рациональным выбор им действия 2 xiг .

168

Вопрос о том, какое действие следует выбирать агенту, остается открытым. Единственно, можно констатировать, что, обладая ин-

формацией только о множестве возможных значений состояния природы, i-ый агент может выбирать одно из действий k xiг , i = 1, 2;

k = 1, 2, ..., определяемых выражениями (1)-(4).

Доопределить рациональный выбор агента в рассматриваемой модели можно следующим образом. Если агенту неизвестна целевая функция оппонента (что исключено в рамках предположения о том,

что целевые функции и допустимые множества являются общим знанием), то единственным его рациональным действием является выбор (1), то есть классический МГР. В рамках введенных предпо- ложений агенту известна целевая функция оппонента, а также из- вестно, что оппоненту известен этот факт и т.д. Поэтому с точки зрения агента нерационально использование классического МГР, и ему следует рассчитывать, как минимум, что оппонент будет ис-

пользовать МГР, что приведет к выбору 2 xiг . Но, опять же, в силу

того, что целевые функции являются общим знанием, агент может предположить, что такой ход его рассуждений может быть восста-

новлен оппонентом, что сделает целесообразным выбор 3 xiг и т.д. до

бесконечности. Следовательно, с точки зрения агента остается неоп- ределенность относительно «ранга рефлексии» оппонента35. Относи- тельно этого параметра он не имеет никакой информации (если у агента имеются некоторые убеждения по этому поводу, то может реализоваться соответствующее субъективное равновесие), что

делает рациональным использование гарантированного результата по «рангу рефлексии» оппонента:

(5) x’i = arg max	min	min fi(θ, xi,	j x−гi ).
xi X i	j =1,2,...	θ Θ

35 Другими словами, исходная игра может быть заменена на игру, в которой агенты выбирают ранги своей рефлексии. Для новой игры могут быть также построены рефлексивные аналоги и т.д. до бесконечности (см. примеры: «Пенальти» – во введении, «Игра в прятки» и «Снос на мизере» – в разделе 3.2). Одним из возмож- ных способов борьбы с подобной «бесконечностью» является использование гарантированного результата по рангу рефлексии оппонента. Другим возможным способом, эффективным для конечных игр, является определение максимального целесообразного ранга рефлексии агентов – см. раздел 3.2.

169

Отметим, что, во-первых, x’i может отличаться от классической гарантирующей стратегии 1 xiг , определяемой выражением (1). Во-

вторых, при использовании стратегии (5) факт наличия доминантной стратегии оппонента будет учтен агентом (см. сноску в примере

3.1.1).

ВТабл. 5 приведены значения целевой функции первого агента

впримере 3.1.1 в зависимости от «ранга рефлексии» оппонента и соответствующие действия оппонента. Видно, что при использова-

нии стратегии (5) выигрыш i-го агента равен ε + δ, что превышает выигрыш ε, получаемый при использовании классического МГР.

Табл. 5. Выигрыши первого агента в примере 3.1.1

j	1	2	3	4	5	6	7
2 f1(BR1( j x2г ), j x2г )	ε + δ	ε + δ	ε + 2δ	ε + 2δ	ε + 3δ	ε + 3δ	ε + 4δ
j x2г	ε + δ	ε + δ	ε + 2δ	ε + 2δ	ε + 3δ	ε + 3δ	ε + 4δ

Таким образом, рациональным в рассматриваемой модели мож- но считать использование агентом стратегии (4) или (5).

Первый ранг рефлексии. Предположим теперь, что агент об- ладает определенной информацией о состоянии природы, которую считает истинной, и больше ему ничего достоверно не известно.

В рамках существующей неопределенности в силу принципа де- терминизма у агента, осуществляющего стратегическую рефлексию, имеются две альтернативы – либо предположить, что его оппонент не обладает никакой информацией, либо считать, что последний обладает той же информацией, что и он сам36.

Если агент не вводит никаких предположений об информиро- ванности и принципах поведения оппонента, то он вынужден при- менять принцип максимального гарантированного результата (МГР)

– никакой дополнительной (по сравнению с рассмотренной выше моделью нулевого ранга рефлексии) информации об оппоненте у

36 Данный принцип (и его обобщения) будет широко использоваться ниже при определении конечных информационных структур – действительно, обладая ин- формацией Ii, i-ый агент может в случае неопределенности приписывать другим агентам только информированность, согласованную с Ii.

170

<<< < Предыдущая 5 6 7 8 9 10 11 12 13 14 15 1617 / 4217 18 19 20 21 22 23 24 25 26 27 28 29 > Следующая >>>

Соседние файлы в папке Управление и оптимизация

#
02.09.2019720.85 Кб51Baktolov - Zadachi raspredeleniya resursov 2002.pdf
#
02.09.20191.37 Mб59Borzdova - Informatsionniye tekhnologii v biznese 2012.pdf
#
02.09.20191.92 Mб120Kislinskikh - Istoriya upravlencheskoy misli 2015.pdf
#
02.09.20193.36 Mб57Larichev - Teoriya i metodi prinyatiya resheniy 2000.pdf
#
02.09.2019539.06 Кб48Novikov - Mekhanizmi upravleniya obrazovatelnikh sistem 2001.pdf
#
02.09.20193.17 Mб59Novikov - Refleksiya i upravleniye 2013.pdf
#
02.09.20193.38 Mб52Novikov - Teoriya upravleniya organizatsionnimi sistemami 2005.pdf
#
02.09.20191.28 Mб49Novikov - Vvedeniye v upravleniye obrazovatelnimi sistemami 2009.pdf
#
02.09.20192.13 Mб50Osnovi informatsionnikh i komputernikh tekhnologiy 2011.pdf
#
02.09.20191.72 Mб51Osnovi menedzhmenta i organizatsionnoe povedeniye.pdf
#
02.09.20191.08 Mб53Ryazanov - Teoriya upravleniya sotsialno-ekonomicheskimi sistemami 2010.pdf