Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Управление и оптимизация / Novikov - Refleksiya i upravleniye 2013

.pdf
Скачиваний:
59
Добавлен:
02.09.2019
Размер:
3.17 Mб
Скачать

ì

n

uV ® max,

 

 

ïå i i

ui {0;1}

ï i=1

 

(8) í

 

n

 

ïï

 

 

åui yi £ Rx ,

î

i=1

 

а ε =

1

(Rx

n

- åui yi ) , то есть будем считать, что игрок стремится

 

n

 

i=1

победить на наиболее ценном для него (в рамках ресурсных ограни- чений) наборе объектов, а остаток ресурса распределяет поровну между всеми объектами.

Аналогично введем BRy(x) = (v1 x1 + δ, …, vn xn + δ) – вектор наи- лучшего в смысле критерия (2) ответа второго игрока на выбор

первым

игроком вектора действий x, где n-мерный вектор

v = (v1,…, vn) является решением следующей задачи о ранце:

ì

n

 

 

 

vV ® max,

ïå i

i

vi {0;1}

ï i=1

 

(9) í

n

 

 

ïï

 

 

åvi xi £ Ry ,

î

i=1

 

 

 

 

 

n

а δ =

1 (Ry - åui xi ) .

 

n

 

i=1

Равновесие Нэша в аукционной модели ИПБ может строиться и исследоваться с помощью анализа свойств отображений наилучших ответов BRx(×) и BRy(×). Однако нас будут интересовать эффекты стратегической рефлексии. Для их отражения предположим, что нерефлексирующие игроки выбирают равновесие Нэша, соответст- вующее вероятностной модели (6) ИПБ. Игрок первого ранга реф- лексии выбирает свои действия как наилучший в смысле (8) или (9) ответ на действия нерефлексирующего оппонента, считая, что по- следний действует в рамках вероятностной модели.

В соответствии с принятой в теории рефлексивных игр традици- ей будем считать, что игрок, имеющий некоторый ранг стратегиче- ской рефлексии, считает оппонента имеющим ранг на единицу меньше его собственного (см. раздел 3.4). То есть, имеет место следующая «цепочка»:

371

(10) x1 = BRx(y*), y1 = BRy(x*),

x2 = BRx(y1) = BRx(BRy(x*)), y2 = BRy(x1) = BRy(BRx(y*)), …,

xk = BR (BR (...(×)...)) , ym = BR (BR (...(×)...)) ,

14243

14243

x y

y x

k

m

где xk (ym) – действие первого (второго) игрока, обладающего k-ым (m-ым) рангом стратегической рефлексии, k, m = 1, 2, … .

Исследуем игру рангов (см. раздел 3.2), в которой первый и вто- рой игроки выбирают не количества ресурса, как в исходной ИПБ, а свои ранги, которые в соответствии с (10) детерминируют распреде- ление ресурсов и, следовательно, выигрыши игроков (2). В игре рангов первый игрок выбирает свой ранг k {0, 1, 2, … }, второй игрок свой ранг m {0, 1, 2, … }. Каждой паре рангов ставится в соответствие пара чисел (fx(k, m), fy(k, m)) – выигрышей соответст- венно первого и второго игрока. То есть рассматриваемая игра ран- гов является (в общем случае бесконечной) биматричной игрой (в рассматриваемой модели игрой с постоянной суммой). Отметим, что исследованные на сегодняшний день игры рангов (см. ссылки в разделе 3.2) были конечными, так как «надстраивались» над конеч- ными матричными или биматричными играми.

Для определенности будем считать, что выполнено Ry > Rx. С учетом выражения (6) при x = x*, y = y* задачи (8) и (9) примут соот- ветственно вид:

ì

n

uV ® max,

 

 

ïå i

i

ui {0;1}

ï i=1

 

 

(11) í

n

 

 

 

 

Rx

 

ï

uV £ V

,

 

 

 

ï

å i

i

 

 

R

y

î i=1

 

 

 

 

 

и

 

 

 

 

 

 

 

 

 

ì

n

vV ® max,

 

 

ïå i

i

vi {0;1}

ï i=1

 

 

(12) í

n

 

 

 

Ry

 

 

ï

vV £ V

.

 

 

ï

å i

i

 

 

Rx

î i=1

 

 

 

 

Как отмечалось выше, второй игрок в равновесии Нэша (6) име- ет преимущество на всех объектах. Из (12) следует, что наилучшим ответом второго игрока на фиксированную стратегию первого игро-

372

ка будет выделять на каждый объект столько же ресурса, сколько выделил первый, а остаток ресурса распределять, например, поровну между всеми объектами (ограничению в задаче (12) удовлетворяет любой, даже состоящий из всех единиц, вектор). При этом второй игрок будет иметь преимущество на всех объектах. Другими слова- ми,

(13)l = 0, 1, 2, … fx(l, l + 1) = 0, fy(l, l + 1) = V.

Исследуем теперь поведение первого игрока. Начнем с примера.

Пример 4.26.2.1. Пусть n = 3, V1 = 1, V2 = 2, V3 = 3, Rx =3, Ry = 4.

Равновесием Нэша (отметим, что равновесием в игре с критериями

(4)) является x* = (1/2, 1, 3/2), y* = (2/3, 4/3, 2). Выигрыши (2) игроков

в равновесии fx(x*, y*) = 0, fx(x*, y*) = V = 6.

Вычисляя наилучшие ответы игроков в соответствии с выраже- ниями (11)-(12), получим следующую биматрицу выигрышей для игры рангов (ограничимся в настоящем примере третьим рангом).

 

 

Ранг рефлексии второго игрока

 

 

0

1

2

3

Ранг

0

(0; 6)

(0; 6)

(2; 4)

(2; 4)

рефлексии

1

(4; 2)

(3; 3)

(0; 6)

(0; 6)

первого

2

(1; 5)

(4; 2)

(0; 6)

(0; 6)

игрока

3

(3; 3)

(3; 3)

(5; 1)

(5; 1)

В данной игре с постоянной суммой гарантирующая стратегия первого игрока выбирать третий ранг рефлексии, второго игрока нулевой или первый ранг.

Интересно, что в рассматриваемом примере первый игрок, об- ладающий меньшим количеством ресурса, в игре рангов обеспечива- ет себе половину суммарного выигрыша (3 из 6) по сравнению с нулевым значением выигрыша в равновесии Нэша. Более того, комбинации рангов (3, 2) или (3, 3) дают первому игроку еще боль- ший выигрыш – 5 из 6. Этот эффект достигается за счет того, что мы «искусственно» ограничили ранги рефлексии игроков. Действитель- но, если ограничиться не третьим, а четвертым рангом, то макси- мальный гарантированный выигрыш первого игрока будет дости- гаться на четвертом ранге, а третий станет «доминируем» четвертым рангом второго игрока, и т.д. В общем случае, в соответствии с (26),

для любого ранга рефлексии первого игрока выбор вторым игроком на единицу большего ранга приводит к тому, что выигрыш первого становится равным нулю.

373

Условный качественный вывод из рассмотренного примера в условиях нехватки ресурсов (по сравнению с оппонентом), можно

увеличить свой выигрыш за счет увеличения ранга своей рефлексии при условии ограниченности рангов рефлексии оппонента. Другими словами, первому игроку следует всегда выбирать максимальный ранг (если последний больше ранга оппонента). ∙

Исследуем вопрос о максимальном целесообразном ранге реф- лексии игроков таком ранге, выше которого использовать игрокам не имеет смысла, даже при условии гипотетической неограниченно- сти рангов рефлексии.

Был проведён вычислительный эксперимент с целью поиска по- вторяемости элементов в матрицах выигрышей игроков, это означа- ло бы ограниченность максимального целесообразного ранга реф- лексии, т.к. повышение ранга не добавляло бы новых возможных комбинаций выигрышей в игре рангов.

В эксперименте случайно генерировались ИПБ, в количестве 100 штук, со следующими параметрами: n = 10, {Vi} – случайные вещественные числа от 2 до 100, Rx = ΣVi / 3, Ry = 2 Rx.

Для этих ИПБ рассматривались биматричные игры рангов раз- мерности 2000 × 2000 и вычислялись соответствующие максималь-

ные целесообразные ранги рефлексии (МЦР). Пусть A матрица выигрышей игрока 1, Ai строка матрицы A, i = 1, …, r, r = 2000. Пусть m и d минимальные неотрицательные числа, такие, что матрица A представима как последовательность строк (A1, …, Am, {Am+1, …, Am+d}, Am+pd+1, …, Am+pd+q), где скобки {…} обозначают

минимум двукратное повторение, p = (r m) / d , q = r m p d.

Тогда МЦР игрока будет равен (m + d).

По результатам данного эксперимента, максимальный целесо- образный ранг рефлексии поднимался до 2000 только в 4 ИПБ из ста. В среднем максимальный целесообразный ранг рефлексии первого игрока равен 231.57, второго игрока – 230.16.

График полученных МЦР для первого игрока представлен на Рис. 94. Следует отметить условность результатов проведенного вычислительного эксперимента действительно, сложно предста- вить себе игрока, обладающего сотым рангом рефлексии.

374

МЦР

2000

1500

1000

500

 

 

 

 

 

Номер ИПБ

20

40

60

80

100

Рис. 94. МЦР для серии случайных ИПБ

Во всех 100 ИПБ, максимальный гарантированный результат игрока 1 равен 0, максимальный гарантированный результат игрока 2 не поднимается выше 0.564 от суммарного выигрыша.

Информационная рефлексия в ИПБ. Рассмотрим теперь ин-

формационную рефлексию, в рамках которой взаимная информиро- ванность игроков описывается структурой информированности, а равновесием их игры является информационное равновесие. В силу выражения (6) равновесное действие каждого игрока зависит только

от его оценок ценности объектов и имеющегося у него количества ресурса, и не зависит от параметров оппонента.

Предположим, что могут различаться как оценки игроками цен- ностей объектов, так и их представления об имеющихся у оппонента ресурсах. Обозначим Vij (Ril) – оценку i-ым игроком ценности j-го объекта (количества ресурса), i, l = 1, 2, j N. Естественно считать,

что сам игрок достоверно знает количество имеющегося у него

ресурса, т. е. R11 = Rx, R22 = Ry.

Условием стабильности информационного равновесия будет совпадение выбираемых игроками действий с действиями, ожидае- мыми от них оппонентами, то есть

(14)

Vij

R =

V3−i, j

R

, i =1, 2, j N.

åVil

åV3−i,l

 

ii

3−i,i

 

 

l N

 

l N

 

 

375

Если говорить об информационном управлении (воздействии на представления игроков о ценностях объектов, представлениях оппо- нентов и имеющихся у них ресурсах, представлениях о представле- ниях и т.д.), то, изменяя Vij, управляющий орган может реализовать

как информационное равновесие любую комбинацию векторов действий, удовлетворяющих ограничениям (1).

4.26.3. Олигополия Курно: стратегическая рефлексия

В модели олигополии Курно [233] (см. также раздел 4.16) аген-

ты принимают решения об объеме выпускаемой ими продукции в условиях, когда ее рыночная цена является известной убывающей функцией суммарного предложения (объема выпуска, объема произ-

водства): P(x) = a b Q(x), где Q(x) = åxi , a и b известные неот-

i N

рицательные константы.

Целевая функция i-го агента представляет собой разность между выручкой от продаж (равной произведению цены на объем произ- водства) и квадратичными затратами на производство:

(1) fi(xi, Q(x)) = (a b Q(x)) xi – (xi)2 / 2, i N.

Если бы целевые функции агентов были среди них общим зна- нием, то равновесию Нэша их игры соответствовали бы одинаковые действия:

(2) xN

=

 

 

a

, i N,

 

 

 

 

 

 

 

 

 

 

i

 

 

1+ b + nb

 

 

 

 

 

 

 

 

 

 

 

которые

приводили бы к

равновесному

объему

выпуска

Q(xN) =

 

 

 

na

и равновесной

цене P(xN) =

a(1+ b)

. Точке

 

1+ b + nb

 

1+ b + nb

Парето, максимизирующей сумму целевых функций агентов, соот- ветствуют действия:

(3) xP =

 

 

a

, i N,

 

 

 

i

1

+ 2nb

 

 

 

376

которые приводят к эффективному объему выпуска Q(xP) =

na

1+ 2nb

 

и

эффективной

цене

P(xP) =

a(1+ nb)

.

При

этом

1+ 2nb

f(xP) =

a2

³ f(xN) =

 

a2 (1+ 2b)

, то есть выигрыш каждого

2(1+ 2nb)

2(1+ b + nb)2

агента в точке Парето не меньше, чем в точке Нэша.

 

 

 

γ t

Рассмотрим

числовой

пример.

Пусть n = 10,

a = 2.1,

b = 0.1,

= 0.5. Тогда

xN

= 1, Q(xN) = 10,

P(xN) = 1.1, xP

= 0.7, Q(xP) = 7,

i

 

 

i

 

 

 

 

 

i

 

 

 

P(xP) = 1.4, f(xP) = 0.735 > f(xN) = 0.6.

Проанализируем динамику коллективного поведения. Пусть фиксирован вектор x0 начальных объемов производства. В соответ- ствии с выражением (4) изменение во времени действий, выбирае- мых агентами, будет описываться следующим выражением:

a båxtj-1

(4)xit = xit-1 + γit [ +j¹i xit-1 ], i Î N, t = 1, 2, … .

12b

Всоответствии с выражением (4) действия агентов будут схо- диться к равновесию Нэша.

Перейдем теперь к рефлексивному случаю. При заданном век- торе начальных действий x0 агенты нулевого ранга рефлексии выбе-

рут действия

(5)xi = A + B xi0 , i Î N0,

где A =

a bQ(x0 )

, B =

 

b

. Агенты первого ранга рефлексии

1+ 2b

1

+ 2b

 

 

 

 

 

выберут действия

 

 

 

 

 

(6) x1j

= A1 + B2 x0j , j Î N1,

 

 

 

 

где А1

=

a(1+ 3b) − bna + b2Q(x0 )(n − 2)

.

 

(1+ 2b)2

 

 

 

 

 

 

Пусть в рассматриваемом числовом примере все начальные дей- ствия агентов одинаковы: xi0 = 0.5, i Î N. Тогда xi = 31/24 = 1.291(6),

x1j = 103.5/144 = 0.71875, что гораздо ближе к Парето-эффективным действиям. Варьируя число агентов первого уровня, можно менять

377

сумму действий агентов от 7.2 до 12.9. Этому диапазону при- надлежат равновесные по Нэшу действия, но не принадлежит точка

Парето. То есть при векторе начальных действий xi0 = 0.5, i N,

наличия агентов первого ранга рефлексии недостаточно для реали- зации за счет рефлексивного управления Парето-оптимальной точки. Но вполне достаточно для реализации соответствующего равнове- сию Нэша суммарного объема производства для этого доля реф- лексирующих агентов первого уровня должна быть около 49 %.

Возможность реализации точки Парето зависит от вектора на- чальных действий: например, первый ранг рефлексии является мак- симальным целесообразным для реализации точки Парето при век-

торе начальных действий xi0 = 0.2, i N. Тогда xi = 1.5, x1j = 0.55, и

при доле агентов первого ранга рефлексии, равной примерно 84 %, на рынке установится эффективная цена P(xP). Однако такая ситуа- ция не будет стабильной (см. условия стабильности в разделе 3.4).

Если все начальные действия агентов одинаковы, то рефлексив-

ное разбиение задается лишь числом агентов с соответствующим рангом рефлексии, поэтому, опуская индексы, соответствующие номерам агентов, можно записать, что агенты второго ранга рефлек-

сии выберут действия

(7) x2 =

1

 

[a b n0 x b (n n0 – 1) x1].

 

 

 

 

 

1+ 2b

 

 

 

 

Итого, получаем, что в зависимости от рефлексивного разбие-

ния реализуется суммарное действие

 

 

 

 

(28) Q(n1, n2) = (n n1 n2) x + n1 x1 + n2 x2 =

 

 

 

 

=

1

 

[(a b (n –1) x0) (n n1 n2) +

 

 

1

[a (1 + 3 b) –

1+ 2b

1

+ 2b

 

 

 

n a b + b2 x0 (n – 1)2] n1 + 1+12b [a b n0 (n n1 n2)x] n2].

Исследуем зависимость объёма выпуска Q(n1, n2) от числа реф- лексирующих агентов первого и второго ранга и зададимся вопро- сом, при каких значениях (n1, n2) суммарный объем выпуска соответ- ствует равновесному по Нэшу, то есть когда выполняется Q(n1, n2) = Q(xN) в зависимости от начальных действий агентов x0.

Для рассматриваемого примера кривая АВ пересечения графика Q(n1, n2) и «нэшевской» плоскости Q = 10 приведена на Рис. 95.

378

Оказывается, что эта кривая не зависит от x0 её формула в плоско-

сти Q = 10: n = 1− n

 

 

 

n −1

 

.

(1

 

b

n)(

b

n −1)

1

2

 

+

 

 

 

 

b+1

2b+1

 

 

 

 

 

 

 

2

 

Рис. 95. Кривая АВ «реализует» равновесие Нэша

Из Рис. 95 видно, что введение даже только агентов первого ранга увеличивает суммарный объем производства.

Отметим, что с точки зрения «стабильности», если имеет место динамика, то если на первом шаге агенты попадают в точку Нэша, то и в дальнейшем ни один из них (ни нерефлексирующий, ни рефлек- сирующий) не имеют оснований для изменения своих действий.

Если же мы ищем такое число рефлексирующих агентов, чтобы объём производства был равен отличному от Q(xN) значению, на- пример объёму, соответствующему Парето-оптимальной ситуации, то кривая AB будет меняться в зависимости от x0. Оказывается что в рассматриваемом примере кривая пересечения Q(n1, n2) с любой плоскостью это кривая второго порядка.

Сформулируем теперь задачу следующим образом выбором

рефлексивного разбиения реализовать требуемый суммарный объем производства, например, равный 12 (больше Q(xN)). Предположим, что в начальный момент времени агенты не осуществляли производ- ства (x0 = 0). Достичь требуемого объёма можно см. Рис. 96.

Если x0 ≈ 0.305, то кривая AB касается плоскости n1 = 0 (точка С на Рис. 97), то есть, в этом случае можно только агентами нулевого и второго ранга рефлексии достичь требуемого суммарного объёма производства.

379

Рис. 96. «Реализация» требуемого суммарного объема производства

С

Рис. 97. «Реализация» требуемого суммарного объема производства в отсутствии агентов первого ранга (точка С)

Таким образом, в модели олигополии Курно введение рефлек- сирующих агентов позволяет увеличить суммарный объем произ- водства и/или реализовать его Парето-эффективное значение.

4.26.4. Задача о консенсусе

Содержательная интерпретация «задачи о консенсусе» следую- щая: действиям агентов соответствуют их положения на прямой

380