Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Управление и оптимизация / Novikov - Refleksiya i upravleniye 2013

.pdf
Скачиваний:
59
Добавлен:
02.09.2019
Размер:
3.17 Mб
Скачать

информированности агентов. В рамках данной работы остановимся на трех из них. Рассмотрим i-го и j-го агентов в мире ω.

Одинаковая информированность агентов. Будем называть агентов одинаково информированными, если совпадают множества миров, которые они считают возможными: η(ωi) = η(ωj).

Адекватная информированность одного агента о другом. У i-

го агента существует множество миров, которые он считает возмож- ными; в каждом из этих миров существует свой экземпляр j-го аген- та. Эти экземпляры могут совпадать либо не совпадать друг с другом и с j-м агентом. Будем говорить, что i-й агент адекватно информи- рован о j-м агенте, если такое совпадение имеет место:

ξ η(ωi) ξj = ωj.

Большая либо меньшая информированность одного агента по сравнению с другим. Понятно, что наиболее информированным (в данном мире) агентом является тот, для которого единственным возможным миром является данный если такой агент существует.

В более сложных случаях не всегда можно сравнивать агентов по критерию их большей информированности. Однако естественно считать, что i-й агент более информирован, чем j-й агент, если вы- полнены следующие два условия: ω η(ωi) (i-й агент считает воз- можным мир, в который входит); η(ωi) η(ωj) (множество возмож- ных миров j-го агента шире, т. е. больше неопределенность).

Информационное равновесие. Если наряду со структурой ин-

формированности (характеризующей информированность агентов) заданы целевые функции (характеризующие интересы агентов) и их возможные действия, то можно задаться традиционным для теории игр (см. выше) вопросом: какие действия выберут агенты?

Пусть θ Θ – состояние природы, а xi Xi, – действие, выбирае- мое i-м агентом. Действия выбираются агентами одновременно и независимо, т. е. рассматривается игра в нормальной форме. Пусть, далее, fi (θ, x1 ,..., xn ) , i N, – целевые функции агентов и структу-

ра информированности является правильной32.

Тогда назовем информационным равновесием набор функций

χi: Ai Xi, i N,

32 Если структура не является правильной, то существует агент, который не считает возможным ни один из миров. Моделирование действий такого агента выходит за рамки данной работы.

141

таких, что

χi (ai ) Argmax min fi 0 , χ11),...,χi−1i−1), x, χi+1i+1)...,χn n )).

x Xi ω η (ai )

Это означает, что каждый агент максимизирует свой наихудший результат во всех мирах, которые он считает возможными.

Отметим, что это определение информационного равновесия является обобщением информационного равновесия в случае точеч- ной структуры информированности (см. раздел 2.3).

Для иллюстрации понятия информационного равновесия вновь обратимся к задаче. В ней у каждого из агентов существует возмож- ность либо назвать задуманные числа, либо сказать «не знаю» (что будем обозначать прочерком: {–}). Таким образом, множества воз-

можных действий обоих агентов имеет вид

X1 = X2 = Θ {–}, где Θ = {(a,b) | a {1,…,9}, b {1,…,9}}.

Целевые функции агентов (в данном случае они совпадают) оп- ределим следующим образом (здесь i = 1, 2):

ì1, если (x1 = x2 =θ) или (x1 =θ, x2 = {-}) или (x1 ={-}, x2 =θ); fi (θ, x1,x2) =ïí0, если x1 = x2 ={-};

ïî-1, в остальных случаях.

Иными словами, агенты получают выигрыш 1 в случае, если хо- тя бы один из них верно назвал задуманные числа, а второй при этом не ошибся. Если оба сказали «не знаю», то каждый получает выиг- рыш 0. Если хотя бы один агент неверно назвал задуманные числа, оба получают выигрыш –1.

Тогда информационное равновесие имеет следующий вид: агент сообщает пару чисел в том и только том случае, когда он считает возможным ровно один мир (т. е. точно знает, какая пара чисел задумана). В противном случае он говорит «не знаю».

Перейдем теперь к описанию трансформации структур инфор- мированности.

2.14. ТРАНСФОРМАЦИЯ СТРУКТУР ИНФОРМИРОВАННОСТИ

Структура информированности представляет собой своего рода «моментальный снимок» взаимной информированности агентов.

142

Ясно, что с течением времени информированность может меняться.

Выше описаны модели изменения структуры информированности под влиянием сообщений (см. раздел 2.12), либо наблюдения аген- тами тех или иных результатов игры. Однако в этих моделях допус-

калась возможность достаточно радикального отказа агентов от имеющейся информированности в пользу новой. По сути, агенты

при этом предполагались в большой степени забывчивыми либо неуверенными в своей информированности.

В данном разделе мы опишем трансформацию структуры ин- формированности игры вследствие наблюдения агентами ее резуль- татов. При этом считается, что сохраняется вся имеющаяся у агентов информированность, не противоречащая новым наблюдениям. На- помним, что мы рассматриваем игру в нормальной форме, т. е. ходы выбираются агентами одновременно и независимо. При этом если в результате игры информированность агентов меняется, то каждую следующую игру (если она состоится) агенты разыграют с новой информированностью независимо от предыдущих и последующих.

Пусть у i-го реального агента имеется являющаяся общим зна- нием функция наблюдения wi = wi (θ , x1,..., xn ) (подробнее о функции наблюдения в точечном случае см. в разделах 2.7 и 2.13). Смысл ее следующий: если в мире, в который входит агент33 ai Ai, имеет место состояние природы θ и агенты выбрали действия (x1 ,..., xn ) ,

то агент ai наблюдает значение wi Wi, где Wi множество возмож- ных наблюдений экземпляров i-го агента.

Суть трансформации структуры информированности состоит (вкратце) в следующем: для каждого агента a A (как реального, так и фантомного), модифицируется множество миров η(a), которые он считает возможными. Модификация состоит в том, что исключаются те миры, для которых значение функции наблюдения принимает значение, отличное от наблюдаемого агентом. При этом может оказаться, что агенту поступают разные «сигналы» (разные значения функции наблюдения) из разных миров. В этом случае агент «исче- зает», и вместо него «возникает» несколько агентов, каждый со своей информированностью (см. Рис. 35, в прямоугольниках приве- дены значения функции наблюдения).

33 Напомним, что в каждый мир входит ровно один экземпляр i-го агента, i N.

143

 

 

wi1

 

 

 

 

wi2

 

 

wi1

 

 

 

wi2

 

 

 

 

 

 

 

 

 

 

 

 

ai1

 

 

 

ai2

 

 

 

 

 

ai

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

wi1

 

 

wi2

 

 

wi2

 

wi1

 

wi2

 

 

wi2

Рис. 35. При трансформации структуры информированности

количество агентов может меняться

Теперь опишем правило трансформации структуры информиро- ванности подробнее в предположении, что существует единствен- ное информационное равновесие χ, в результате реализации которо-

го функция наблюдения каждого агента принимает определенное значение в каждом мире ω: wi = wi 0 , χ11),..., χn n ) .

Тогда значение функции наблюдения зависит лишь от мира ω,

т. е. wi = wi(ω).

Пусть имеется агент ai Ai, i N. Опишем процедуру трансфор- мации его информированности. Будем использовать обозначение

Η(ai ) = {ω Ω | ωi = ai }

для множества миров, в которые входит агент ai. Далее, обозначим за M = M (ai) количество попарно-различных значений функции наблюдения wi на мирах из множества H, а сами эти значения обо-

значим wi1 , wi2 ,..., wiM .

Тогда в результате трансформации вместо агента ai образуется (т. е. добавляется во множество Ai) M агентов, обозначим их

ai1 , ai2 ,..., aiM , причем связи этих агентов с мирами задаются сле- дующими двумя соотношениями для каждого k {1, …, M}:

Η(aik ) := {ω Η(ai ) | wi (ω) = wik };

144

η(aki ) := {ω η(ai ) | wi (ω) = wik }.

Агент ai при этом удаляется из множества Ai.

После того, как вышеописанная процедура проведена для всех агентов a A, из множеств Ω и A удаляются все миры и агенты, не связанные с реальным миром. Это завершает изменение структуры

информированности в результате наблюдения агентами результатов взаимодействия.

Для регулярных структур информированности множества H (ai)

иη (ai) совпадают, поэтому совпадают и множества Η(ak ) и η(ak ) .

ii

Отсюда вытекает, что при трансформации свойство регулярности структуры информированности сохраняется, т. е. регулярная струк- тура трансформируется в регулярную структуру (см. Рис. 36).

Обратимся к задаче (см. раздел 2.13) и рассмотрим продолже- ние примера 2.13.1 (см. Рис. 33). Функции наблюдения обоих аген- тов таковы: агент узнает сообщение оппонента и свой выигрыш. Как было показано выше, агент называет конкретную пару чисел лишь тогда, когда точно знает ее (т. е. лишь один мир считает возмож- ным). Поэтому после первого вопроса и ответов структура инфор- мированности примет вид на Рис. 37 – удалены миры, в которых один из агентов называл конкретную пару чисел. Видно, что теперь 1-й агент точно знает, какие числа задуманы.

wi1

 

wi1

 

 

 

 

 

 

 

ai1

 

ai2

 

ai

 

 

 

 

 

 

wi2

 

 

 

 

wi2

Рис. 36. При трансформации свойство регулярности

структуры информированности сохраняется

145

1

6,6

2

4,9

1

Рис. 37. После первого вопроса и ответов (задумана пара (6, 6))

Рассмотрим теперь продолжение примера 2.13.2 (см. Рис. 34). Здесь после первого вопроса и ответов структура информированно- сти примет вид на Рис. 38.

Как нетрудно убедиться, для достижения полной информиро-

ванности одного из агентов потребуется ровно семь вопросов и ответов см. Рис. 39.

Тем самым, мы ответили на вопрос задачи была задумана пара

(4, 4).

Строго говоря, для исчерпывающего ответа надо рассмотреть все возможные варианты задуманных пар чисел. Однако нетрудно убедиться, что лишь для одного из них – (4, 4) – ровно через семь вопросов и ответов достигается полная информированность.

2,8

2

4,4

1

2,6

3,8

2

4,6

1

1,9

 

2

1

 

 

 

2

 

3,4

 

 

 

 

 

2,9

 

 

 

3,3

1

1

 

 

 

 

 

2

 

 

 

1

2,2

1,6

3,6

1

1,8

2

2,4

2

2

1,4 1 2,3

Рис. 38. После первого вопроса и ответов (задумана пара (4, 4))

146

2,8

2

4,4

1

3,8 2 4,6 1 1,9

1

2

2,9

3,3

2

1

3,6 1 1,8 2 2,4

Рис. 39. После 7-го вопроса и ответов (задумана пара (4, 4))

В разделах 2.13.-2.14 рассмотрена структура информированно- сти агентов в рефлексивной игре и показано, как она меняется в результате наблюдения агентами результатов своих действий. Пер-

спективным направлением дальнейших исследований является моделирование изменения информированности в результате сооб- щений внешних по отношению к множеству агентов субъектов (в том числе с целью осуществления информационного управления), коммуникаций агентов между собой и пр.

Выше было показано, что свойство регулярности структуры ин- формированности при ее трансформации сохраняется. Представляет интерес исследование и других свойств структуры информированно- сти (а также информационного равновесия) и условий сохранения этих свойств при трансформации.

2.15. СОГЛАСОВАННОЕ ИНФОРМАЦИОННОЕ УПРАВЛЕНИЕ

Настоящий раздел посвящен модели согласованного информа- ционного управления, когда агенты осведомлены о факте осуществ- ления центром управления и, тем не менее, доверяют его сообщени-

147

ям. Выявлены условия, при которых такое управление существует, доказаны некоторые его свойства.

Выше задача информационного управления исследовалась в предположении, что управляющий орган центр может формиро- вать у агентов любую структуру информированности (из заданного класса структур). Наиболее простым случаем выполнения этого предположения является полное доверие агента центру, т. е. приня- тие всех сообщений центра в качестве истинных (см. обзоры проце- дур принятия решений на основе сообщаемой информации в [16, 97, 142, 257]). Управление в такой ситуации назовем несогласованным информационным управлением управление осуществляется, однако агент его не осознает, т. е. не осознает тот факт, что центр сообщает ту или иную информацию в собственных интересах.

Ниже описывается модель согласованного информационного управления, когда агенты осведомлены о факте осуществления цен- тром управления и, тем не менее, доверяют сообщениям центра [170]. Ясно, что для реализации такого типа информационного управления требуется выполнение достаточно специфических усло- вий (см. ниже).

Несогласованное информационное управление. В данном подразделе мы на примере рассмотрим простейшую схему несогла- сованного информационного управления.

Пример 2.15.1. Пусть имеется агент, целевая функция (функция

полезности) которого имеет следующий вид: f (θ , x) = θ x

x2

 

,

2

где θ – неопределенный параметр случайная величина, прини- мающая каждое значение из множества Θ = {1, 3, 7} с одинаковой вероятностью 1/3; x [0; +) – действие, свободно выбираемое агентом. Одна из возможных экономических интерпретаций такова: агент является производителей некоторого товара, рыночная цена θ на который заранее не известна (является случайной величиной). Затраты агента на производство x единиц товара составляют x2 / 2. Тогда целевая функция f (θ, x) – это прибыль агента, математическое ожидание которой (обозначим это математическое ожидание через Eθ f (θ, x)) он стремится максимизировать.

Поскольку функция f (θ, x) линейна по θ, для ее математическо- го ожидания справедливо следующее соотношение:

148

(1) Eθ f (θ , x) = Eθ × x - x2 , 2

где через E θ обозначено математическое ожидание случайной вели- чины θ. Находя максимум функции (1), агент может определить свое оптимальное действие: x* = Eθ = 13 ×1+ 13 ×3 + 13 × 7 = 113 .

Пусть теперь в ситуации присутствует также центр, осуществ- ляющий информационное управление, сообщая множество значений неопределенного параметра (считаем, что центр информирован о значении θ, а агент относится к сообщениям центра с полным дове- рием). Например, если центр сообщит агенту множество {1, 3} (т. е. значение θ = 7 является невозможным, а вероятности значений θ = 1 и θ = 3, пересчитанные по формуле Байеса, равны по 1/2), то агент рассчитает свое оптимальное действие по иному:

x* = 12 ×1+ 12 ×3 = 2 .

Рассматривая последовательно все возможные сообщения цен- тра, можно определить все действия агента, которые он выбирает в результате того или иного информационного управления см. Табл. 2.

Табл. 2. Сообщения центра и действия агента в примере 2.15.1

Сообщения центра

Действия агента

{1}

1

{3}

3

{7}

7

{1, 3}

2

{1, 7}

4

{3, 7}

5

{1, 3, 7}

11/3

Таким образом, центр может, путем надлежащего сообщения, добиться любого действия агента из множества {1, 2, 3, 11/3, 4, 5, 7}. Ясно, что центру следует выбрать такое сообщение, чтобы соответ- ствующее этому сообщению действие агента было наиболее выгод- ным для него.

149

Согласованное информационное управление. В данном раз-

деле мы рассмотрим менее выгодную для центра ситуацию, когда агент не принимает на веру любые сообщения центра. Ход мыслей такого «недоверчивого» агента примерно таков: «Центр своим со-

общением пытается добиться от меня соответствующего образа действия. Но это мое действие является выгодным для центра. Явля- ется ли оно также выгодным для меня

В этом случае для осуществления информационного управления требуется, чтобы оно учитывало интересы как центра, так и агента.

Для формализации этого требования введем в рассмотрение целевую функцию центра F(θ, x), зависящую от тех же величин θ (неопреде- ленный параметр случайная величина с известным распределени- ем) и x (действие агента). Сообщение центра будем обозначать s и считать, что оно принадлежит фиксированному множеству возмож- ных сообщений S.

Тогда стратегией центра управлением является выбор сооб- щения в зависимости от известного ему состояния природы, т. е. выбор функции s(θ). Стратегией же агента является выбор действия x в зависимости от сообщения центра, т. е. выбор функции x(s).

Формализуем порядок взаимодействия центра и агента (множе- ство Q и вероятностное распределение на нем считаем общеизвест- ными).

Шаг 1. Центр сообщает агенту функцию s(θ): Q ® S. Шаг 2. Центр узнает истинное значение θ.

Шаг 3. Центр сообщает значение s Î S. Шаг 4. Агент выбирает действие x = x(s).

Заметим, что сообщения центра интересуют агента лишь по- стольку, поскольку он может уточнить множество значений неопре- деленного параметра θ, т. е. агента, получившего на шаге 3 сообще- ние s, интересует лишь множество Î Q | s(θ) = s}. Поэтому можно считать, не ограничивая общности, что на шаге 1 центр сообщает агенту некоторое разбиение множества Q. Множество Q будем пока считать конечным, тогда разбиение имеет вид S = {Q1, …, Qm}, где

Q1ÈÈ Qm = Q, Qi ¹ Æ, i Î M Î {1,…, m}, Qi Ç Qj = Æ при i ¹ j.

Множества Qi будем называть частями разбиения S.

На шаге 3 центр сообщает агенту одно из множеств Qi Î S, i Î {1,…, m}. Если агент, получив сообщение центра Qi Ì Q, доверя- ет этому сообщению, то его оптимальное действие максимизирует

150