Управление и оптимизация / Novikov - Refleksiya i upravleniye 2013
.pdfтегической рефлексии соответствуют предположения агента о том, что оппонент будет вычислять то или иное конкретное, например субъективное гарантирующее, равновесие, а информационной реф- лексии – какие конкретные предположения об обстановке будет использовать оппонент.
Рассмотрим известные на сегодняшний день11 подходы к описа- нию иерархии представлений и общего знания.
Как отмечается в [185, 187, 220], различают два подхода к опи-
санию информированности – синтаксический и семантический
(напомним, что «синтактика – синтаксис знаковых систем, то есть структура сочетания знаков и правил их образования и преобразова- ния безотносительно к их значениям и функциям знаковых систем», «семантика – изучает знаковые систем как средства выражения смысла, основной ее предмет представляют интерпретации знаков и знакосочетаний» [157, с. 601]). Основы этих подходов были заложе- ны в математической логике [222, 227].
При синтаксическом подходе иерархия представлений описыва- ется в явном виде. Если представления задаются распределением вероятностей, то иерархии представлений на некотором уровне
иерархии соответствуют распределения на произведении множества состояний природы и распределений, отражающих представления предыдущих уровней [238]. Альтернативой является использование «формул» (в логическом смысле), то есть правил преобразования
элементов исходного множества на основе применения логических операций и операторов вида «игрок i считает, что вероятность собы- тия … не меньше α» [220, 268]. При этом знание моделируется предложениями (формулами), конструируемыми в соответствии с определенными синтаксическими правилами.
В рамках семантического подхода представления агентов зада- ются распределениями вероятностей на множестве состояний при- роды. Иерархия представлений при этом порождается исходя только из этих распределений. В простейшем детерминированном случае знание представляется множеством Θ возможных значений неопре-
11 Следует отметить, что иерархии представлений и общее знание стали предметом исследований в теории игр совсем недавно – пионерскими являются упомянутые выше книга D. Lewis (1969) и статья R. Aumann (1976). Анализ хронологии публи- каций (см. библиографию) свидетельствует о растущем интересе к этой проблемной области.
41
деленного параметра и разбиениями {Ρi}i N этого множества. Эле- мент разбиения Ρi, включающий θ Θ, представляет собой знание i- го агента – множество значений неопределенного параметра, нераз- личимых с его точки зрения при известном факте θ [184, 187].
Соответствие (условно говоря, «эквивалентность») между син- таксическим и семантическими подходами установлено в [185, 256 и
др.].
Особо следует отметить экспериментальные исследования ие- рархий представлений в [194, 244, 259 и др.] – см. обзор в [266] и ссылки в разделе 3.4.
Проведенный краткий обзор свидетельствует, что существуют две «крайности». Первая «крайность» – общее знание (заслугой Дж. Харшаньи [219] является то, что он свел всю информацию об агенте, влияющую на его поведение, к единственной его характери- стике – типу – и построил равновесие (Байеса-Нэша) в рамках гипо- тезы о том, что распределение вероятностей типов является общим знанием). Вторая «крайность» – бесконечная иерархия согласован- ных или несогласованных представлений. Примером последней служит конструкция, приведенная в [238], которая, с одной стороны,
описывает все возможные Баейсовы игры и все возможные иерархии представлений, а, с другой стороны, (в силу своей общности) на- столько громоздка, что не позволяет конструктивно ставить и ре- шать конкретные задачи.
Большинство исследований информированности посвящено от- вету на вопрос, в каких случаях иерархия представлений агентов описывает общее знание и/или адекватно отражает информирован- ность агентов [192, 208 и др.]. Зависимость решения игры от конеч-
ной иерархии согласованных или несогласованных представлений агентов (то есть весь диапазон между двумя отмеченными выше «крайностями») практически не исследовалась. Исключения состав- ляют, во-первых, работа [253], в которой равновесия Байеса–Нэша для трехуровневых иерархий несогласованных вероятностных пред- ставлений двух агентов строились в предположении, что на нижнем уровне иерархии представления совпадают с представлениями пре- дыдущего уровня – см. также предположения типа Пm и соответст- вующие равновесия в [117]. Во-вторых – вторая глава настоящей работы, в которой описываются произвольные (конечные или беско- нечные, согласованные или несогласованные) иерархии «точечных»
42
представлений, для которых строится и исследуется информацион- ное равновесие – равновесие рефлексивной игры (возможность и
целесообразность обобщения полученных результатов на случай интервальных или вероятностных представлений агентов обсужда- ется в заключении).
Таким образом, актуальным является как исследование страте- гической рефлексии (глава 3 настоящей работы), так и построение решения рефлексивной игры, и изучение его зависимости от иерар- хии представлений агентов (глава 2 настоящей работы).
Информационная и стратегическая рефлексия. Традиционно в теоретико-игровых моделях и/или в моделях принятия коллектив-
ных решений используется одно из двух предположений о взаимной информированности агентов [109]. Либо считается, что вся сущест-
венная информация и принципы принятия агентами решений всем им известны, всем известно, что всем это известно и т. д. до беско- нечности (так называемая концепция общего знания, используемая, например, при определении равновесия Нэша). Либо предполагает- ся, что каждый агент в рамках своей информированности следует
некоторой процедуре принятия индивидуальных решений и почти «не задумывается» над тем, что знают и как ведут себя остальные агенты. Первый подход является каноническим для теории игр, второй – для моделей коллективного поведения (см., например, [27, 90, 123]). Но между двумя этими «крайностями» существует доста- точно большое разнообразие возможных ситуаций. Предположим,
что некоторый агент в условиях общего знания о существенных внешних параметрах (информационная рефлексия отсутствует) осуществил акт стратегической рефлексии – попытался спрогнози- ровать поведение (не информированность, но и принципы принятия решений) других агентов и выбирает свои действия с учетом этого прогноза (будем считать, что такой агент обладает первым рангом рефлексии). Другой агент (обладающий вторым рангом рефлексии) может знать о существовании агентов первого ранга и прогнозиро- вать их поведение. И так далее. Возникает ряд вопросов: «Как пове-
дение коллектива агентов зависит от их распределения по рангам рефлексии, т. е. от того, сколько в коллективе имеется агентов того или иного ранга? Если долями рефлексирующих агентов можно управлять, то каковы эти доли, оптимальные с точки зрения того или
43
иного критерия эффективности, определенного на множестве дейст- вий агентов?»
В «классических» теоретико-игровых моделях предполагается,
что в игре в нормальной форме агенты выберут равновесные по Нэшу действия. Однако исследования в области экспериментальной экономики12 (experimental economics) свидетельствуют, что это дале-
ко не всегда так (см., например, [263] и обзор [269]). Возможных объяснений отличиям поведения, наблюдаемого в экспериментах, от предсказанного теорией, может быть несколько:
–ограниченность когнитивных возможностей агентов – см. раз- дел 3.3 и [56, 132] (вычисление, тем более децентрализованное, равновесия Нэша трудоемко [247]). Следует также подчеркнуть, что
Равновесие Нэша не всегда адекватно описывает реальное поведение агентов в лабораторных экспериментальных одношаговых играх, в том числе потому, что агенты не успевают «исправить» свои непра- вильные представления о существенных параметрах игры [189] – например, концепция рационализуемых стратегий Д. Бернхейма требует от агентов неограниченной рациональности (высоких когни- тивных возможностей);
–необходимость уверенности каждого агента в том, что все его оппоненты могут вычислить равновесие Нэша и сделают это;
–неполная информированность;
–наличие нескольких равновесий.
Таким образом, существуют как минимум два основания (опи- санных выше – «теоретическое» и «экспериментальное») для рас- смотрения моделей коллективного поведения агентов, обладающих различными рангами рефлексии.
Коллективное поведение. В отличие от теории игр теория кол-
лективного (группового) поведения занимается исследованием дина-
мики поведения рациональных агентов при достаточно слабых предположениях относительно их информированности. Так, напри- мер, не всегда требуется наличие среди агентов общего знания отно- сительно множества агентов, множеств допустимых действий и целевых функций оппонентов. Или считается, что агенты не пред- сказывают поведение всех оппонентов, как это имеет место в теории
12 В России сегодня существуют несколько лабораторий экспериментальной эконо- мики в вузах и академических институтах, например: МФТИ-ВЦ РАН, ГУ ВШЭ, РЭШ, ЦЭМИ РАН.
44
игр (см. выше). Более того, зачастую агенты, принимая решения, могут «не знать о существовании» некоторых других агентов или иметь о них агрегированную информацию.
Наиболее распространенной моделью динамики коллективного поведения является модель индикаторного поведения [6, 90, 123],
суть которой заключается в следующем. Предположим, что каждый агент в момент времени t наблюдает действия всех агентов { xit−1 }i N, выбранные ими в предыдущий момент времени t – 1, t = 1, 2, … (начальный вектор действий x0 = ( x10 , …, xn0 ) считается заданным).
Каждый агент может рассчитать свое текущее положение цели
– такое его действие, которое максимизировало бы его целевую функцию при условии, что в текущем периоде все агенты выбрали бы те же действия, что и в предыдущем:
(1) wi( xt−1 ) = arg max Fi(y, xt−1 ), t = 1, 2, … , i N. |
||
−i |
y 1 |
−i |
В рамках гипотезы индикаторного поведения каждый агент в каждый момент времени будет делать «шаг» от своего предыдущего действия к текущему положению цели:
(2) xit = xit−1 + γit [wi( x−t−i1 ) – xit−1 ], i N, t = 1, 2, … ,
где γit [0; 1] – «величины шагов». Такое коллективное поведение можно условно назвать «оптимизационным», подчеркивая тем са- мым его отличие от игрового. Очевидно, что если γit ≡ 0, то динами-
ка отсутствует; если γit ≡ 1, то каждый агент на каждом шаге выби-
рает свой наилучший ответ (см. (1.2.1)), однако в последнем случае соответствующая динамика может быть неустойчивой. Условия сходимости процедуры (2), области притяжения равновесий, условия
на величины шагов {γit }, обеспечивающие сходимость, и т. д. мож-
но найти в [6, 90].
Подходы теории коллективного поведения и теории игр согла- сованы в том смысле, что и та, и другая исследуют поведение рацио- нальных агентов (ср. (1.2.1) и (2)), а равновесия игры, как правило,
являются и равновесиями динамических процедур коллективного поведения (например, равновесие Нэша (1.2.2) является равновесием динамики (2) коллективного поведения).
45
Для полноты картины отметим, что в теории коллективного по- ведения существует и другой (выходящий за рамки настоящей рабо- ты) подход – эволюционная теория игр [267], которая исследует «поведение больших однородных групп (популяций) индивидуумов в типичных повторяющихся конфликтных ситуациях, причем каж- дую стратегию применяет множество игроков, а функция выигрыша характеризует успех отдельных стратегий, а не отдельных участни- ков взаимодействия» [27, с. 296]. Русскоязычный обзор базовых результатов теории эволюционных игр можно найти в [27].
Таким образом, теория игр зачастую использует, условно гово- ря, максимальные предположения об информированности агентов (например, гипотезу о существовании общего знания), а теория коллективного поведения – минимальные. Промежуточное место занимают рефлексивные модели, поэтому перейдем к обсуждению роли рефлексии – информационной и стратегической – в принятии агентами решений.
Рефлексия в теории игр и моделях коллективного поведения: структура предметной области. Теория игр и теория коллек-
тивного поведения изучают модели взаимодействия рациональных агентов. Подходы и результаты этих теорий можно рассматривать с
точки зрения трех взаимосвязанных гносеологических уровней (соответствующих различным функциям моделирования [102]) – см. Рис. 6:
–феноменологического уровня, на котором модель строится с целью описать и/или объяснить поведение исследуемой системы (коллектива агентов);
–прогностического уровня (цель – прогноз поведения иссле- дуемой системы);
–нормативного уровня (цель – обеспечение требуемого поведе- ния системы).
Для теории игр традиционной является схема, когда сначала описывается «модель игры» (феноменологический уровень); затем выбирается концепция равновесия, определяющая, что понимается под устойчивым исходом игры (прогностический уровень); после чего может формулироваться та или иная задача управления – выбо- ра значений управляемых «параметров игры», приводящих к реали- зации требуемого равновесия (нормативный уровень) – см. Рис. 6.
46
Уровень |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Модели |
|
||||
|
Модели |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
|
|
коллективного |
|
|
|
|
|
|
Теория игр |
|
|
|
|
|
|
|
|
|
|
|
|
|
рефлексивного |
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
принятия решений |
|
|
|
||||||||
|
|
|
поведения |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
МОДЕЛИ |
|
|
|
Информационная |
|
|
|
|
|
Стратегическая |
||||||||||||
Феноменологический |
|
ИНФОРМАЦИОННОЙ |
|
рефлексия |
|
|
|
|
|
рефлексия |
|||||||||||||||||||||||
|
|
|
|
РЕФЛЕКСИИ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
(дескриптивный) |
|
|
|
|
|
|
|
|
|
Структуры |
|
|
|
|
|
|
|
|
|
|
|
|
|
МОДЕЛИ |
|||||||||
|
|
|
|
|
|
|
|
|
|
|
информированности |
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
(глава 2) |
|
|
|
|
|
|
|
|
|
|
СТРАТЕГИЧЕСКОЙ РЕФЛЕКСИИ |
|||||||||||
|
|
|
Рефлексивные |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рефлексивные структуры |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||
|
|
|
структуры (глава 3) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
k-уровневые |
|
Модели |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
модели; |
|
|
|
|||
|
|
«Оптимизационные» |
|
|
|
|
Концепции равновесия |
|
|
|
|
|
|
рефлексии в |
|
|
|||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
модели |
|
|
|
|||||||||||||||||||
|
|
модели коллективного |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
биматричных |
|
|
|||||||
|
|
|
поведения |
|
|
|
Информационное |
|
Рефлексив- |
|
|
|
|
|
|
когнитивных |
|
играх |
|
|
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
равновесие |
|
|
|
ное |
|
|
|
|
|
|
иерархий и др. |
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
(Раздел 2.3) |
|
равновесие |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
Прогностический |
|
|
|
|
|
|
|
|
|
|
|
|
|
(раздел 3.4) |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
Равновесие |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
Нэша |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
Задачи управления |
|
|
|
|
|
|
|
|
|
|
||||||||||||
Нормативный |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Информационное |
|
|
|
|
|
Рефлексивное |
|
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||||
|
|
|
|
|
|
|
|
управление |
|
|
|
|
|
управление |
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рис. 6. Дескриптивные и нормативные модели информационной и стратегической рефлексии
Учет информационной рефлексии приводит к необходимости построения и анализа структур информированности, что в итоге дает возможность определить информационное равновесие и в дальней- шем ставить и решать задачи информационного управления – см. Рис. 6.
Учет стратегической рефлексии приводит к аналогичной цепоч- ке, выделенной на Рис. 6 жирными линиями: «модели стратегиче- ской рефлексии» – «рефлексивная структура» – «рефлексивное равновесие» – «рефлексивное управление».
Сравнение подходов к моделированию информационной и стра- тегической рефлексии проводится в Табл. 1.
Табл. 1. Сравнение подходов к моделированию
информационной и стратегической рефлексии
ПАРАМЕТР |
Информационная |
Стратегическая |
|
рефлексия (глава 2) |
рефлексия (глава 3) |
||
|
|||
Модель «игры» |
Структура |
Рефлексивная |
|
информированности |
структура |
||
|
|||
Равновесие |
Информационное |
Рефлексивное |
|
равновесие |
равновесие |
||
|
|||
Управление |
Информационное |
Рефлексивное |
|
управление |
управление |
||
|
Обсудив общие подходы к описанию информационной и стра- тегической рефлексии, перейдем к систематическому изложению соответствующих результатов: вторая глава посвящена информаци- онной рефлексии и информационному управлению, третья – страте- гической рефлексии и рефлексивному управлению (см. Табл. 1).
48
ГЛАВА 2. ИНФОРМАЦИОННАЯ РЕФЛЕКСИЯ И УПРАВЛЕНИЕ
Целью данной главы является определение информационного равновесия и исследование его свойств. Для этого сначала описыва- ется информационная рефлексия в играх двух лиц (раздел 2.1), затем (в разделе 2.2) приводится общая модель – описывается структура информированности, на основании которой принимаются решения участниками рефлексивной игры; определяется понятие сложности структуры информированности. В разделе 2.3 в качестве концепции
решения рефлексивной игры вводится понятие информационного равновесия, в разделе 2.4 описывается граф рефлексивной игры, с помощью которого исследуются свойства информационного равно- весия. В разделе 2.5 определяются регулярные структуры информи- рованности и приводятся достаточные условия существования ин- формационного равновесия. Раздел 2.6 посвящен исследованию влияния рангов рефлексии на выигрыши агентов, а также изучению зависимости между структурой информированности и информаци- онным равновесием. Разделы 2.7-2.9 посвящены исследованию стабильности информационного равновесия, разделы 2.11-2.15 – моделированию информационных воздействий, а также постановкам
задач информационного управления и исследованию его свойств (согласованность и др.). Заключительный раздел второй главы (раз- дел 2.16) содержит результаты исследования эффектов рефлексии в механизмах планирования.
2.1. ИНФОРМАЦИОННАЯ РЕФЛЕКСИЯ В ИГРАХ ДВУХ ЛИЦ
Настоящий раздел содержит качественное обсуждение иерархии представлений и информационной рефлексии двух агентов и являет- ся вводным для общей модели, рассматриваемой в разделе 2.2.
Как отмечалось выше, предположение о том, что значение со- стояния природы – общее знание, является «предельным», то есть требующим от агентов бесконечной рефлексии, и ему в соответствие может быть поставлено классическое равновесие Нэша. Однако информированность агентов может быть другой, поэтому рассмот- рим возможные случаи.
49
Примем следующие обозначения (см. также [117]): θi – инфор- мация (представления) i-го агента о состоянии природы, θij – инфор- мация i-го агента об информации j-го агента о состоянии природы,
i ¹ j, θiji – информация i-го агента об информации j-го агента об информации i-го агента о состоянии природы13, и т.д., i, j = 1, 2.
Будем считать, что при принятии решений каждый агент считает истинной «свою» информацию о состоянии природы14 (см. принцип доверия в [117]).
Таким образом, информированностью i-го агента будем назы-
вать Ii = (θi, θij, θijk, …), то есть всю имеющуюся на момент принятия им решений информацию (иерархию его представлений, в которой
уровни определяются длиной последовательности индексов в записи компонентов информированности). Совокупность I1 и I2 назовем
информационной структурой рефлексивной игры двух агентов (модель информационной структуры рефлексивной игры произволь- ного конечного числа агентов приведена в следующем разделе).
Длина максимальной последовательности индексов характеризует
(на единицу превышает) ранг рефлексии агента.
В терминах рефлексивных многочленов В.А. Лефевра [78] еди-
ничной длине последовательности индексов соответствует ситуация, в которой i-ый агент, во-первых, «видит» только плацдарм T, в роли которого в рассматриваемой системе выступает множество возмож- ных значений состояния природы. Во-вторых, у агента имеется информация о конкретном значении состояния природы – агент имеет свое представление о плацдарме: T + Ti, но рефлексия при этом по-прежнему отсутствует (ранг рефлексии равен нулю).
Максимальная длина последовательности индексов, равная двум, соответствует единичному рангу рефлексии, когда агент имеет информацию о представлениях других агентов (и, в том числе, быть может, о своих собственных представлениях – в этом случае говорят об авторефлексии Tii) о плацдарме: T + Ti + Tji, и т.д.15
13Отметим, что используемая система индексов (слева направо) является «обрат- ной» предложенной В.А. Лефевром (справа налево).
14Вопрос о том, как i-ый агент на основании информации, например, об θiji коррек- тирует свои представления θi о возможных значениях состояния природы, заслужи- вает отдельного исследования.
15Рефлексия начальных уровней также может интерпретироваться следующим образом. Предположим, что есть субъект, который воспринимает окружающий его мир. Можно выделить несколько уровней восприятия (уровней рефлексии). На
50