Добавил:

Ravochking Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Кузбасский государственный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Петросян_Теория_игр

.pdf

Скачиваний:

Добавлен:

19.09.2019

Размер:

6.14 Mб

Скачать

☆

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2829 / 3129 30 31 > Следующая >>>

для игрока Е:
ri=s„
s^fa-k^,	i=l,	2, \|\|„\|\|<1;			(8,7)
?.(0) = ??,А(0)=^?,г((0) = г?,
st	(0)=sl	i= 1, 2; а, 0,	fc£)	fc,>0.	(8.8)
Здесь q=(qi, q2) и r=(ri, r2)— местоположение на плоскости
игроков 1 и 2 соответственно; p=(pi,p2)us=(si,				s2) — их импульсы;

кр, кЕ — некоторые константы, интерпретируемые как коэффициен

ты трения.

Выигрыш игрока Е полагается равным

H(q(T),r(T))=\\q(T)-r(T)\\ =

=Vfo. (Г)-г, (T)]2 + [q2 (Т)-г2 (Г)]2.

В плоскости q=(qi, q2) множество достижимости С\ (q°, p°)

игрока Р из начальных состояний р (0)=р°, q (0)=q° за время Т представляет собой круг (см. упр. 18) радиуса

RP{T)=j^~kpT+kpT-\)
с центром в точке	Кр
a(q0,p0,T) =		q°+po1-^-.
		кр
Аналогично, множество	СЕ(Г°,	S°) представляет собой круг
радиуса

ЛИ7)=^(е"* £ Г +^Г - 1)

с центром в точке

1-е"**"

b(r°,S°, Т) = Г°+—

5°.

кв

Для величины priq0, P°> r°, s°), определяемой соотношением (5.1), в данной дифференциальной игре выполняется равенство

PT(q°,P°. r°. s°)= max

min \\q—r\\.

280

Отсюда (см. формулу (2.10)) имеем
Рт (Я, Р. г, 5)=шах {0, \\а (q, р, Т)-Ь (г, s, T)\\ -(Rp (T)-RE			(Г))} =
=max НЛ*-"'"^-"^-?-
	.!±^4t!_,t^±5t!V		(8.9)
• ( •	к2	к1
	а	Р
В частности, условий а>/?, — >— достаточно, чтобы для любых
	кр	kg

начальных состояний q, p, r, s нашлось отвечающее им Т, при котором рт (q, р, г, s)=0.

Функция рт (q, р, г, s) удовлетворяет дифференциально-экстре мальному уравнению (6.1) в области П = {(^, р, г, s, J):pT(q, p,

г, ^)>0}. Действительно, в области С1 существуют непрерывные частные производные

ЗГ* dqi 8pi дг-, Э«,-

Уравнение (6.1) принимает вид

Зр v (8?	,дР	8Р 1	дР 1	\
8Т ы\ \8*	5г<	дР'	8s'	J
-pm&x £ - «i-amin			£ — и,=0.		(8.11)
И<1	,„, Sst	\|u\|<i	(., dpi

Здесь экстремумы достигаются на управлениях ы, v, определяемых
следующими формулами:
«,= -	dPi	,,	(8.12)
	ару	/эру
	W \8pJ
	dp
v t = -		/=1,2.	(8.13)

VUi/ +UJ

281

Подставляя эти управления в (8.11), получим нелинейное уравнение в частных производных первого порядка

др	Л [dp	dp	dp	Зр	\
дТ	£[ \8qt	дп	dp,	dst	)

Вычисляя частные производные (8.10), убеждаемся, что функция Рт (Я> Р> r> •?) в области Q удовлетворяет уравнению (8.14).

Отметим, что величина рт(я°, Р°, r°, s°) является значением

дифференциальной игры (8.6)—(8.8), а управления, определяемые соотношениями (8.12), (8.13),'оптимальные в области Q.

Из формул (8.12), (8.13), (8.9) находим

Tj-qj+Si		р,
Ц,= ,	"*		К = ,		Щ=Щ, 1=1,2 . (8.15)
а ,	1-е	-к£Г	1-е	-крТ
а ,	1-е	•"	1-е	У у

В ситуации й, v направление действия силы каждого из игроков параллельно линии, соединяющей центры кругов достижимости (как это следует из формулы (8.15)), и остается постоянным, по скольку в этой ситуации центры кругов достижимости перемещают ся вдоль прямой линии.

§ 9. ИГРЫ ПРЕСЛЕДОВАНИЯ С ЗАДЕРЖКОЙ ИНФОРМАЦИИ У ПРЕСЛЕДОВАТЕЛЯ

9.1. Ранее в этой главе рассматривались конфликтные управля емые процессы, в которых каждый из участников (игроков) имел полную информацию, т. е. в каждый текущий момент игры Р (£) знал свое состояние х (t) [у (/)] и состояние противника у (/) [х (t)]. Были получены теоремы о существовании ситуаций е-равновесия в чистых стратегиях в таких играх и проиллюстрированы различные методы построения движения. Это оказалось возможным, посколь ку дифференциальные игры с полной информацией представляют собой предельный случай многошаговых игр с полной информаци ей, когда промежуток времени между двумя последовательными ходами стремится к нулю. Иначе обстоит дело с дифференциаль ными играми с неполной информацией, где применение смешанных стратегий играет существенную роль. Не останавливаясь на анализе всей проблемы, рассмотрим только случай игры преследования

282

с предписанной продолжительностью, терминальным выигрышем и задержкой поступления информации игроку Р о фазовом состоя нии игрока Е на время />0.

9.2. Пусть задано некоторое число />0, называемое временем задержки информации. При 0</</ преследователь Р в каждый момент времени t знает свое состояние х (;), время t и начальное местоположение у0 убегающего Е. При /<<<Г игрок Р в каждый

момент / знает свое состояние х (t), время t и состояние у (t — I) игрока Е в момент /—/. Игрок Е в каждый момент времени t знает свое состояние у (/), состояние противника х (/) и время t. Его выигрыш равен расстоянию между игроками в момент времени Т, выигрыш игрока Р равен выигрышу Е с обратным знаком (игра антагонистическая). Обозначим эту игру Г (х0, уо, Т).

Определение. Под кусочно-программной чистой стратегией v () игрока Е будем понимать пару {т, Ь), где т —разбиение отрезка времени [О, 7] конечным числом точек 0^ti<...<tk=T и Ь — отоб ражение, которое каждому состоянию х (tt), у (t,) tt ставит в соот ветствие отрезок измеримого программного управления v (<) игрока

Enpute[th	д о
определение. Под кусочно-программной чистой стратегией

и (•) игрока Р будем понимать пару {а, а}, где а — произвольное

разбиение отрезка	времени [0,	7] конечным числом точек
0^t\<t'li<...<t'1=T,	а — отображение, которое каждому состоя-
ннчо х(*1)> У {u~h> t't при /<f)		ставит в соответствие отрезок

измеримого программного управления и (/) игрока Р при te[t'u t'i+i). Для f',</ отображение а каждому состоянию х (/',), у0, t\ ставит

в соответствие отрезок измеримого управления и (/) игрока Р при

te[t'u 'i+i)-
Множества всех кусочно-программных чистых стратегий игро
ков Р и Е будем обозначать соответственно через Р и Е.
Уравнения движения имеют вид
x=f(x,u), usl/cR?,	xeR",
y=g (У. v), veVcR9,	yeR".	(9.1)

Полагаем выполненными все условия, обеспечивающие существова ние и единственность решения системы (9.1) для любой пары изме римых программных управлений и (i), v (i) при заданных начальных условиях Хо, Уо- Это гарантирует существование единственного ре шения системы (9.1) в случае использования игроками Р и Е кусоч но-программных стратегий 'и QeP, v ()еЕ при заданных началь ных условиях х0, Уо- Таким образом, в любой ситуации (ы (•), v (•))

при заданных начальных условиях х0, у0 функция выигрыша игрока

283

Е определяется однозначно
К (о, у и О, v ()) = р (х (7), у (7)),	(9.2)

где х (f), у (0 — решение системы (9.1) при начальных условиях х0, у0 в ситуации (м (•), v (•)), ар — евклидово расстояние.

9.3. Можно на простейших примерах показать, что в рассмат риваемой игре Г (х0, уй, Т) ситуации е-равновесия существуют не для

всех чисел е>0. Поэтому для построения ситуаций равновесия воспользуемся подходом, предложенным Ф. Нейманом и О. Моргенштерном для конечных позиционных игр с неполной информаци ей [47]. Расширим пространства стратегий игроков Р и Е до так

называемых смешанных кусочно-программных стратегий поведения

(СКПСП), которые предполагают возможность случайного выбора управления на каждом шаге.

Пример 6. Уравнения движения имеют вид

для Р\х=и,	\|\|и\|\|<а,
для E:y=v,	\|\|«Kl,	(9.3)
a>p>0,	x.yeR1,	u.veR2.

Выигрыш игрока Е равен р (х (7), у (7)), где х (t), у (t) — реше ние системы (9.3) при начальных условиях х (tQ)=x0, у (t0)=y0. Иг рок Р в течение игры знает лишь начальное состояние у0 против ника, а игрок Е имеет полную информацию о состоянии игрока

Р(1=Т).

Пусть v (х, у, t) — некоторая кусочно-программная стратегия игрока Е. Для каждой стратегии v существует стратегия и (х, t) игрока Р, использующая только информацию о начальном положе нии игрока Е, своем текущем положении и времени, прошедшем с момента начала игры, гарантирующая выигрыш р (х (7), у (7))<е для 7>р (jc0, у0)1(а—Р). Действительно, пусть и* (х, у, t) — страте гия игрока Р в игре с полной информацией, имеющая следующую структуру: до момента встречи t„ осуществляется погонное пресле дование игрока Е, а при *„ < /< Г точка х (t) сохраняется в некоторой

е-окрестности убегающей точки. Такая стратегия в игре с полной информацией может быть легкоописана аналитически (см. пример 4 п. 8.1). Построим траектории х (t), у (/) движения игроков в ситу ации (и* (х, у, t), v (x, у, t)) из начальных состояний х0, уо> Для этого

достаточно проинтегрировать систему
х=и* (х, у, t), х (t0)=xQ,
y=Z (x, у, t), у (h)=yu.	(9.4)

284

По построению р (х (Т), у (Г))<£. Пусть теперь		й {t) = u* (х (/),
у (t), t), и хотя стратегия и* (х, у, /), использующая для выработки
управления информацию о положении Е, недопустима, стратегия
й (/) является допустимой, поскольку использует лишь информацию
о времени, прошедшем с момента начала игры и о начальном
состоянии игрока Е. Очевидно, что в ситуациях (й (t), v (х, у, t))
и (и* (х, y,J), v (х, у, t)) траектории игроков совпадают, поскольку
стратегия v (x, у, t) одинаково реагирует как на стратегию и* (х,
у,	/), так и на стратегию и (/) выбором управления v (х (/), у (/),J*)).
у,	Таким образом, мы показали, что для каждой стратегии v (х,
	t) существует программное управление й (/), являющееся допусти
мой стратегией в игре_ с неполной информацией,		и такое, что
Р (* (^L У (У))<е, где х (f), у (t) — соответствующие траектории.
Выбор v (х, у, t) произволен, поэтому отсюда следует, что
	шр1ш>(х(Г),;и(Г)) = 0,	(9.5)

где supinf берется по множествам стратегии игроков в игре с непо лной информацией.

Вместе с тем для любой стратегии и (х, г) игрока Р можно построить такую стратегию v (х, у, t) игрока Е, что в ситуации (и (х, г), v (х, у, /)) выигрыш р игрока Е превзойдет рТ. Действительно, пусть м (х, /) — некоторая стратегия игрока Р. Так как его движение не зависит от у (f), то траектория движения игрока Р может быть получена интегрированием системы

х=й (х, t), х (t0)=xu

(9.6)

независимо от движения игрока Е. Пусть х (/) — траектория, полу чившаяся в результате интегрирования системы (9.6). Соединим точких (Г) иу0 и направим движение игрока Епо прямой [х (7),>>0]

в направлении от точки х (Г) с максимальной скоростью. Очевид но, что такое движение игрока Е обеспечивает расстояние между ним и точкой х (Т) большее или равное /?Г. Обозначим построен ную таким образ_ом стратегию игрока Е через v (t). Тогда получим, что в ситуации (й (х, t), v (?)) выигрыш игрока Е больше или равен величине рТ. Отсюда следует, что

infsupp(x(r),>>(r))^pT,

(9.7)

где inf sup берется по множествам стратегий игроков в игре с непо лной информацией.

Из (9.5) и (9.7) следует, что значение игры в классе чистых стратегий в рассматриваемой игре не существует.

9.4. Определение. Под смешанной кусочно-программной стра тегией поведения (СКПСП) игрока Р будем понимать пару ft () = {т, d}, где х — произвольное разбиение отрезка времени [0, 7] конечным числом точек 0=ti<t2<...<tk=Tи d-отображение, ставящее в со-

285

ответствие состоянию х (f;), у (t, — t), t, при tt>l и состоянию х (/,), Уо, tj при t,^l вероятностное распределение ц, (•), сосредоточенное на конечном числе измеримых программных управлений и (t) при t e [th

Аналогично под СКПСП игрока Е будем понимать пару v ()={о, с}, где а — произвольное разбиение отрезка времени [О, 7] конечным числом точек 0 = ti<t2--<t,= Tu с-отображение, ставящее в соот ветствие состоянию х (О, у (t\), t\ вероятностное распределение v, (•), сосредоточенное на конечном числе измеримых программных управлений v (t) при f e[f„ *1+!). СКПСП игроковр и Е будем обозна чать соответственно через F и ИГ (ср. со «стратегиями поведения» п. 8.3 гл. IV).

Каждая пара СКПСП ц (•), v (•) индуцирует распределение веро ятностей на пространстве траекторий х (/), х (0)=JC0; у (f), у (0)=j>0.

Поэтому под выигрышем R (х0, у0; /* (•), v (•)) в СКПСП будем понимать математическое ожидание выигрыша К (х0, у0; и (•), v (•)),

усредненное по распределениям на пространствах траекторий, кото рые индуцируются СКПСП ц (•), v (•). Определив пространства стратегий Р, Ё и выигрыш К, мы определили смешанное расшире ние Г (х0, уо, Т) игры Г (х0, уо, Т).

9.5. Обозначим через CTf (x) и С / (у) соответственно множества достижимости игроков Р и Е из начальных состояний х и у в мо мент времени Т, а через СЕ (у) — выпуклую оболочку множества С"Е (у). Предположим, что множества достижимости компактны, и введем в рассмотрение величину

у (у, Т)= min max	p (£, п).
Пусть у (у, Т)=р(у, у), где уеСЦу),	уеСЦу). Из определения

точки у следует, что она является центром минимальной сферы, содержащей множество С\ (у). Отсюда получаем, что эта точка единственна. В то же время существуют по крайней мере две точки касания множества СЕ (у) с минимальной содержащей его сферой, которые совпадают с точками у.

Пусть у (t) — некоторая траектория (у (0)=у0) игрока Е при

0</<Г. При перемещении игрока Е вдоль этой траектории вели чина у (у (/), Т— 0 изменяется, меняется также и точка у. Пусть у (t) — траектория точки у, соответствующая траектории у (/). На зовем точку MeCl~' (уо) центром преследования, если

у (А/, /)= max у (у', I).

у'еС^Чуо)

286

9.6. Рассмотрим вспомогательную одновременную антагони стическую игру преследования на выпуклой оболочке_ множества СЕ (у). Преследователь выбирает некоторую точку £еСЕ (у), а убе гающий — точку w e С | (у). Выбор совершается одновременно, и иг рок Р при выборе точки £ не знает выбора г\ игрока Е, и наоборот. Игрок Е получает выигрыш р (<!;, п). Обозначим значение этой игры через V (у, Т), чтобы подчеркнуть зависимость значения игры от параметров у и Т, которые определяют множества стратегий С \ (у) и СЕ (у) игроков Р и Е. Игру в нормальной форме запишем следу ющим образом:

г(у,7)=<С5(у),с5оо,р(у',у')>.

Множество стратегий минимизирующего игрока Р выпукло, функция р(у', у") также выпукла по своим аргументам и непрерыв на. Для таких игр мы можем применить теорему п. 5.5 гл. П. Поэтому в игре Г (у, Т) существует ситуация равновесия в смешан ных стратегиях. Оптимальная стратегия игрока Р чистая, а оп тимальная стратегия игрока Е предписывает положительную веро ятность не более чем (л+1) точке из множества СТЕ(у), причем V (у, Т)=у (у, Т). Оптимальная стратегия игрока Р в игре Г (у, Т) заключается в выборе центра минимальной сферы у, содержащей множество СЕ (у)- Оптимальная стратегия игрока Е предписывает положительные вероятности не более чем (л+1) точке из точек касания указанной сферы с множеством СЕ (у) (здесь л — размер ность пространства х, у). Значение игры равно радиусу этой сферы (см. пример 11п. 5.5 гл. II).

9.7. Рассмотрим одновременную игру Г (М, /), где М — центр преследования. Обозначим через уу (М), ...,yn+i Щ) точки из множе ства С'Е (М), которые входят в спектр оптимальной смешанной стратегии игрока Е в игре Г (М, /), а через у (М) — оптимальную

стратегию игрока Р в этой игре.

Определение. Траектория у* (t) называется условно-опти мальной, если у* (0)=у0,у* (Т—1)=М,у* (Т)=у, (А/) для некоторого

i из чисел 1, ..., л+1.

Для каждого i может существовать несколько условно-опти мальных траекторий игрока Е.

Теорема. Пусть T^l и для любого числа е>0 игрок Р к момен ту времени Т может гарантировать в-встречу с центром у (7) минимальной сферы, содержащей множество С'Е(у (Т—1)). Тогда

игра Г (х0, Уо, Т) имеет значение у (М, I), е-оптимальная стратегия

игрока Р чистая и совпадает с любой его стратегией, гарантиру ющей е/2-встречу с точкой у (Т). Оптимальная стратегия игрока Е смешанная: в течение времени 0< /< Т—1 он должен перемещаться в точку М по любой условно-оптимальной траектории у* (t) и далее с вероятностямири ...,рп+1 {оптимальная стратегия игрока Ев игре

287

Г (М, /)) выбрать одну из условно-оптимальных траекторий, перево дящих точку у* (Т—[)=М в точки yt (М), г'=1, ..., и+1, входящие

в спектр оптимальной смешанной стратегии игрока Е в игре Г (М, I).

Доказательство. Обозначим через ы, (•) v, (•) указанные в те ореме стратегии, оптимальность которых требуется доказать. Для доказательства теоремы достаточно убедиться в справедливости следующих соотношений:

R(х<ь Уо\ II (•), v, ()) + е>К(х0, Уо, и. (•), v, (•))>

>R(х0, у0; и. (•), v (.))-в,ц ()еР, v (•)бЁ;	(9.8)
Urn R (х0, уй; и, (•), v. (.))=y (M, I).	(9.9)
«-•о

Левая часть неравенства (9.8) следует из определения стратегии и, (•), в силу которого для любой кусочно-программной стратегии

и QeP выполняется неравенство

R (х0, уо, и (•), v, ())+в>£(хо, уо, и. (•), v, (•)).

Обозначим через JC* (/) траекторию преследователя в ситуации (и. О, v, ()). Тогда

К (х0, уо, и, (•), v. (•))="£ р,р (х* (Т), у, (М))-			(9.10)
(-1
Пусть R — радиус минимальной сферы, содержащей множество
С'Е(М), т. е. R=y (M, I). Тогда R-s/2^p(x*	(T), у,	(M))^R+Е/2
для всех i=l, ... , и + 1, поскольку точка	х* (Г)	принадлежит

е/2-окрестности точки у (А/). Так как £ Pi—1> РС&§, TO и з формулы

(9.10) получаем
Л-е/2<£(х0 , уо, и. (), v# ОХЛ+8/2,	(9.11)

что доказывает (9.9).

Пусть состояния х (Т), у (Г— I) реализовались в ситуации (и, (•),

v ()) и Q (•) — вероятностная мера, индуцированная на множестве СЕ(У(Т— [)). Из оптимальности смешанной стратегии р=(р\, ...,

рП+1) в игре Г {М, I) имеем

* = " l р,р (У (М), У> (М))>7 (У {Т-Г), Г) =

=УеЛГ (у (Т-[),[)>

J p(y\y(T-f)],y)dQ,

(9.12)

288

где у [у (Т— /)] — центр минимальной сферы, содержащей множест
во С'Е	(у (Т-1)).			поэтому при уеС'Е (у	(Т-1))
Однако р (х (Т), у \у (Т-1)])^Е/2,				поэтому при уеС'Е (у	(Т-1))
имеем	р (х (Т), у)^е/2 + р (у \у (Т-1)], y)^R + e/2.				(9.13)
	р (х (Т), у)^е/2 + р (у \у (Т-1)], y)^R + e/2.				(9.13)
Из неравенства (9.11)—(9.13) вытекает, что
	&(хо,Уо, и. (),v,Q)>		J	p(x(T),y)dQ-B,	(9.14)
однако
	J	p (x (T), y) dQ=R		(xo, y0; ue (•), v (•)).	(9.15)

Из формул (9.14) и (9.15) получаем правую часть неравенства (9.8). Теорема доказана.

При Т<1 решение игры существенно не отличается от случая 7>/ и теорема сохраняет силу, если вместо С'Е (у0), С'Е (у0) у (М, I),

у (Т—1) рассматривать соответственно СЕ (у0), СЕ (у0), у (М, Т), у0.

При /-*0 диаметр множества С'Е(М) стремится к нулю, что, в свою очередь, вызывает стремление к нулю значения вспомога тельной игры Г (М, I). Однако значение этой вспомогательной игры равно значению V, (х0, Уо, Т) игры преследования с задержкой

информации Г (х0, jo, Т) (здесь индекс / означает время задержки

информации). Смешанная оптимальная стратегия игрока Е в Г (М, I), сосредоточивающая свою массу на не более чем л+1 точке из С'Е (М), в пределе сосредоточивает всю массу в одной точке М, т. е. превращается в чистую стратегию. Это вполне согласуется с тем, что при 1-*0 игра Г (х0, у0, Т) превращается в игру с полной

информацией.

Пример 7. Уравнения движения имеют вид

х=и, ||ы||<а; y=v, ||«||<j8, а>р\ x.yeR2.

Пусть время Т удовлетворяет условию Т>р (х0, у0)/(а — р) + 1. Множество достижимости С'Е (уо) = С'Е (у0) и совпадает с кругом радиуса /?/ с центром у0. Значение игры Г (у, I) равно радиусу круга

С'Е(у), т. е. V(y,l) = pl.

Так как величина V (у, I) в данном случае не зависит от у, то любая точка множества СТЕ~1 (у0) может быть центром преследова ния М. Оптимальная стратегия игрока Р в игре Г (у, I) заключается

в выборе точки у, а оптимальная стратегия игрока Е — смешанная

289

<<< < Предыдущая 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 2829 / 3129 30 31 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
19.11.20194.97 Mб10Паскевич Сергей, Вишневский Денис. Чернобыль. Реальный мир.rtf
#
19.09.20193.14 Mб9Педагогика и психология_Григорович Л.А, Марцинковская Т.Д_Уч пос_2003 -480с.pdf
#
01.01.202013.65 Кб3Педфак-2014.docx
#
01.01.2020457.92 Кб3ПЕНСИИ ПО СТАРОСТИ НОВЫЕ ПРАВИЛА ИСЧИСЛЕНИЯ.pdf
#
23.08.2019758.78 Кб81Петр Яковлевич Чаадаев.ppt
#
19.09.20196.14 Mб35Петросян_Теория_игр.pdf
#
19.11.2019280.06 Кб7Пигров К.С. Социальная философия.doc
#
29.10.2019539.14 Кб6ПИм Интернет технологии в банковском деле 2014.doc
#
29.10.2019268.77 Кб8Пирс Что такое знак.pdf
#
19.09.2019183.38 Кб3Платон - Тимей.txt
#
22.08.20190 б4По Шарпу Война Pussi Riot.doc