Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Variatsionnoe_ischislenia

.pdf
Скачиваний:
20
Добавлен:
18.03.2015
Размер:
899.48 Кб
Скачать

VI.2 Алгебраическое определение преобразования Лежандра функции вещественных переменных

Мы рассмотрим функции, заданные на Rn с вещественными значениями, допуская и значения равные ±∞

f :

R

n

¯

 

R ≡ R {−∞, +∞}.

Функцию назовем собственной, если:

1)для всех x, f (x) > −∞ и

2)f (x) 6≡+∞.

Надграфиком функции f : R

n

¯

 

→ R называется множество

 

 

{ (x, y) | x Df , y > f (x) }.

Очевидно, по заданной функции надгрaфик однозначно определяется. Верно и обратное: надграфик однозначно определяет функцию. Замыканием функции f назовем функцию clf (от английского слова close - замкнуто),

имеющую своим надграфиком замыкание надграфика самой функции. Функция, совпадающая со своим замыканием, называется замкнутой.

Пример 22. (Примеры замкнутой и незамкнутой функций).

Непрерывная функция с замкнутой областью определения замкнута. Функция

f (x) =

0, x < 0,

1, x > 0

незамкнута, а функция

g(x) =

0, x 6 0,

1, x > 0

замкнута и является замыканием функции f .

Теорема 32. Собственную замкнутую выпуклую функцию f можно задать как поточечный "supremum"всех таких афинных функций h, что h(x) 6 f (x).

Доказательство. Очевидно, функция выпукла тогда и только тогда, когда надграфик ее выпуклый. У замкну-

той выпуклой функции надграфик является замкнутым выпуклым множеством в R

n

¯

 

×R. Сначала покажем, что

любое замкнутое выпуклое множество является пересечением всех содержащих его замкнутых полупространств.

 

 

 

 

¯

Действительно, если точка P лежит в замкнутом выпуклом множестве C, то она принадлежит и любому со-

¯

 

лежит и в пeресечении этих полупространств. Если

держащему C замкнутому полупространству. Значит, P

¯

¯

 

1)

¯

же точка Q не лежит в C

, то ρ(Q, C) > 0. Тогда существует опорная

 

плоскость множества C, разделяющая

¯ и так, что лежит строго внутри соответствующего полупространства. Но тогда не может попасть в

C Q Q Q

пересечение всех замкнутых полупространств, содержащих ¯.

C

Обратимся к заданной в теореме замкнутой выпуклой функции f . Надграфик ее выпуклое замкнутое

множество, является пересечением содержащих его полупространств. Эти полупространства могут быть трех видов:

нижние {(x, µ) | µ 6 h(x) ≡ hx, bi − β}, верхние {(x, µ) | µ > h(x) = hx, bi − β}

и вертикальные {(x, µ) | h(x) ≡ hx, bi − β 6 0}.

Однако ни одно нижнее полупространство не может участвовать в образовании надграфика, так как они ограничивают множество относительно оси ординат сверху, а надграфик сам неограничен сверху. Содержащие надграфик верхние полупространства как раз отвечают неравенству h(x) 6 f (x), пересечение таких надграфиков афинных функций и является поточечной верхней гранью всех этих функций h(x).

Нам надо показать сейчас, что вертикальные полупространства не играют роли в формировании надграфика функции f , то есть любое такое вертикальное полупространство можно убрать и это не изменит объема пересечения оставшихся полупространств. Действительно, пусть есть V = {(x, µ) | H(x) = hx, bi−β 6 0} вертикальное полупространство, содержащее надграфик f и пусть некоторая точка (x0, µ0) 6 V , то есть H(x0) > 0. Покажем, что найдется такое верхнее полупространство {(x, µ) | h(x) = hx, bi − β 6 µ}, которое также содержит надграфик f и не содержит точку (x0, µ0), h(x0) > µ0, тогда вычеркивание полупространства V не увеличит объема

1) Опорной плоскостью множества w Rn называется такая гиперплоскость, которая проходит через какую-то точку границы w так, что множество w лежит по одну сторону от этой гиперплоскости.

ˆ

ˆ ˆ

µ}

пересечения полупространств. Во-первых, хотя бы одно верхнее полупространство {(x, µ) | h(x) = hx, bi− β 6

участвует в формировании надграфика f ведь этот надграфик ограничен снизу, т.к. функция f собственная.

Теперь мы имеем для любого из : и ˆ . Значит, ˆ для любого

x Df H(x) 6 0 h(x) 6 f (x) λH(x) + h(x) 6 f (x) λ > 0

(это верно и для тех x, в которых значения f бесконечны, т.к. тогда f = +∞). Подберем λ0 так, чтобы в точке x0 выполнялось нужное неравенство

ˆ

,

λ0H(x0) + h(x0) > µ0

ˆ

 

и потом положим h(x) ≡ λ0H(x) + h(x).

 

Благодаря этой теореме мы можем описать собственную замкнутую выпуклую функцию через множество F , состоящее из всех пар таких (x , µ ) Rn+1, что функции h(x) ≡ hx, x i − µ мажорируются функцией f (x)

 

 

 

 

 

 

F ≡ {(x , µ ) | h(x) = hx, x i − µ 6 f (x)}.

 

 

 

 

 

 

 

 

 

 

Выписанное неравенство выполняется при всех

x

тогда и только тогда, когда

µ > sup

x, x

 

f (x)

 

x

 

Rn

 

,

 

x {h

 

i −

 

|

 

 

 

}

 

(Df = Rn). Таким образом F является надграфиком функции f (x ) ≡ sup{hx, x i − f (x)}.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

Функция f

 

:

 

n

¯

называется сопряженной к функции f , а отображение (x, f (x)) →

 

 

R

 

R

Определение 10.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x , f

(x ))

называется преобразованием Лежандра. Будем обозначать его L (в отличие от ранее введенного

отображения L).

Теперь у нас есть два определения преобразования Лежандра. Надо показать их тождественность на общей области определения.

Теорема 33. Пусть

 

 

f :

Rn → R, f C1,

(VI.1)

f строго выпуклая:

 

 

λ (0, 1), x, y Rn

f (λx + (1 − λ)y) < λf (x) + (1 − λ)f (y)

(VI.2)

и надграфик f не содержит ни одной невертикальной полупрямой

 

(такая функция называется кофинитной).

(VI.3)

Тогда f (x ) = h(Df )−1(x ), x i − f ((Df )−1(x )).

Доказательство. Условие (VI.3) означает, что для любого x Rn множество w(x ) ≡ {x | hx, x i − f (x) > 0}

ограничено.

На ограниченном множестве w(x ) супремум функции hx, x i − f (x) превращается в максимум и благодаря строгой выпуклости функции f достигается в единственной точке. Так как f C1, эта точка максимума нахо-

дится из условия обращения в нуль производной. То есть 0 = Dx[hx, x i − f (x)]|x=x = x − Df (x−)). Как мы

0

уже получили, это уравнение разрешимо относительно x0 при любом x Rn. Значит, область значения Df есть все Rn и Df отображает Rn на Rn взаимно однозначно x0 = (Df )−1(x ) и

f (x ) = hx0, x i − f (x0) = h(Df )−1(x ), x i − f ((Df )−1(x )).

Таким образом, мы показали, что операторы L и L на общей области определения задают одно и тоже преобразование Лежандра. Продолжая отображения L и L друг другом области, где прежде они не были определены, мы получаем единое определение преобразования Лежандра (будем продолжать обозначать его L).

Теорема 34. Пусть f выпуклая функция. Тогда f является замкнутой выпуклой функцией, которая является собственной тогда и только тогда, когда f собственная и f = (cl f ) , f = cl f .

Доказательство. Выпуклые несобственные функции это только f (x) ≡ −∞ или f (x) ≡ +∞. Очевидно, что эти функции взаимно сопряжены. Пусть теперь f выпуклая собственная функция

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

sup[ x, x

i −

f (x)].

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f

 

(x ) =

x

h

 

 

 

 

 

Рассмотрим множество F

 

 

 

 

 

 

 

 

 

>

µ 6 f (x), x . Оно задано нестрогим неравенством,

 

= {(x , µ )|h(x)

≡< x, x

 

 

 

}

 

 

 

выдерживающим предельный переход по (x , µ )

 

(x , µ ),

поэтому замкнуто. F

 

-выпуклое: если (x , µ ) и

 

 

 

 

 

 

 

 

 

 

 

 

j j

 

 

 

 

1

1

(x2

, µ2) таковы, что < x, x1

>

µ

6 f (x) и < x, x

>

µ 6 f (x), то такое же неравенство выполняется и для

 

 

 

 

 

 

 

 

 

 

 

2

 

2

 

 

 

 

 

 

(

x1

+x2

,

µ1

2

) . . . В то же время очевидно

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F = {(x , µ )|µ >< x, x > −f (x), x} = {(x , µ )|µ > f (x)}.

то есть

 

 

f (x ) = inf

{

µ

 

 

}

.

 

 

 

µ

 

| (x , µ ) F

 

 

 

, и является замкнутоя и выпуклой.

 

 

 

 

 

 

 

Заметим, что F и

¯

 

 

 

 

 

 

¯

является

F

определяют одно и то же множество своих опорных плоскостей, причем F

пересечением только верхних полупространств, определяемых этими опорными плоскостями(См. доказательство теоремы 32. А это однозначно определяет F , то есть f = (clf )

Воспользуемся теоремой 32

f (x) = sup{h(x) | h(x) = hx, x i − µ } =

h6f

= sup {h(x) | h(x) = hx, x i − µ 6 f (x)} =

(x ,µ )

 

 

 

 

 

#

= x

"h

i

 

µ , hx,x i−µ 6f (x)

sup

x, x

 

+

sup

(

µ )

=

 

 

 

 

 

 

 

 

 

sup

x, x

inf

=

x

h

i − sup(hy,x i−f (y))6µ(x)

µ(x) = sup [hx, x i − f (x )] = f (x).

x

y

Следствие. Преобразование Лежандра L осуществляет взаимно однозначное соответствие множества всех за-

мкнутых выпуклых функций на себя.

Теорема 35. Преобразование Лежандра L осуществляет взаимно однозначное соответствие на себя и подмножества замкнутых выпуклых функций, неотрицательных и обращающихся в нуль в нуле.

Доказательство.

 

 

 

inf f (x) = inf[f (x)

 

 

x, 0 ] =

sup[ x, 0

i −

f (x)] =

f (0).

 

 

 

 

 

x

 

x

− h i

x h

 

 

 

 

Если f (x)

>

0 и

f (0) = 0, то

0 =

inf f (x) =

f (0), т.е. f (0) = 0. Обратно, inf f (x ) =

f (0) = 0, значит,

 

 

x

 

 

 

 

 

 

 

x

 

f (x ) > 0.

Рассмотрим множество W пар функций {(f (x), g(y))}, удовлетворяющих неравенству

 

hx, yi 6 f (x) + g(y)

 

(VI.4)

и пусть (f0(x), g0(y)) наилучшие из них, то есть если f (x) 6 f0(x), g(y) 6

g0(y) и (f, g) W , то необходимо

f = f0, g = g0. Предыдущие теоремы дают такое следствие: множество {(f, f

)} есть множество наилучших пар

замкнутых выпуклых функций: для любых x, x и любой собственной выпуклой функции f справедливо

hx, x i 6 f (x) + f (x ) − неравенство Фенхеля.

(VI.5)

Функции, связанные преобразованием Лежандра L, называются двойственными. Приведем примеры пар

двойственных функций.

Пример 23.

f (x) = ex, f (x ) =

x ln

 

0,

x ,

x = 0

 

 

 

 

 

x

 

x > 0

 

 

 

 

+∞,

 

x < 0

 

f (x) = |x|2/2, f (x ) = |x |2/2,

 

f (x) =

21 − ln x, x > 0

 

 

 

+∞,

 

 

x 6 0

 

f (x ) =

21 − ln(−x ),

x < 0,

, то есть f (x ) = f ( x )

 

+∞,

 

x > 0.

 

 

 

(VI.6)

(VI.7)

(VI.8)

Заметим, что f (x) = |x|2/2 - это самый узкий инвариантный относительно преобразования Лежандра класс,

состоящий только из одной функции.

До сих пор мы рассматривали выпуклые функции, определенные на всем пространстве Rn. Если же область определения C собственной выпуклой функции f есть часть Rn, C Rn то, очевидно, C необходимо выпуклое

сохранения импульса.

 

 

 

|

+∞,

x 6= C

¯

множество. Введем индикаторную функцию множества C: δ(x C) =

0,

x C

. Пусть f замкнутая, а

|

|

n

|

+∞,

x / C¯

δ заменим замкнутой, положив δ¯(x C) = δ(x C¯). Тогда f (x) + δ(x C¯)

 

f (x),

x C замкнутая выпуклая

собственная функция с областью определения R и к ней применима описанная выше теория преобразования

Лежандра.

Задача 23. Найти (δ C) и показать, что

(δ C) =

 

 

sup

{h

x, x x

C

}

. Эта функция называется

L |

L |

δ

(x |C) =

x

i|

 

 

опорной функцией множества C. Нарисовать δ (x ) для C = {x|(x1 − 1)2 + (x2 − 1)2 6 1} R2

VI.3 Каноническая форма уравнения Эйлера

 

b

Определение 11. В функционале J (x) =

dt L(t, x, x˙ ) функция L(t, x, v) называется Лагранжианом.Пусть

1

R

 

a

L(t, x, y) строго выпуклая по y и L C . Ёе преобразование Лежандра (по третьему аргументу) называется

Гамильтонианом

H(t, x, p) = hp, vi − L(t, x, v),

где v должно быть выражено через p из равенства D3L(t, x, v) = p.

Теорема 36. Уравнение Эйлера D2L(t, x, x˙ ) − dtd D3L(t, x, x˙ ) = 0 после замены переменных, определяемой преобразованием Лежандра, преобразуется к канонической системе уравнений Гамильтона

x˙ = D3H(t, x, p) p˙ = −D2H(t, x, p)

Доказательство. p = D3L(t, x, v). В уравнении Эйлера D2L − dtd L = 0 v = x˙ (t).

Мы имеем

d

0 = D2L − dt D3L = Dx[(hp, vi − H(t, x, p))| (t, v) = const, ] − p˙ =

p= p(x)

=Dx(hp, vi − H(t, x, p))|(t,v,p)=const+

+Dxp · Dp[(hp, vi − H(t, x, p))|(t,x,v)=const] − p˙ =

=−D2H + Dp(L|(t,x,v)=const) − p˙ = −D2H − p,˙

т.к. Dp(L|(t,x,v)=const) = 0

Поэтому p˙ = −DxH

DpH = Dp[(hp, vi − L(t, x, v)|(t,x)=const] = v + Dpv · p − Dpv · D3L = v = x˙

То есть x˙ = −DpH

Напомним, что мы уже проделывали это преобразование при пояснении условий на изломе экстремали.

VI.4 Понятие о теореме Эммы Нётер

В терминологии, идущей из механики, аргументы Лагранжиана называются: t - время, скорость, а аргументы Гамильтониана t - время, x - координата, p - импульс.

Для механической системы в потенциальном поле сил Лагранжиан L = T − U, T =

Гамильтониан есть пoлная энергия:

 

 

p = D3L = mv H = hp, vi − L = mv2

mv2

 

 

 

+ U = T + U,

 

 

2

где T =

mv2

, U = U (x).

 

 

 

 

 

2

t2

 

 

 

 

 

 

x - координата, v -

mv2 2 , U = U (x), а

Если Лагранжиан действия S = R Ldt, описывающего движение механической системы, не зависит от коор-

t1

динат, D2L = 0, то, очевидно, 0 = D2L − dtd DL dtd D3L = p˙ и p(t) = const. То есть в этом случае справедлив закон

Пусть m ≡ 1, тогда v = p. Если Лагранжиан явно не зависит от t, то Гамильтониан тоже не зависит явно от t и выполняется закон сохранения энергии

d

dt H = hv, p˙i + hD U, vi = −hp, Dx Hi + hDxH, pi = 0,

или

H(x(t), p(t)) = const.

Замечание 8. Пусть функционал J (x) сохраняет свое значение относительно некоторой однопараметрической группы преобразований пространства координат. Rs : x → y, RsRq = Rs+q , J (x) = J (y). Тогда уравнение Эйлера

этого функционала имеет соответствующий первый интеграл закон сохранения.

Такая запись этого утверждения составляет содержание известной в механике теоремы Эммы Нётер2).

Теорема Э. Нетер приведена в книге Гельфанд И.М., Фомин С.В. Вариационное исчисление, М., Физматгиз, 1961.

VI.5 Геометрическая интерпретация канонической системы уравнений Эйлера

VI.5.1 Постановка задачи

Приведем пример математической модели, в которой введённые ранее понятия получают естественное объяснение.

Рассмотрим распространение возбуждения в некоторой среде, которую мы будем считать неоднородной и анизотропной, то есть пусть скорость распространения возбуждения зависит, вообще говоря, от точки и направления. Относительно процесса будем предполагать следующее:

а) каждая точка может находиться лишь в одном из двух состояний: возбуждения и покоя,

б) каждая точка, до которой возбуждение дошло в момент времени t, сама становится, начиная с этого

момента, источником дальнейшего распространения возбуждения.

Мы покажем, что рассмотрение такого процесса позволяет получить из геометрических соображений основные понятия вариационного исчисления: канонические уравнения, функцию Гамильтона, уравнение Гамильтона Якоби.

Пусть среда, в которой распространяется возбуждение, представляет собой n-мерное многообразие - M , в котором введена некоторая система координат, то есть каждая точка x из M определяется системой n чисел {x1, . . . , xn}, Строго говоря, M локально должно быть метрическим пространством c гладкой метрикой. Пусть x = (x1, . . . , xn), Рассмотрим совокупность гладких кривых x = x(s) проходящих через некоторую фиксированную точку y = x(s) здесь s фиксировано. Совокупность векторов направлений выхода кривых из этой точки касательных к кривым, y˙ = Dx(s), представляет собой n мерное линейное пространство. Его называют касательным пространством, обозначение: T (y). Отметим, что при переходе в M к новым координатам по формулам x= x(x) векторы касательного пространства T (y) преобразуются по закону

n

= Dsx= j=1 Dxj x· Dxj = Dx· y˙ Здесь Dxявляется матрицей (Dj xi), i, j = 1, n

 

Пусть x(sP) и x(s + s) две близкие точки на некоторой кривой x = x(s), параметризованной натураль-

˙

(скалярная

ным параметром |x| = 1. Как было сказано, скорость распространения возбуждения в среде M

неотрицательная величина) зависит от точки и от направления. Обозначим через L(x, x˙ ) величину, обратную этой скорости, т.е. тогда скорость будет 1/L(x, x˙ ). Время t, за которое возбуждение пройдет из точки x(s) в точку x(s + s), можно представить в виде t = L · [|x˙ (s)| · Δ(s) + o(Δs)], а время, за которое возбуждение распространится вдоль некоторой конечной дуги, соединяющей точки y1 = x(s1) и y2 = x(s2), равно

s2

 

 

sZ1

dsL(x(s)x˙ (s)), .

(VI.9)

т.к. |x˙ (s)| = 1

Если точка y1 возбуждена, то время, через которое возбужденной окажется некоторая точка y2, равно

s2

min R dsL(x(s), x˙ (s)), где минимум берется по всем кривым x = x(s), соединяющей точки y1 и y2, потому что ес-

s1

ли возбуждение дошло по одной кривой, то все другие кривые, приносящие возбуждение позже, уже не играют роли. Таким образом, процесс распространения возбуждения в среде подчиняется известному принципу Ферма: возбуждение распространяется из одной точки в другую вдоль того соединяющего эти точки пути, который оно

2) Noether E. (Нётер Эмми Амали, 1882 - 1935) немецкий математик, предложила теорему Нётер в 1918 г., работала над про-

блемами, поставленными М. Жорданом и Д. Гильбертом, исследовала теорию идеалов, разрабатывала вопросы некоммутативных алгебр, создала новое направление в алгебре т. н. общую, или абстрактную, алгебру. Была семья математиков Нётер.

проходит за наименьшее время. Назовем эти пути траекториями возбуждения. Очевидно траектория доставляет минимум функционалу

s2

dx

 

J (x) = sZ1

(VI.10)

L(x, ds )ds

и является его экстремалью.

Вернемся к функции L(x, v). Так как время распространения возбуждения вдоль любой кривой кривой по-

ложительно, то L(x, v) > 0 при v = 0. Далее, время распространения возбуждения вдоль некоторой кривой -

s2

6

R dsL(x(s), (x˙ )), должно зависеть только от этой кривой, а не от выбора её параметризации. Для других па-

s1

раметризаций не будет выполнено условие |x˙ (s)| = 1, поэтому надо будет продолжить функцию v → L(x, v) с единичной сферы {v| |v| = 1} на другие значения v. Желая сохранить формулу (VI.9) для времени распространения вдоль кривой {x|x = x(t)} c произвольной параметризацией, связанной с натуральным параметром

 

 

 

 

˙

мы приходим к равенству

 

 

 

заменой переменных t = t(s), t(s) > 0

 

 

 

t2

s2

 

dt

 

d

ds

 

 

 

tZ1

dtL(x(t), x˙ (t)) = sZ1

 

 

 

 

 

ds

 

L(x(t(s)),

 

x(t(s)) ·

 

) =

 

 

 

ds

ds

dt

 

 

 

 

 

 

 

 

 

 

 

 

s2

 

d

 

 

 

 

 

 

 

 

 

= sZ1

 

 

 

 

 

 

 

 

 

 

dsL(x(t(s)),

 

x(t(s))),

 

 

 

 

 

 

 

 

 

ds

Значит, мы должны потребовать от продолженной на значения v Rn функции L(x, v) положительную однородность первой степени по v : L(x, λv) = λL(x, v) для всех λ > 0. Пусть при изменении направление на противоположное скорость распространения возмущения не меняется, L(x, −v) = L(x, v). Кроме того, функция L должна быть выпуклой по v. Действительно, если рассматриваемая среда однородна L не зависит от x, и v1, v2 два вектора из T (x), то возбуждение распространяется вдоль v1 за время L(v1)Δs,вдоль v2 за время L(v2)Δs. Тогда оно распространяется вдоль v1 + v2 за время, не превосходящее (L(v1) + L(v2))Δs, то есть

L(v1 + v2) 6 L(v1) + L(v2)

(VI.11)

Если же L зависит от x, но эта зависимость гладкая, то те же рассуждения показывают, что условие выпуклости будет выполняться для функций L(x, v) при достаточно малых s и малых скоростях возмущения. Отсюда, в силу однородности функции L по v, неравенство VI.11 будет выполняться и для всех v1 v2.

Мы будем предполагать, что функция L удовлетворяет несколько более сильному условию строгой выпуклости.Это означает, что равенство в условии выпуклости возможно только при коллинеарности векторов v1 и

v2 (v1 = µ · v2).

Пусть имеется возбуждение, которое в начальный момент занимало некоторую область и затем распространяется дальше. Границу зоны возбуждения в момент t назовем фронтом волны. Уравнение фронта волны в момент t можно записать в виде S(t, x) = 0. Наша задача заключается в том, чтобы найти уравнение, которому должна удовлетворить функция S(t, x) описывающая фронт волны, и уравнения траекторий возбуждения.

VI.5.2 Вывод уравнения Гамильтона-Якоби

Сформулируем поставленную задачу в терминах нормированных пространств. Очевидно, что функция v → L(x, v)(при фиксированном первом аргументе) обладает всеми свойствами нормы и превращает T (x) в нормированное пространство с нормой kvk = L(x, v). Рассматриваемую задачу можно сформулировать так. Дано n-мерное многообразие M , являющееся локально метрическим пространством с гладкой метрикой ρ(x1, x2), в каждой точке x многообразия M определено касательное пространство T (x) − n-мерное банахово пространство со строго выпуклой нормой. Локально, для x1, x2 из ε-окрестности точки x (ρ(x, x1) < ε, ρ(x1, x2) < ε) мы имеем ρ(x1, x2) = kx1 − x2k · (1 + o(1)) при ε → 0. Требуется найти уравнения, описывающие процесс возбуждения, ко-

торое из каждой точки x за время dt распространяется на область {ξ|ξ = x + η, |η| 6

dt

 

}. В пространстве

L(x,η/|η|)

T (x) это шар с центром в точке x и радиусом dt.

 

 

 

kηk = L(x, η) = |η| · L(L, η/kη|) 6 dt

 

 

 

Наряду с T (x) рассмотрим сопряжение пространство T (x). Она называется кокасательным пространством

кмногобразию M , его элементы - линейные функционалы на T (x), векторы p = (p1, . . . , pn). Значение p на

v1

v = ...

vn

 

есть p · v =

n

 

 

pj vj . Норму функционала p T (x) обозначим H(x, p). То есть

 

 

jP

 

 

 

=1

 

 

 

 

 

 

H(x, p) ≡ kpk = sup

p · v = sup[p · v/L(x, v)]

 

 

kvk=1

v

Введем функцию f (v) = L2(x,v) . Она является строго выпуклой, неотрицательной и в нуле обращается в

2

нуль. Мы можем применить преобразование Лежандра {v, f (v)}

F

{q, f (q)}. где q = Df (v), f (q) = qv − f (v).

Как известно (См. теорему )f

 

 

 

 

(q) также строго выпукла, неотрицательной и в нуле обращается в нуль. Функция

f (v) положительно однородная второй степени

 

 

 

 

λ > 0(λv = λ2f (v)

 

(VI.12)

Покажем, что такой же является f (q). Продиффиринцировав (VI.12) получаем λDf (λv) = λ2Df (v), или

Df (λv) = λDf (v). Пусть µ > 0 f (µq) = µqvµ − f (vµ)|µq = Df (vµ) = µ2[q vµµ − f ( vµµ )]

Замечая что Df (vµ) = µq = µDf (v) = Df (µv), то есть vµ = µv, приходим к формуле

f (µq) = µ2[q − f (v)] = µ2f (q).

Теперь при помощи описанной схемы определим преображение, заданной только на единичной сфере kvk = L(x, v) = 1 строго выпуклой функции в другую, положив на единичной сфере сопряженного пространства

{p|kpk = 1} правилом

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

H2(p)

 

→ {

 

H} → {

 

 

} →

p

 

 

 

 

 

 

 

(p

 

 

L(x, v)

 

 

v, f (v)

 

p, f (p)

H(p) = 2f

),

То есть p[= Df (v) и f (p) =

 

Продолжим

 

 

(p) с единичной сферы на все T (x) по свойству положительной

2

 

 

однородности первой степени,сохранив

обозначение H(p)

H(x, p).

 

 

 

 

 

 

 

 

 

 

 

 

 

Переход {v, L(x, v)| v T (x)} → {p, H(p)}| p T

 

(x) называется преобразованием Лежандра в параметрической

форме.

Теорема 37. H(x, p) ≡ H(x, p). Доказательство. Если kvk = 1, то p

 

d

kv + thk t=0 =

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

=

 

 

lim

kv

 

 

6

 

kthk

 

 

 

 

 

t→+0

 

 

t

 

lim

t

k

h

,

 

 

 

+thk−kvk

 

t→+0

 

 

k

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=D2

апри

2

x,v)

= L(x, v)DL(x, v) = = Dkvk|kvk=1

Мы имеем

Dkvkv|kvk=1

· h

=

L

(2

 

 

 

 

lim kv+tvk−kvk =

 

 

 

 

 

 

 

 

h = v

v

k =

1 Значит, для функционала D v

k

v

t→+0

k

 

 

 

k

 

является экстремальным элементом (на этом элементе значение функционала достигает максимума, равного норме функционала). То есть

1 = kDkvkk = sup Dkvkh = Dkvkv = pv h khk

Так как преобразование Лежандра {v, f (v)} → {p, f (p)} отображает все T (x) на все T (x) взаимно однозначно, то оно также взаимно однозначно отображает всю единичную сферу {v|kvk = 1} на всю единичную сферу

{q|kqk = 1}

Получаем

H(x, p)|kpk =1 = pv = 1?f (v)|kvk=1 = f rac12

f (p)|kpk =1 = pv −

L2

(x, v)

= Dkvk · v −

1

|kvk=1

=

1

 

2

2

2

q

H(x, v)|kpk =1 = 2f (p)|kpk = 1 = 1

Совпадение H(x, v) и H(x, v) на единичной сфере ввиду однородности означает совпадение их всюду.

Мы получили дифференциальное уравнение, которому должна удовлетворять функция S(t, x). Для этого по-

смотрим, как происходит распространение возбуждения за некоторый малый промежуток времени

t. Каждая

точка поверхности {x|S(t, x) = 0} сама служит источником возбуждения,которое за какое-то время

t распро-

страняется по шару {dx|kdxk 6 dt} радиуса dt в пространстве T (x). Фронт волны в момент t + t представляет

собой огибающую этих шаров.

Дифференциальные уравнения для функций S(t, x) получим, выписав уравнение общей касательной плоско-

сти к поверхности {x|S(t + dt, x) = 0} и шару {x|L(x, dx) 6 dt}. Эта касательной плоскости есть

Dx S(t,x)

·ξ =

kDx S(t,x)k

dt} что означает уравнение ξ = dx

 

 

DxS(t, x)dx = kDxS(t, x)k · dt = H (x, DxS(t, x) · dt).

(VI.13)

С другой стороны из уравнения фронта волны S(t, x) = 0, дифференцируя получаем DtSdt + DxSdx = 0 Сопоставляя это с предыдущей формулой, приходим к дифференциальному уравнению3)

DtSt + H(x, DxS) = 0

(VI.14)

3) Ранее мы выводили его при рассмотрении инвариантного интеграла Гильберта см. стр. 46

Это уравнение Гамильтона -Якоби. Для траектории возбуждения, заданной уравнением x = x(t), получаем

dt = L(x, dx) или dx = 1. Уравнение (VI.13) дает

dt

dx

DxS dt = kDxSk = H(x, DxS)

или p dxdt = H(x, p) при p = DxS

Очевидно функция p T (x) ϕ(p) ≡ p dxdt − H(x, p) ≡ p dxdt − kpk 6 0, и достигает максимума при p = DxS

Поэтому

 

 

 

 

 

 

 

 

0 = Dϕ(p)|p=Dx S = dxdt − DpH(x, p) Итак

 

 

 

 

 

 

 

 

 

 

 

dx

= −DpH(x, p)

 

 

 

 

 

(VI.15)

 

 

 

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

Само равенство p = DxS после дифференцирования по t даёт dp =

DxS =

DxS + D2 S dx .

 

 

∂t

 

Bз уравнения Гамильтона -Якоби (VI.14 имеем

dt ∂t

 

x dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dx

 

 

 

DxS = −DxH|t=const = −DxH|p=const − Dxp · DpH = −DxH − Dx2 S

 

.

(VI.16)

 

∂t

dt

Поэтому dpdt = −DxH(x, p)

Уравнения (VI.15)и (VI.16) образуют систему канонических уравнений для вариационной задачи (VI.10)

Замечание 9. В теории дифференциальных уравнений с частными производными устанавливается связь между уравнением в частных производных St + H(x, DxS) = 0 и системой обыкновенных дифференциальных урав-

= DpH

 

нений

= −DxH

Последняя система является системой уравнений характеристик для дифференциального

уравнения с частными производными.

Глава VII

Принцип максимума Понтрягина

VII.1

Формулировка общей теоремы

 

VII.1.1

Задача с ограничениями на управление

 

Постановка задачи такая

 

 

x˙ = f (x, u, t), t [t0, T ], x Rn, u Rk,

(VII.1)

где x фазовые координаты, u параметры управления. Для каждого t [t0, T ] задается множество V (t) Rk

и требуется выполнение условий

u(t) V (t) Rk , t [t0, T ]. (VII.2)

Функции u предполагаются кусочно непрерывными. Множество всех допустимых функций u обозначается U .

Решение задачи (VII.1) считается обобщенным, то есть дифференциальное уравнение (VII.1) заменяется соостветствующим интегральным уравнением

t

 

 

x(t) = x(t0) + tZ0

dτ f (τ, x(τ ), u(τ )).

(VII.3)

Пусть f C и D1f C для x Rn, u(t) V (t), t [t0, T ]. Рассматриваются только такие u(t), для которых

решения существуют для всех t

 

[t0, T ].

 

 

 

R

n

некоторые множества S0(t), S1(t), G(t) и функционал

 

Пусть при каждом t заданы в

 

 

 

 

 

 

T

 

 

 

 

 

 

J (u) = tZ0

f0(x, u, t)dt + Φ(x(T )).

(VII.4)

Задача минимизации такого функционала называется задачей Больца. Задача оптимального управления заключается в том, чтобы найти допустимое управление uˆ U такое, что соответствующая траектория x = xˆ(t, u(t)) подчиняется ограничениям xˆ(t0) S0(t0), xˆ(T ) S1(T ), xˆ(t) G(t)) (эти ограничения называются фазовыми),

удовлетворяет условиям (VII.2), (VII.3) и кроме того

J (ˆu) = U

J.

(VII.5)

inf J (u)

 

 

Такая траектория называется оптимальной траекторией, а пара функций (ˆx, uˆ) называется оптимальным

процессом.

S0(t) ≡ S0 ≡ x0 означает, что левый конец закреплен. S0, S1 зависят от t, следовательно, моменты t0 и T могут сами зависеть от управления и подлежать определению. Например, если f0 ≡ 1 и Φ ≡ 0, то получим J (u) = T −t0 и задачу на быстродействие, в которой t0 и T могут быть подвижными. Если же t0, T фиксированны, то получается задача с закрепленным временем. Задача называется автономной, если f0, f не зависят от t.

 

 

Отметим, что для кусочно-непрерывного управления u(t) и функции x(t) решения задачи (VII.3), в точках

непрерывности управления существует x˙ (t) и удовлетворяется дифференциальное уравнение (VII.1).

 

 

 

Приведем формулировку принципа максимума при некоторых упрощающих предположениях.

 

 

 

Пусть V (t) ≡ V не зависит от t, G(t) ≡ Rn, то есть нетn фазовых ограничений, левый конец закреплен,

x|t=t0 = x0, t0 фиксировано, а правый - свободен, S1(t) ≡ R .

 

 

n

Рассмотрим дополнительно вводимые функции (называемые импульсами) ψ: t 7→ψ(t) = (ψ1(t), . . . , ψn(t)

R

 

, подчиненные уравнениям

 

 

 

˙

(VII.6)

 

 

ψ = −ψ0Dxf0 − ψ1Dxf1 − . . . − ψnDxfn

59

с некоторой постоянной ψ0. Система уравнений (VII.6) называется сопряженной системой. Условия (VII.1), (VII.6) определяют полную систему дифференциальных уравнений относительно неизвестных x, ψ при задании u U . Введем функцию Гамильтона - Понтрягина

H(x, ψ, ψ0, u, t) ≡ ψ0f0 + hψ, f i.

Системы уравнений (VII.1), (VII.6) вместе можно записать как одну Гамильтонову систему

 

∂H

 

˙

∂H

(VII.7)

x˙ =

∂ψ

,

ψ = −

∂x

При фиксированных x, ψ, ψ0, t образуем

sup H(x, ψ, ψ0, u, t) ≡ M (x, ψ, ψ0, t).

u V

Теорема 38. Пусть (xˆ, uˆ) оптимальный процесс задачи при сформулированных выше условиях. Тогда

 

 

 

 

 

 

ˆ

ˆ

таких, что

необходимо существование непрерывной функции ψ(t) и постоянной ψ0

1)

ˆ

6 0, |ψ0|

2

+ |ψ(t)|

2

, T ];

 

 

ψ0

 

6= 0 для любого t [t0

 

 

2)

ˆ

есть решение для (VII.6) при x = xˆ, u = uˆ, ψ0

ˆ

 

ψ

= ψ0;

 

3)

при любом

 

 

ˆ ˆ

 

 

 

t [t0, T ] H(ˆx(t), ψ(t), ψ0, u, t) как функция переменного u V достигает в точке u = uˆ(t)

 

максимума

 

 

 

 

 

 

 

 

 

 

 

ˆ

ˆ

ˆ

ˆ

 

 

 

 

 

H(ˆx(t), ψ(t), ψ0, uˆ(t), t) = M (ˆx(t), ψ(t), ψ0, t)

4)

выполнено условие трансверсальности на правом конце, а именно

 

 

ˆ

 

 

 

 

 

 

 

 

ψ(T ) = −DΦ(ˆx(T ))

 

 

 

 

VII.1.2 Примеры

Пример 24. J (x) =

4

(x(t) + x˙ 2

(t))dt → inf, |x˙ (t)| 6 1 для любого t, x(0) = 0. Запишем эту задачу как задачу

0

 

R

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

оптимального управления, положив для этого u = x˙ . Имеем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

J (x, u) ≡ [x(t) + u2(t)] dt → inf

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u(t)R6 1,

 

x(0) = 0.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

|

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

|

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сопоставим обозначения с теми, что были в теореме

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f (t, x, u) = u,

 

 

t0 = 0,

x0 = 0,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

U = [−1, 1],

 

n = k = 1,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

f0(t, x, u) = x + u2,

 

 

T = 4,

 

 

ψ(4) = 0.

 

 

 

Сведение к системе дифференциальных уравнений дает

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x˙ = u,

x(0) = 0,

 

 

 

˙

 

 

 

 

 

ψ(4) = 0.

 

 

 

 

 

 

 

 

 

−ψ + 1 = 0,

 

 

 

По предыдущей теореме

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

max[ψ

 

 

 

 

 

2

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

·

(ˆx(t) + u

) + ψ(t)u] =

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

u

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

min [ˆx(t) + u

2

 

ˆ

 

 

 

 

[ˆx(t) + uˆ

2

(t)

 

 

ˆ

 

 

uˆ(t)],

 

 

 

 

 

 

ψ(t) u] =

 

ψ(t)

·

 

 

 

 

 

 

 

u

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xˆ(t) = Z0

t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ψˆ(t) = t − 4 6 0,

 

 

dτ uˆ(τ ).

 

 

 

 

Требуется найти u

 

 

2

ˆ

 

·

 

 

при условии |u|

 

1. Здесь мы имеем два варианта.

 

 

 

ψ(t)

 

u)

6

min (u

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

интервале ( 1, 1). Это происходит, когда

Первый вариант: минимум квадратного трехчлена достигается в

 

 

 

 

ˆ

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ψ(t)

.

−2 < ψ(t) 6 0. Тогда минимум достигается в вершине параболы при uˆ(t) =

2

 

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]