Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

afanasev_v_n_optimalnye_sistemy_upravleniya_ana

.pdf
Скачиваний:
21
Добавлен:
29.03.2016
Размер:
1.77 Mб
Скачать

d (T)

 

Ф(x(T),T)

T

 

 

 

dx(T)

 

x(T)

 

x(T)

 

 

(x(T),T)

T

 

 

Ф(x(T),T)

T

 

 

d

 

 

dT,

x(T)

 

x(T)

 

 

 

T

 

 

d (x(T),T) (x(T),T)dx(T) (x(T),T) dT ,

x(T) T

(x(T),T)dx(T) d T (x(T),T) (x(T),T) dT 0.

x(T) T T

Так как для дальнейших выкладок потребуются величины подставим

.

d (T) (T) (T)dT,

.

dx(T) x(T) x(T)dT

(3.28)

(3.29)

(3.30)

(T) и x(t), то

(3.31)

в уравнение (3.28). В результате будем иметь

(T)

2Ф(x(T),T)

dx {

(x(T),T)

}T d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2 (T)

 

 

 

 

 

 

 

 

 

 

x(T)

 

 

 

 

 

 

 

 

(3.32)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[

 

{

Ф(x(T),T)

}T (T)]dT.

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(T)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

С помощью уравнений (3.1) можно установить, что

 

 

 

 

 

 

 

d

 

Ф(x(T),T)

}T

.

 

 

 

 

(x(T),T)

.

 

 

 

 

 

 

 

 

(3.33)

 

 

{

(T)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dT

 

x(T)

 

 

 

 

 

 

 

 

 

 

 

 

 

x(T)

 

 

 

 

 

 

 

 

 

Подставив

(3.33)

 

 

в

 

 

уравнения

(3.32),

 

(3.31) и

(3.30)

и

учитывая, что

 

d (x(T),T)

 

 

(x(T),T)

 

(x(T),T)

f (x,u,T),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dT

 

 

 

 

 

 

 

T

 

 

 

 

 

x(T)

 

 

 

 

 

 

 

 

 

 

d (x(T),T)

 

(x(T),T)

 

(x(T),T)

f (x,u,T),

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dT

 

 

 

 

 

 

 

T

 

 

x(T)

 

 

 

 

 

 

 

 

 

образуем следующее матричное уравнение:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ф(x(T),T (x(T),T) (x(T),T)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2(T)

 

 

 

 

 

x(T)

 

 

x(T)

 

 

 

 

 

 

 

(T)

 

 

 

 

 

 

 

 

 

 

 

 

 

x(T)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x(T),T)

 

 

 

 

 

 

(x(T),T)

 

 

 

 

(3.34)

d (x(T),T)

 

 

0

 

 

 

 

 

d

 

 

 

 

x(T)

 

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dT

 

 

 

 

 

 

 

 

 

(x(T),T) (x(T),T) (x(T),T)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(T)

 

 

 

 

 

T

 

 

T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Уравнения (3.3) и (3.34) описывают линейную двухточечную краевую задачу для экстремалей при малых изменениях начальных условий x(t0 ) и/или малых изменениях терминальных d (x(T),T) условий. Эти изменения вызывают малые приращения x(T), d и dT.

Отметим, что матрица коэффициентов уравнения (3.34) симметричная. Это обстоятельство дает возможным сделать следующую запись:

73

 

(t)

S(t) R(t) m(t)

x(t)

 

 

d

 

 

 

 

Q(t)

 

d

 

(3.35)

 

 

RT (t)

n(t)

 

 

d

 

 

T

(t)

n

T

(t)

 

dT

 

 

 

 

m

 

 

a(t)

 

 

Продифференцируем

 

 

(3.35)

 

по

 

времени, считая, что d , d ,dT -

постоянные величины, а d 0. Тогда

 

 

 

 

d

 

 

 

 

 

 

d

 

 

S(t)

d

R(t)

d

m(t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(t)

 

 

 

dt

 

 

 

 

 

dt

 

 

 

 

dt

 

 

 

 

 

x(t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

d

 

 

 

T

 

 

d

 

 

 

 

 

d

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

R

 

(t)

 

 

 

 

Q(t)

 

 

 

 

n(t)

 

d

 

 

dt

 

 

 

 

 

 

dt

 

 

0

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

d

 

 

 

 

 

 

 

 

d

 

 

 

 

 

d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

T

 

 

 

 

T

 

dT

 

(3.36)

 

 

 

 

 

 

 

 

m

 

(t)

 

 

 

n

 

(t)

 

 

 

 

a

 

(t)

 

 

 

 

 

 

 

 

dt

 

 

dt

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S(t)

RT (t) d x(t) . dtt

m (t)

Линеаризованные уравнения (3.5), (3.6), (3.7) считаются справедливыми и в

. .

данном случае, поэтому можно подставить выражения для (t) и x(t) в (3.36), используя при этом верхнюю строчку уравнения (3.35) для исключения (t). В результате получим

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

d

 

 

 

 

 

 

 

 

 

 

T

 

 

 

 

d

 

 

 

 

T

 

 

 

 

 

 

 

S SA

A

 

SBS

C

 

 

 

 

R (A

 

SB)R

 

 

 

 

dt

 

 

dt

 

d

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

T

R

T

(A BS)

 

d

Q

R

T

BR

 

 

 

 

dt

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

d

m

T

m

T

(A BS)

 

 

d

 

n

T

m

T

BR

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

d

 

 

 

 

T

 

 

 

 

(3.37)

 

 

m (A SB)m

 

 

 

 

dt

 

 

 

 

x(t)

 

d

n RT Bm

 

 

 

 

d

.

 

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

d

a m

T

Bm

 

dT

 

 

 

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

 

 

Если матричное уравнение (3.37) должно быть тождеством (т.е. быть справедливым для любых x(t), d , dT ) и если уравнение (3.34) выполняется в точке t=T, то должны удовлетворяться следующие соотношения:

d S(t) S(t)A(t) AT (t)S(t) S(t)B(t)S(t) C(t) 0, dt

S(T) 2Ф(x(T),T);

x2 (T)

d R(t) [AT (t) S(t)B(t)]R(t) 0, dt

R(T) { (x(T),T)}T ;

x(T)

d Q(t) RT (t)B(t)R(t) 0, dt

Q(T) 0;

(3.38)

(3.39)

(3.40)

74

d m(t) [AT S(t)B(t)]m(t) 0, dt

m(T) { (x(t),T)}T ;

x(T)

d n(t) RT (t)B(t)m(t) 0, dt

n(T) (x(T).T);

T

d (t) mT (t)B(t)m(t) 0, dt

(T) (x(T),T).

T

(3.41)

(3.42)

(3.43)

Уравнение (3.38) является матричным уравнением Риккати, уравнения (3.39) и (3.41) – линейными матричными уравнениями, а (3.40), (3.42) и (3.43) – просто квадратурами. Отметим, что уравнения (3.38) – (3.40) идентичны уравнениям (3.16).

Если интегрировать от T до t0 , то следует использовать уравнения

второй и третьей строки выражения (3.35) при

через x(t0 )

и d (x(T),T):

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

T

 

 

d Q

 

 

 

 

 

 

 

 

 

[d (x(T),T) R x(t0 )],

dT [m

T

(t0 )

n

T

(t0 )

 

 

(t0 )

 

(t0 )] x(t0 )

 

 

Q

R

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

T

 

 

 

(t0 )

 

(t0 )

 

 

 

 

 

nT (t0 )Q 1(t0 )d (x(T),T),

(t0 )

здесь

Q Q mnT , R R mnT .

t0 для определения d и dT

(3.44)

(3.45)

(3.46)

Теперь можно определить (t0 ) из первой строки уравнения (3.38):

(t0 )

 

 

 

 

 

 

(3.47)

 

 

 

 

 

 

 

 

 

 

1

 

T

 

 

 

1

 

 

 

 

 

 

 

 

 

[S(t0 ) R(t0 )Q

R (t0 )] x(t0 ) R(t0 )Q (t0 )d (x(T),T)

 

здесь

 

 

 

 

 

 

 

 

 

S

mmT

.

 

 

 

 

 

 

(3.48)

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Зная начальные условия x(t0 ) и (t0 ), можно проинтегрировать один

раз линеаризованные уравнения (3.5), (3.6) в прямом времени для определения соседнего оптимального решения.

Но если (x(T),T) T 0, то с помощью последней строки матричного уравнения (2.34) можно вычислить dT через x(T) и d :

75

dT { (x(T),T)} 1[d (x(T),T)

 

T

 

(3.49)

 

(x(T),T)

 

 

 

x(T) {

(x(T),T)

}T d ].

 

 

 

x(T)

 

 

T

Подставив (3.49) в первые две строки выражения (3.34), получим

 

(T)

 

 

 

 

 

 

 

d (x(T),T)

 

 

 

 

 

 

 

 

 

 

2Ф

T 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

x2

 

x

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

x

 

 

 

 

t t

 

 

x(T)d .

T

T 1 T

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

x

 

x

x

 

 

(3.50)

 

 

 

 

 

 

 

 

 

T

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t

 

 

 

 

 

 

 

 

 

 

t

 

 

x

 

 

 

 

 

Для произвольного момента времени уравнение (3.50) перепишем:

 

(T)

 

 

ST(t)

R

(t)

x(t)

 

 

 

 

 

 

 

 

.

(3.51)

 

 

 

 

d (x(T),T)

 

 

R (t) Q(t)

 

d

 

 

 

 

 

 

 

 

Нетрудно проверить, что S(t), R(t), Q(t) удовлетворяют тем же дифференциальным уравнениям, что и S(t), R(t), Q(t), а именно, уравнениям (3.38), (3.39), (3.40), но имеют иные терминальные граничные условия. Эти терминальные условия могут быть найдены с помощью матрицы, входящей в уравнение (3.50).

Существование соседних оптимальных (в смысле минимума критерия качества) траекторий при незаданном времени окончания переходного процесса зависит от выполнения трех условий, аналогичных условиям § 3.2,

а именно:

 

 

 

 

 

 

 

 

 

 

 

1.

Huu (x,u, ,t) 0

для

t0

t T,

(3.52)

2.

 

 

(t) 0, (t) 0,

 

для

t0 t T,

(3.53)

 

Q

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

T

 

3.

Матрица S(t) R(t)Q

 

 

(t)R (t)

 

ограничена при

t0

t T .

(3.54)

 

 

 

Условие

(3.52)

 

называют условием выпуклости,

условие (3.53) –

условием нормальности, условие (3.54) – условием отсутствия сопряженных точек.

Достаточным условием слабого локального минимума функционала J(x,u) (т.е. справедливого при малых вариациях x(t), u(t), ) является выполнение необходимых условий первого прядка (3.1), (3.26) и условий второго порядка (3.52), (3.53), (3.54). Необходимыми условиями второго прядка для минимума являются ослабленные условия (3.52) и (3.54):

1.

Huu (x,u, ,t) 0, t0

t T,

 

(3.55)

2.

 

(t) 0, (t) 0,

для t0

t T,

(3.56)

Q

 

 

 

 

 

 

 

 

 

1

 

T

 

 

 

 

 

 

 

 

 

 

 

3. Матрица S(t) R(t)Q (t)R

(t)

 

76

ограничена при t0 t T .

(3.57)

Если подставить выражения для

(t)из (3.47) в (3.4), т.е. в

u(t) Huu1(x,u, ,t)[Hux (x,u, ,t) x(t) fuT (x,u,t) (t)],

то получится закон управления с обратной связью для соседней оптимальной траектории:

u(t) Huu1(x,u, ,t){[Hux (x,u, ,t)

 

 

 

 

 

 

 

 

 

 

 

1

 

T

(3.58)

fuT (x,u,t)[S(t) R(t)Q

 

(t)R

(t)] x(t)

 

 

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

 

 

 

 

 

fuT (x,u,t)R(t)Q

(t)d (x(T),T)},

 

причем это выражение совпадает с (3.17).

Предсказать время окончания переходного процесса можно с помощью соотношения

mT (t)

 

nT (t)

 

 

1

 

T

 

 

 

 

 

 

 

dT

 

 

 

Q (t)R (t)

x(t)

 

(t)

(t)

 

 

 

 

 

 

 

 

 

(3.59)

 

 

 

 

 

 

 

 

 

 

nT (t)Q 1(t)d (x(T),T).

(t)

§3.6. Уравнения для функционала качества

Найдем уравнение, описывающее поведение функционала вдоль оптимальной траектории, в предположении, что этот функционал достаточно

гладок.

 

 

Пусть (x0 ,t0 ) – исходная пара и u(t) U

- допустимое управление

(возможно не оптимальное), переводящее (x0 ,t0 )

в заданную область S точку

(x(T),T) (например, (x(T),T) 0) и поэтому:

 

T

 

(3.60)

J(x,u,t) Ф(x(T),T) t0

L(x,u, )d

есть вполне определенное число для t [t0 ,T].

Если считать, что J(x,t)- непрерывно дифференцируемая функция на

Rn (T ,T ), удовлетворяющая условиям:

 

1

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. (x(t),t) для t [t0 ,T],

 

 

 

 

(3.61)

2. J(x,t) J(x,u,t)

для t [t0 ,T],

 

 

(3.62)

то можно получить следующую зависимость:

 

dJ(x,t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

(3.63)

 

 

J(x,t)

 

J(x,t)

 

dx(t)

 

J(x,t)

 

J(x,t)

 

 

 

 

 

 

 

f (x,u,t).

 

 

 

 

 

x(t)

 

 

 

t

x(t)

dt

t

 

С другой стороны

 

 

 

 

 

 

 

 

 

dJ(x,t)

L(x,u,t).

 

 

 

 

 

 

 

(3.64)

 

 

 

 

 

 

 

 

 

dt

Сравнивая правые части (3.63) и (3.64), получаем

77

(t)

J(x,t) J(x,t) f (x,u,t) L(x,u,t)t x(t)

или, эквивалентно,

 

J(x,t)

 

L(x,u,t)

J(x,t)

f (x,u,t) 0.

(3.65)

 

t

 

 

 

 

 

 

x(t)

 

Так как гамильтониан имеет вид

 

 

H(x,u, ,t) L(x,u,t) T (t)f (x,u,t),

 

то для t [t0 ,T] имеем

 

 

J(x,t)

H(x,u,

J(x,t)

,t) 0.

(3.66)

 

 

 

 

t

 

 

x(t)

 

Отметим, что

1.J(x,t) может и не существовать;

2.если и можно найти J(x,t), то нет гарантии, что функция времени

J(x,t)x(t) - градиент J(x,t), вычисленный в точке (x(t),t), есть дополнительный вектор , соответствующий u(t) и x(t), т.е. нет уверенности, что существует зависимость

d

J(x,t)

 

 

 

 

x(t)

dt

 

 

H(x,u, ,t)

.

(3.67)

 

 

 

 

x(t)

 

Пусть (x(t),t) X , где Х – область, содержащая S. Обозначим минимум

(наибольшую нижнюю границу) функции J(x,t)

через J0 (x,t):

J0 (x,t) min J(x,u,t).

(3.68)

u U

 

Управление u(t) U , при котором достигается

min J(x,u,t), обозначим через

u0 (t).

 

Таким образом, u0 (t) U - допустимое и в силу (3.68) оптимальное управление.

Предположим также:

1.(x0 (t),t) X для t [t0 ,T];

2.J0 (x,t) непрерывно дифференцируема на X.

В силу оптимальности u0 (t) U можно записать, что:

 

J0 (x0 ,t)

H(x0 ,u0 ,

J0 (x0 ,t)

,t) 0

(3.69)

 

 

 

 

t

 

 

x0 (t)

 

для t [t0 ,T].

Таким образом, при предположениях 1 и 2

уравнение (3.69)

является дополнительным необходимым условием оптимальности.

Из условия, что на поверхности (x(T),T) 0 функционал

 

J0 (x,T) K(x(T),T) T (x(T),T)

(3.70)

следует существование вектора , удовлетворяющего следующему соотношению:

78

 

J

0(x,T)

 

 

 

 

 

 

 

 

x(T)

 

 

 

 

(3.71)

 

 

 

 

 

 

 

 

 

K(x(T),T)

 

 

T (x(T),T)

 

 

 

 

T

 

 

 

 

 

 

 

(T).

 

x(T)

 

x(T)

 

 

 

 

 

 

 

Уравнение (3.69)

с краевым

условием (3.70), которое выполняется для

(x(T),T) S ), называется уравнением Гамильтона – Якоби.

Покажем, что при некоторых предположениях относительно управляющих воздействий, справедлива зависимость (3.67).

Пусть

u(t) u(x,t),

 

т.е. управление есть функция состояния объекта

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

J(x,t) Т

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

управления и (t)

 

 

 

 

 

 

 

 

. Тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

J(x,t)

 

 

 

 

 

 

 

 

 

 

 

J(x,t)

 

 

(3.72)

 

H(x,u,

,t) L(x,u,t)

 

 

f (x,u,t)

 

 

 

 

 

 

 

 

 

 

 

 

x(t)

 

и

 

 

 

 

 

x(t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

d

T (t)

 

d

 

 

J(x,t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(3.73)

 

 

 

 

dt

 

 

 

 

x(t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

dt

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Продифференцируем выражение (3.65) по x(t). Будем иметь

 

2J(x,t)

 

L(x,u,t)

 

L(x,u,t)

 

u(x,t)

f T (x,u,t)

2J(x,t)

 

 

t x(t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(t)

 

 

 

 

 

u(x,t)

 

x(t)

 

 

 

 

 

 

x2 (t)

 

 

J(x,t) f (x,u,t)

 

 

f (x,u,t) u(x,t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(t)

 

 

 

x(t)

 

 

u(x,t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(t)

 

 

 

 

 

 

 

 

 

 

2J(x,t)

 

L(x,u,t)

f T (x,u,t)

2J(x,t)

 

J(x,t)

 

f (x,u,t)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

t x(t)

 

 

 

 

x(t)

 

 

 

 

 

 

 

 

 

 

 

 

 

x2 (t)

 

 

x(t)

 

 

x(t)

 

L(x,u,t)

 

J(x,t) f (x,u,t) u(x,t)

0.

(3.74)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x(t)

 

 

 

 

x(t)

 

 

 

u(x,t)

 

 

 

 

 

u(x,t)

 

 

 

 

 

 

 

 

 

 

Согласно (3.72) выражение в квадратных скобках при u(x,t) x(t) на оптимальной траектории обращается в нуль. Используя (3.74), преобразуем

(3.73) к виду

d

T (t)

L(x,u,t)

T (t)

f (x,u,t)

.

(3.75)

dt

x(t)

 

 

 

x(t)

 

Кроме того, условие (3.71) определяет значение (T). Отметим, что уравнение (3.75) совместно с уравнением (3.72) образует систему уравнений Эйлера – Лагранжа.

Таким образом, если имеется допустимое управление u(t) и при этом:

1.

u(t) переводит (x(t0),t0) в S;

 

2.

если траектория x(t), соответствующая u(t), то (x(t),t) X для всех

 

t [t0,T];

 

3.

u(t) удовлетворяет соотношению u(t) u(x,t) для всех t [t0 ,T],

где

 

u(x,t)является решением уравнения Гамильтона - Якоби, то

u(t)

 

 

79

есть оптимальное управление к множеству допустимых управлений, производящих траектории, которые целиком расположены в X .

§ 3.7. Обсуждение вариационного метода

Результаты, полученные в первых двух главах, основанные на обращении в нуль первой вариации минимизируемого функционала, дают для относительной оптимальности необходимые, но недостаточные условия. Эти условия допускают более широкое множество решений или траекторий, называемых «стационарными», которые соответствуют не только искомым локальным минимумам, но также локальным максимумам и седловым точкам в функциональном пространстве. Известные в настоящее время теоремы существования неприложимы к основной массе практических задач. Правда, иногда физические соображения позволяют установить существование минимума так, что если необходимые условия допускают единственное решение, то это решение будет действительно оптимальным. К сожалению, в большом числе важных практических случаев единственность не имеет места или же не может быть легко проверена из-за трудоемкости многократного численного интегрирования сложной системы уравнений, описывающих задачу.

По этой причине оптимальность вычисленного решения или решений не может быть гарантирована. Можно найти все решения, удовлетворяющие необходимым условиям, сравнить их и то из них, для которого функционал имеет наименьшее значение, считать оптимальным. Однако этот метод, кроме больших вычислительных затрат, которые он может вызвать, связан с риском получить ложные выводы, если не будут найдены все экстремали.

Метод, гарантирующий одной из экстремалей характер относительного минимума, основывается на исследовании второй вариации классического вариационного исчисления. Исключая один редкий случай, когда вторая вариация равна нулю, при выполнении некоторых других довольно мало ограничивающих условий этот метод вместе с результатами первой и второй главы образуют необходимые и достаточные условия сильной оптимальности. Однако они опираются на два ограничительных предположения, которые делаю их неприменимыми в большинстве практических задач, а именно:

нет ограничений на управляющие воздействия;

управления являются непрерывными.

Однако можно освободиться от этих предположений, введя управления так, как это показано в § 3.2.

Кроме исследований второй вариации функционала, в настоящей главе получено уравнение Гамильтона – Якоби, которое является дополнительным необходимым условием оптимальности.

Отметим, что уравнение Гамильтона – Якоби, являющееся уравнением в частных производных, в ряде случаев довольно трудно решать (а иногда и невозможно). Конкретное решение может представлять собой лишь

80

функционал вдоль данной траектории, а не на всей области X. По этой причине уравнение Гамильтона – Якоби чаще всего используется для проверки оптимальности управления.

Если функционал J(x,u,t)гладкий, то уравнение

J(x,u,t)

H(x,u,

J(x,u,t)

,t) 0

(3.76)

t

 

 

x0 (t)

 

описывает поведение функционала вдоль траектории x(t) данной системы. Таким образом, независимо от того, какое управление u(t) приводит к области S, функционал должен удовлетворять уравнению (3.76).

81

Глава 4. Динамическое программирование

§ 4.1. Постановка задачи

Необходимые условия оптимальности, рассмотренные в главах 1 и 3, были основаны на рассмотрении отдельных траекторий. Однако эволюционные процессы можно изучать на множестве траекторий. Излагаемый в настоящей главе метод динамического программирования как раз и основан на изучении всего множества оптимальных траекторий.

Почти одновременно с опубликованием принципа максимума Понтрягина американским ученым Р. Беллманом был разработан метод динамического программирования. Метод был разработан для исследования систем оптимального управления значительно более широкого класса, чем систем, описываемых дифференциальными уравнениями, и он применим поэтому не только к оптимальным задачам, но и к весьма широкому кругу технических и экономических задач, в которых связи между координатами, управлениями и критериями оптимальности могут задаваться как в виде уравнений весьма произвольного вида, так и в виде экспериментально определенных графиков или таблиц численных данных.

При обосновании метода динамического программирования предполагается, что функционал, выражающий критерий оптимальности, является дифференцируемой функцией фазовых координат. В этом случае метод динамического программирования приводит к уравнению в частных производных (уравнение Гамильтона – Якоби - Беллмана), с помощью которого нетрудно получить принцип максимума (минимума) Понтрягина.

Так как в ряде задач, решаемых методом динамического программирования, эти условия не выполнялись, то это давало основание считать, что метод динамического программирования скорее представляет собой хороший эвристический прием, чем математическое решение задачи.

В основу динамического программирования положен принцип оптимальности. Согласно этому принципу оптимальное управление определяется конечной целью управления и состоянием системы в рассматриваемый момент времени, независимо от того, каким образом система пришла в это состояние, т.е. оптимальное управление не зависит от предыстории системы. Это означает, что для любой оптимальной траектории каждый участок, связывающий любую промежуточную точку этой траектории с конечной, также является оптимальной траекторией.

Пусть задача управления выглядит следующим образом. Задан динамический объект и функционал качества

d

x(t) f (x,u,t), x(t

 

) x , t [t

 

,T],

(4.1)

 

0

0

dt

 

 

0

 

 

 

 

 

 

 

x Rn, u Rr ,u(t) U,

 

 

 

 

 

T

 

 

 

 

 

(4.2)

J(x,u) K(x(T))

 

L(x,u,t)dt inf

 

 

 

 

 

u(t) U

 

 

 

t0

 

 

 

 

 

 

82

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]