интегралу (8.13), т. е.
Q
=
T 1dt
0
, при
условии, что на управление
наложено ограничение (8.4), т. е.
u
1
,
начальные условия на
координату x заданы равенствами координату x – нулевые, т. е. x(T ) =
(8.24),
x(T ) = 0
а конечные условия, на
.
8.3. Синтез простейшей оптимальной по быстродействию системы второго порядка
Рассмотрим решение задачи отыскания оптимальных процессов и синтеза управляющего устройства на примере задачи 8.1, где для
объекта с уравнением (8.12) d 2 y |
dt 2 = u , ограничением u 1 и |
||
граничными условиями |
|
|
|
y(0) = −α0 |
; |
y(T ) = 0 |
; |
y(0) = 0 ; |
y(T ) = 0 |
|
требуется обеспечить оптимальность по быстродействию.
8.3.1. Оптимальные процессы управления.
предположить, что для наибыстрейшей отработки
Естественно,
величины |
α0 |
следует вначале разгонять систему с предельно допустимым ускорением, а затем в определенный момент времени управление следует переключить с разгона на торможение также с предельно допустимым, но уже отрицательным ускорением. При точно выбранном моменте переключения с разгона на торможение скорость изменения координаты y станет равной нулю как раз тогда, когда y
переместится на величину
α0
.
Поскольку максимальное и
минимальное значения управления равны по модулю, то отрезки времени, затраченного на разгон и торможение, равны между собой и
будут |
T |
2 |
, где Т – время переходного процесса. График такого |
|
|
процесса управления u(t) показан на рис. 8.5, а.
При движении системы с положительным ускорением ( u = +1; 0 t T 2 ) скорость нарастает по закону (рис. 8.5, б)
dy dt = t .
Координата y (рис. 8.5, в) к моменту t = T 2 достигнет половины отрабатываемой величины, т.е.
203
T |
|
|
T 2 |
|
t |
2 |
T 2 |
|
T |
2 |
|
|
|
|
|
||||||
= |
|
y(t)dt − α0 = |
|
− α0 |
= |
|
||||
y |
|
2 |
8 |
|||||||
2 |
|
|
0 |
|
0 |
|
||||
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
а
б
в
Рис. 8.5
− α0
|
α |
|
= − |
0 |
|
2 |
||
|
.
(8.25)
Отсюда найдем общее время оптимального переходного
процесса |
|
T = 2 α0 . |
(8.26) |
Для реализации оптимального процесса в разомкнутой системе необходимо вычислительное устройство, которое по заданной величине α0 определит T из (8.26) и осуществит по программе
управление |
u = +1 на интервале 0 t T 2 и u = −1 на интервале |
T 2 t T |
и далее u = 0 при t T . Оптимальность рассмотренного |
управления можно доказать путем простых рассуждений.
204
Заметим, что площадь под линией
y(t)
при любом управлении
должна быть одной и той же и равняться заданной величине
α0
.
Пусть, например, на отрезке времени [0, T/2] в течение интервала τ не выполнялось равенство u = +1. Такое неоптимальное управление показано на рис. 8.5, а пунктиром и обозначено через uн (t) . Соответствующая управлению uн (t) линия изменения скорости
yн (t) при t [0, T 2] будет проходить ниже прямой 0а оптимального процесса скорости, поэтому площадь под линией yн (t) на отрезке [0, T/2] окажется меньше величины α0 / 2 . Чтобы покрыть требуемую
площадь
α0
при дальнейшем движении системы линия
y |
н |
(t) |
|
|
должна
на каком-то участке проходить выше линии |
ab . Это значит, что для |
t T 2 |
линии |
y(t) |
и |
yн (t) |
должны |
пересечься. |
Второй |
раз |
пересечься внутри отрезка [T/2, T] или хотя бы встретиться при |
t = T |
|||||||
линии |
yн (t) и |
y(t) |
не |
смогут, |
так как |
для этого |
yн (t) должна |
снижаться круче, чем
y(t)
,
что недопустимо из-за ограничения
величины и. Отсюда следует, что время для отработки величины |
0 |
||||||
при управлении |
u |
н |
(t) |
будет больше, чем Т. |
|
|
|
|
|
|
|
|
|
||
Таким образом, любое отклонение от управления |
|
|
|||||
|
|
|
|
+1 при 0 |
t T 2, |
(8.27) |
|
|
|
|
|
u(t) = |
|
||
|
|
|
|
−1 при T |
2 t T |
|
|
приводит к увеличению времени переходного процесса, следовательно, управление (8.27) является оптимальным. Напомним, что функцию u(t) определяемую в виде (8.27), называют кусочно-
постоянной.
8.3.2. Синтез оптимального управляющего устройства.
Введем в рассмотрение фазовую плоскость с координатами
|
y = y1; |
|
|
|
||
|
dy |
|
dy1 |
|
|
(8.28) |
|
= |
= y2 |
|
|||
|
|
|
. |
|
||
|
dt |
dt |
|
|||
|
|
|
|
|
||
Тогда рассматриваемая задача может быть сформулирована как |
задача наибыстрейшего перевода |
точки на фазовой плоскости ( y1, y2 ) |
из положения (−α0 ,0) в начало |
координат. С учетом обозначений |
(8.28) можно записать
205
d |
2 |
y |
|
dy |
|
|
|
dy |
|
|
|
dy |
|
|
dy |
|
|
|
||
|
|
2 |
|
2 |
|
|
|
|
2 |
|
|
|||||||||
|
|
|
= |
|
= |
|
|
|
|
1 |
= |
|
y2 . |
|
||||||
dt |
2 |
dt |
|
dy |
dt |
dy |
|
|||||||||||||
|
|
|
|
|
|
|
|
|
||||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
1 |
|
|
||
Подставляя это равенство в уравнение (8.12) объекта, получим |
||||||||||||||||||||
|
|
|
|
(dy |
2 |
dy |
1 |
) y |
2 |
= u |
. |
|
|
|
(8.29) |
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
Оптимальное управляющее воздействие, как видно из (8.27), |
||||||||||||||||||||
может принимать только два значения u = −1 |
или |
u = +1. Подставляя |
эти значения в (8.29), можно найти уравнение для фазовых траекторий системы. При u = +1
y 2 2
2 =
y1
+
c
.
(8.30)
Здесь c – постоянная интегрирования, величину которой можно найти, задав координату точки, находящейся на требуемой траектории. Например, для траектории семейства (8.30), проходящей через начало координат, c = 0, и уравнение этой траектории имеет вид
2 |
2 = y1. |
y2 |
Семейство фазовых траекторий (8.30) для различных на рис. 8.6, а.
Траектория с уравнением (8.31) выделена. При u = −1
2 |
2 = − y1 + c . |
y2 |
(8.31)
с показано
(8.32)
Траектория, проходящая через начало координат, определяется уравнением
y 2 2
2 =
−
y1
.
(8.33)
Семейство траекторий (8.32) показано на рис. 8.6, б, а траектория (8.33) выделена.
Поскольку целью управления является перевод точки на фазовой плоскости в начало координат, то заключительный этап движения может проходить только по траектории (8.31), если u = +1, или по траектории (8.33), если u = −1.
206
а |
б |
в
Рис. 8.6
Следует уточнить, что не вся траектория (8.31) приводит
систему в |
начало |
координат, |
а |
лишь |
|
часть ее, расположенная в |
||||||||||||||||||
четвертом |
квадранте, |
для |
которой |
y |
2 |
|
0 |
. Эта |
часть |
траектории |
||||||||||||||
|
|
|
|
|||||||||||||||||||||
может быть описана уравнением, эквивалентным (8.31) при |
y |
2 |
0 |
: |
||||||||||||||||||||
|
|
|||||||||||||||||||||||
|
|
|
|
|
|
|
y |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
y1 |
= |
2 |
|
(−sign y2 ) . |
|
|
|
|
|
|
|
|
||||||||
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Аналогично |
для |
|
u = −1 |
|
к |
началу |
координат |
ведет |
часть |
|||||||||||||||
траектории |
(8.33) |
при |
y |
2 |
0 |
. |
Этот |
|
участок |
можно |
|
описать |
||||||||||||
|
|
|
|
|
|
|
||||||||||||||||||
уравнением, эквивалентным (8.33) при |
y |
2 |
0 |
: |
|
|
|
|
|
|
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|||||||||||||||
|
|
|
|
y |
|
= − |
|
y22 |
sign y |
2 |
. |
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
|
|
1 |
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
207
Сравнивая два последние уравнения, заметим, что эти уравнения совпадают. Таким образом, движение системы на последнем отрезке времени описывается уравнением
y |
+ |
1 |
|
2 |
|
y |
|
2 |
sign y |
2 |
2 |
|
=
0
.
(8.34)
Для попадания на завершающий участок движение должно проходить по траекториям (8.30), когда начальные координаты точки лежат под линией, соответствующей уравнению (8.34), и по траекториям (8.32), когда начальные координаты изображающей точки лежат над линией, соответствующей уравнению (8.34) (рис. 8.8, в). Например, в рассматриваемой задаче перевод изображающей
точки из положения |
[−α0 , 0] |
начинается при u = +1 (участок AB на |
|
рис. 8.6, в). В точке |
B |
управление должно сменить знак, т.е. для |
|
|
|
|
дальнейшего движения u = −1 (участок В0).
Поскольку при попадании изображающей точки на линию (8.34) в управляющем воздействии происходит переключение с одного предельного значения на другое, кривую (8.34) можно назвать линией переключения.
Введем в рассмотрение функцию
|
|
|
v = − y |
+ |
|
|
1 |
|
|
|
|
2 |
|
|
y |
|
|
2 |
sign |
|
2 |
||
|
y2
.
(8.35)
На линии переключения, как это следует из (8.34), она
обращается в |
нуль. Для точек фазовой плоскости, расположенных |
правее линии |
переключения, т.е. там, где u = −1, функция v 0. В |
этом просто убедиться, переместившись с любой точки линии переключения вправо без изменения y2 . Слагаемое y1 при этом
получит положительное приращение, а
( y |
2 |
2) sign y |
|
|
2 |
2 |
|||
|
|
останется
неизменным. Следовательно, с учетом знака минус перед скобкой в (8.35) правая часть этого выражения получит отрицательное приращение. А так как на линии переключения v = 0, наше утверждение доказано. Аналогично можно убедиться, что для точек,
расположенных левее линии переключения, где |
u = +1, функция |
v 0. |
|
Если с учетом поведения функции принять закон управления в |
|
виде |
|
u = sign v , |
(8.36) |
208
то полученное управление будет совпадать с оптимальным. Рассмотрим техническую реализацию формулы (8.36).
Управление |
u |
должно формироваться с помощью идеального |
двухпозиционного реле, переключения которого происходят при
смене знака функции v. Так как функция |
v |
управляет |
переключениями реле, то ее можно назвать переключающей функцией. Заметим, кстати, что выражение для переключающей функции (8.35) отличается от левой части уравнения линии переключения (8.34) только знаком.
Зная уравнения (8.35) и (8.36), можно построить управляющее устройство для реализации оптимальной системы.
В целом структурная схема синтезированной оптимальной системы показана на рис. 8.7, где управляющее устройство УУ обведено штриховым контуром. Знак минус, стоящий перед скобкой в (8.35), учитывается знаком органа сравнения. Рассогласование (в
нашем случае |
x = − y |
1 ) проходит на суммирующий узел, на второй |
вход которого подается величина
сигнала производной |
y |
2 |
с |
|
|
|
преобразователей. Производную
− ( y |
2 |
2) sign |
|
2 |
|||
|
|
помощью
определяет
y2 |
, формируемая из |
трех нелинейных дифференциатор p .
Выходной сигнал суммирующего узла управляет положением реле, воздействующего на объект.
Рис. 8.7
209
На основе рассмотренной задачи можно сделать следующие выводы:
1. оптимальное управляющее воздействие представляет собой кусочно-постоянную функцию, принимающую предельные значения
(
1
);
2.для реализации оптимального управления может быть использовано двухпозиционное реле, положение которого определяется знаком переключающей функции;
3.техническая реализация оптимальной переключающей
функции v даже для простейшей системы довольно сложна, поэтому при решении практических задач оптимального управления целесообразно найти эквивалентную переключающую функцию vэ ,
совпадающую с реализации.
v
по знаку, но более простую для технической
8.4. Краткая характеристика методов оптимального управления
Задача оптимального управления была сформулирована как
задача достижения экстремума функционала |
Q[y(t), u(t)] |
путем |
выбора управления
u(t)
при соблюдении необходимых ограничений
на управления и фазовые координаты. Математическим аппаратом для нахождения экстремалей является вариационное исчисление.
Можно выделить четыре основных метода в вариационном исчислении, используемых для решения задач оптимального управления: применение уравнения Эйлера, принцип максимума, динамическое программирование и прямой вариационный метод.
Исторически первым появился метод, использующий уравнение Эйлера. Основные задачи, для которых была развита Эйлером теория, имели экстремалями гладкие функции, а экстремизируемый функционал и дополнительные условия задавались нелинейными функциями координат. Поэтому уравнение Эйлера целесообразно применять для решения оптимальных задач управления, где по физическому смыслу трудно ожидать решения в виде разрывных функций и где функционал и уравнения связи существенно нелинейны.
К середине 50 годов XX в. практикой автоматического управления была доказана целесообразность применения во многих линейных задачах кусочно-непрерывных управляющих воздействий.
210
Новые задачи обусловили появление нового метода – принципа максимума, который наиболее эффективно дает решение для линейных оптимальных задач при ограничениях на управление в виде неравенств.
Метод динамического программирования, в основу которого положен принцип оптимальности, развился как аппарат исследования многошаговых оптимальных решений в различных отраслях науки и техники, в том числе в автоматическом управлении, также в 50-е годы. Этот метод наиболее удачно применяется в задачах с дискретным временем и уравнениями в конечных разностях благодаря удачному сочетанию принципа оптимальности и возможностям современной вычислительной техники.
Прямой вариационный метод давно применяется для отыскания экстремалей. Этот метод использует приемы вычислительной математики, и естественно, что с широким внедрением вычислительной техники прямые вариационные методы пережили второе рождение и вышли на передовые позиции среди методов решения задач оптимального управления.
8.5. Принцип максимума и его применение для решения задач оптимального управления
Рассматриваемый метод решения вариационных задач был разработан коллективом советских ученых под руководством академика Л. С. Понтрягина в период 1956-1960 гг. Центральным стержнем метода является принцип максимума, высказанный впервые Л. С. Понтрягиным в виде гипотезы, поэтому указанный метод решения вариационных задач широко известен как принцип максимума Понтрягина. Нужно отметить, что принцип максимума разрабатывался специально для решения задач оптимального управления, поэтому и постановка задачи, и терминология в принципе максимума гораздо ближе специалистам по управлению, чем в методах, основанных на уравнении Эйлера. Но главным достоинством этого метода является то, что класс искомых управлений включает в себя кусочно-непрерывные функции.
Теоремы принципа максимума справедливы для систем управления, поведение которых можно описать системой дифференциальных уравнений первого порядка:
211
где
yi
yi = fi ( y1, ..., yn , u1, ..., ur ) |
(i =1, , n) , |
– фазовые координаты объекта; ui |
– управления. |
(8.37)
Ставится задача систему за время Т
– |
отыскать управления |
u(t) , переводящие |
||||
из |
положения |
y(t0 ) |
в |
положение |
y(T ) |
и |
доставляющие экстремальное значение функционалу
T
Q = G(y, u, t)dt .
t0
Переход к описанию объекта управления в виде системы уравнений вида (8.37) от линейного уравнения n -го порядка,
например, |
осуществляется |
путем |
замены |
переменных |
yk = d k −1 y |
dt k −1 и подстановки |
их в |
исходное уравнение. Пусть |
уравнение объекта с одним, управляющим воздействием
u
|
|
d |
n |
y |
|
|
d |
n −1 |
y |
|
|
||
a |
|
|
+ a |
|
|
|
|
+ ... |
|||||
0 |
|
|
n |
|
|
|
n −1 |
||||||
|
dt |
1 |
dt |
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
||||
Тогда, обозначая |
|
y |
= y |
, |
|
y |
2 |
= y |
, |
||||
|
1 |
|
|
|
|
|
|
систему n уравнений первого порядка
y |
|
= y |
2 |
; |
|
|
|
|
|
|
|
|
|||
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|||
y |
2 |
= y |
3 |
; |
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
. . . . |
|
|
|
|
|
|
|
|
|
|
|||||
y |
n |
−1 |
= y |
n |
; |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
y |
|
= − |
|
1 |
a y |
|
+ a |
|
y |
|
+ |
||||
n |
|
|
|
n |
2 |
n −1 |
|||||||||
|
|
|
|
|
a |
|
1 |
|
|
|
|||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
|
+ an y = u .
y3 = y , …, можем записать
... + a |
n |
y |
− u . |
|
1 |
|
В число фазовых координат объекта включают еще величину характеризующую текущее значение функционала, т.е.
y0
t
y0 (t) = G u, y, t dt ; y0 (T )= Q .
t0
Дифференциальное уравнение для координаты |
y0 |
так: |
|
y0 = G[u, y, t] = f0 (u, y, t) . |
|
Добавляя уравнение (8.38) в (8.37), запишем систему уравнений задачи оптимального управления
записывается
(8.38)
окончательно
212