- •6.7. Связь между вариационным исчислением, принципом максимума и динамическим программированием
- •6.8. Основные результаты раздела
- •7. Синтез оптимальных линейных систем управления по интегральному квадратичному критерию и методом фазовой плоскости
- •7.1. Синтез нестационарного оптимального управления линейной системой при квадратическом критерии
- •7.2. Решение стационарной задачи
- •7.3. Синтез оптимального линейного регулятора выхода
- •7.4. Метод фазовой плоскости синтеза оптимальной по быстродействию системы
Пример 6.12. Найти оптимальное управление объектом
минимизирующие функционал
где - произвольные заданные числа, момент времени не фиксирован.
Решение. Так как в J и в уравнениях движения не зависят от времени, то . Уравнения (6.99), (6.100) принимают вид
,
откуда
.
Подставив это выражение в первое уравнение, получим
или
Граничные условия для функции Беллмана , причем в нашем случае , а в условии отсутствует. Поэтому , откуда . Необходимо представить функцию Беллмана так, чтобы выполнялось условие .
Поэтому решение ищем в виде положительно определённой квадратичной формы
,
которая удовлетворяет граничному условию. Вычислив частные производные и подставив эти выражения в уравнение Беллмана, получим
или
.
Последнее равенство будет выполняться тождественно, если
.
Эта система уравнений имеет следующие решения
.
Так как, по определению, функционал Беллмана
то при всех . Поэтому квадратичная форма, удовлетворяющая уравнению Беллмана, будет функцией Беллмана, если она является положительно-определенной. Этому условию удовлетворяет решение
,
поэтому функцию Беллмана можем окончательно записать
,
а оптимальное управление имеет вид
.
6.7. Связь между вариационным исчислением, принципом максимума и динамическим программированием
Установим вначале связь между принципом максимума и классическим вариационным исчислением, рассматривая задачу оптимального управления для случая, когда на управление не наложено ограничений, получим условия экстремума функционала
(6.101)
для фиксированных граничных условий и исходя из принципа максимума.
Введем обозначение и найдем условия экстремума для функционала
, (6.102)
используя принцип максимума для неавтономных систем. Для этого составим функцию Гамильтона (Н), учитывая, что , :
. (6.103)
Переменные удовлетворяют системе уравнений
. (6.104)
Для нетривиального решения положим = - 1. Тогда
, (6.105)
а система (6.104) принимает вид
. (6.106)
Так как на оптимальном управлении функция достигает максимума по u, то, поскольку допустимая область значений для u(t) открытая, можно записать условие этого экстремума
, (6.107)
которое с учетом структуры функции H (6.105) приводит к условиям
. (6.108)
Продифференцировав (6.108) по t, подставив вместо выражение (6.106) и вернувшись к , получим уравнение Эйлера-Лагранжа
, (6.109)
которое является необходимым условием экстремума функционала (6.101). Можно продолжить и показать, что справедливы условия Вейерштрасса-Эрдмана для кусочно-гладких траекторий и условия трансверсальности для подвижных границ.
Покажем теперь, что основные соотношения принципа максимума в задаче управления системой
(6.110)
при отсутствии ограничений на управление u(t) могут быть получены с помощью вариационного исчисления. Пусть минимизируемый функционал имеет вид (6.102).
Решаем задачу Лагранжа с соответствующей функцией Лагранжа
, (6.111)
где - неопределенные множители Лагранжа.
Уравнения Эйлера имеют вид
,
, (6.112)
. (6.113)
Тогда множители играют роль коэффициентов в (6.103), и можно записать функцию
, (6.114)
а уравнения (6.112) и (6.113) приводят к системе уравнений
(6.115)
Выясним связь между классическим вариационным исчислением и методом динамического программирования. Для этого рассмотрим задачу минимизации функционала (6.101). Произведем замену и составим уравнение Беллмана
. (6.116)
Если на управление u(t) ограничения не накладываются, то условие минимизации правой части (6.116) приводит к уравнению
, (6.117)
которое после обратного перехода к вместе с (6.116) дает систему уравнений
, (6.117)
. (6.118)
Взяв полную производную по t от (6.117) и частную производную по (6.118) по x, и учитывая, что для некоторой функции , имеем
,
следовательно, для уравнения (6.117) после дифференцирования принимает вид
,
а уравнение (6.118)
.
В последних двух уравнениях мы можем избавиться от S и получить единственное уравнение
,
или
,
которое в точности совпадает с уравнением Эйлера.
Теперь найдем решение стационарной (для простоты изложения) задачи динамического программирования:
Тогда уравнение Беллмана имеет вид
, (6.120)
где
.
Пусть S(x) – дважды дифференцируема. Введем функцию
и запишем уравнение (6.120) в виде
. (6.121)
Если u(t) – оптимальное управление, то в силу непрерывности и дифференцируемости функций имеем
. (6.122)
Учтем, что
.
Если обозначить
, (6.123)
то систему равенств можно представить в виде
.
Последние уравнения совпадают с уравнениями для векторной функции в принципе максимума, и из (6.121) следует, что функция достигает на оптимальном управлении максимума по u(t).
Таким образом, мы доказали сводимость необходимых условий всех рассмотренных методов на задачах без ограничений на управление.