Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТОАУ.docx
Скачиваний:
51
Добавлен:
21.12.2018
Размер:
1.32 Mб
Скачать

1.2.3. Метод динамического программирования в непрерывной задаче. Уравнение беллмана

Рассмотрим решение сформулированной непрерывной задачи оптимального управления в терминах динамического программирования. С этой целью предположим, что задача решена и найдены оптимальное управление и соответствующая ему траектория движения объекта . Минимальное значение критерия, соответствующее оптимальному управлению, обозначим символом . Выберем на оптимальной траектории две точки, соответствующие моментам и , где — малая величина. В соответствии с принципом оптимальности участки оптимальной траектории от точек и до конечной точки и являются оптимальными. Обозначим через и минимальные значения функционала (1.46), соответствующие этим участкам:

Между этими величинами существует связь

(1.62)

Учитывая малость величин , представим

(1.63)

где — малая с большим порядком малости, чем .

Функцию разложим в ряд Тейлора в окрестности точки и, учитывая малость величины , разложение представим в виде

(1.63)

где - совокупность последующих членов ряда Тейлора (векторные величины).

Далее предположим, что функция дифференцируема по своим аргументам. Это предположение ничем не обосновано, поскольку сама функция неизвестна. Если впоследствии наше предположение не подтвердится, то все нижеследующие рассуждения несут только познавательный характер. Это обстоятельство вносит определенный элемент необоснованности в сущность непрерывного варианта метода динамического программирования в отличие от его дискретного аналога. Основываясь на предположении о дифференцируемости и учитывая представление (1.64), в окрестности точки функцию , разложим в ряд Тейлора

(1.65)

Где — вектор-строка частных производных функции по компонентам вектора , вычисленных в точке — определенное в соответствии с (1.64) приращение вектора — совокупность последующих членов ряда Тейлора.

Учитывая структуру приращения , подставим (1.63), (1.65) в (1.62):

(1.66)

Здесь — совокупность всех членов с порядком малости, большим, чем у .

Величина не зависит от управления , так как представляет наименьшее значение функционала, полученное в результате подстановки в него оптимального управления, поэтому ее можно вынести из-под символа минимума и взаимно уничтожить с такой же величиной в левой части (1.66). Оставшееся выражение разделим на и устремим к нулю. В силу сделанных замечаний о порядке малости слагаемого выполняется условие . Производная , так же как и функция , не зависит от управления и может быть вынесена за фигурные скобки. Производную на основании уравнения (1.44) можем заменить функцией . После проведения всех указанных операций соотношение (1.66) превращается в известное уравнение Беллмана

(1.67)

в скалярной форме

(1.68)

Уравнение Беллмана представляет собой дифференциальное уравнение в частотных производных. Техника определения оптимального управления из него сводится к следующим процедурам.

  1. Из условия минимума выражения в фигурных скобках находится оптимальное управление как функция , т. е. в форме .

  2. Найденное управление подставляется в выражение в фигурных скобках, что приводит к новой форме уравнения, содержащей только и . Это уравнение называют уравнением типа Гамильтона — Якоби.

  3. Уравнение Гамильтона — Якоби решается относительно функции . При решении используется граничное условие , смысл которого очевиден из определения функции . В настоящее время не существует универсального способа решения, позволяющего в аналитической форме найти функцию . В каждой конкретной задаче проводится самостоятельное исследование или прибегают к численным способам интегрирования с помощью ЭВМ.

  4. Функцию подставляют в выражение для оптимального управления , что позволяет определить его только как функцию состояния и времени, т. е. в виде . Это и будет окончательное решение задачи.

Если удается реализовать изложенную последовательность решений, то находим управление в функции состояния, т. е. приходим к системе с обратной связью. Таким образом, метод динамического программирования в его непрерывном варианте позволяет в принципе решить задачу синтеза оптимальной замкнутой системы. В ряде случаев, характеризующихся, в частности, стационарными, не содержащими автономного аргумента функциями и и нефиксированным временем управления [13], функция не будет зависеть от аргумента , и уравнение Беллмана упрощается

(1.69)

Пример 1.11. Рассмотрим задачу, в которой уравнение Беллмана удается решить аналитически. Пусть система имеет структуру, соответствующую рис. В.1. Объект в предположении описывается уравнением . На вход системы подается задающий сигнал . На управление и состояние ограничений не налагаем. Критерий качества имеет вид

Найдем управление , на котором величина достигает минимального значения. Составляем уравнение Беллмана (1.68):

Минимизирующее левую часть управление находим из уравнения, полученного приравниванием нулю производной от выражения в фигурных скобках: . Подставив это управление в уравнение Беллмана, получим уравнение Гамильтона—Якоби

Для решения этого уравнения можно воспользоваться методом проб. Сущность последнего заключается в том, что задаются аналитическим видом функции с точностью до ряда неизвестных параметров, которые находят из условия удовлетворения уравнения Гамильтона — Якоби. Для систем с линейными уравнениями состояния и квадратичными критериями качества этот метод приводит к точным результатам, причем функция оказывается квадратичной относительно переменных состояния. Поэтому принимаем , где — неизвестные переменные коэффициенты. Так как функция при любых должна удовлетворять условию , то на коэффициенты налагается условие . Вычислив , сведем уравнение Гамильтона — Якоби к виду

Это уравнение выполняется при любых , если ; ; . Таким образом, неизвестные коэффициенты находим из решения этих трех дифференциальных уравнений при заданных граничных условиях. Чтобы решение искать не при граничных, а при начальных условиях, введем новые переменные ; c использованием которых система приобретает вид и характеризуется нулевыми начальными условиями. Третье уравнение системы легко интегрируется методом разделения переменных и приводит к результату

При известном второе уравнение оказывается линейным относительно и решается по общему правилу интегрирования линейных уравнений [50], использование которого позволяет установить . При найденном первое уравнение ин­тегрируется непосредственно . Во всех этих соотношениях — символ гиперболического тангенса. Теперь, осуществив переход от функций к функциям , установим окончательное выражение для оптимального управления

Следовательно, управляющее устройство в данном случае оказывается линейным с изменяющимся по закону гиперболического тангенса коэффициентом передачи.

Полезно обратить внимание на характер зависимости коэффициентов от времени. При малых коэффициенты практически постоянны и стремятся к нулю при . Поэтому если время управления , то коэффициенты можно положить постоянными в пределах реального времени работы системы. В этом случае функцию можно искать не в виде , а как . Так как , то уравнение Гамильтона — Якоби упрощается: , и коэффициенты находим из алгебраических уравнений . Уравнение выполняется автоматически. В результате оптимальное управление опишется зависимостью . В этой простейшей задаче для нахождения полученного алгоритма можно было бы не задаваться структурой функции , сразу из уравнения Гамильтона — Якоби найти формирующую функцию производную со знаком, обеспечивающим устойчивость системы.