Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
черновик_лекций5марта.doc
Скачиваний:
159
Добавлен:
15.06.2014
Размер:
4.25 Mб
Скачать

2.3.2. Принцип оптимальности

Формулировка принципа оптимальности следующая: конечный участок оптимальной траектории есть также оптимальная траектория.

Рис. 2.6. Оптимальная траектория

Доказательство этого принципа можно найти в [1], здесь ограничимся лишь его пояснением.

Предположим, что найдена оптимальная траектория перехода из точки x(0) в точкуx(T) (рис. 2.6). Промежуточная точкаx(t) разбивает эту траекторию на две части. Причем ее конечный участок представляет собой оптимальную траекторию, иначе можно было бы найти новую оптимальную траекторию перехода

из точки x(t) в точкуx(T) и организовать движение из начальной точкиx(0) в конечнуюx(T) по новой оптимальной траектории. Это невозможно, так как для системы существует лишь одна оптимальная траектория перехода из одной точки в другую.

2.3.3. Основные соотношения метода динамического программирования

Будем рассматривать общий класс объектов управления, который описывается уравнением (2.1)

, , , .

Ограничены переменные состояния и управления .

Необходимо определить управляющее воздействие, которое обеспечивало бы переход из начального состоянияx(t) в конечноеx(T) за времяT(рис. 2.7) в соответствии с критерием оптимальности

. (2.12)

Рис. 2.7. Иллюстрация оптимального перехода из одной точки в другую

Выберем на оптимальной траектории перехода промежуточную точку x(t+Dt),расположенную достаточно близко к заданной начальной точке. Согласно принципу оптимальности конечный участок есть также оптимальная траектория, поэтому представим критерий оптимальности (2.12) в виде суммы двух критериев, соответствующих двум участкам движения

, (2.13)

или после преобразований

. (2.14)

Рассматривая второй интеграл выражения (2.14) как функцию нижнего предела, обозначим его

. (2.15)

С учетом (2.15) соотношение (2.14) представим в виде

. (2.16)

Полагая промежуток времени Dtдостаточно малым, сделаем в (2.16) следующие упрощения.

1) Интеграл приближенно заменим произведением

. (2.17)

2) Функцию разложим в ряд Тейлора в окрестности заданной начальной точки

, (2.18)

где R– остаточные члены ряда разложения, которыми можно пренебречь.

Учитывая приближенные замены (2.17) и (2.18), преобразуем выражение (2.16):

. (2.19)

Представим в равенстве (2.19) в виде суммы двух составляющих следующим образом:

. (2.20)

Обсудим получившееся выражение. Согласно введенному обозначению (2.15) здесь

, (2.21)

поэтому вместо (2.20) получим

. (2.22)

Поделим обе части равенства (2.22) на Dt

,

а затем устремим Dt®0 и получим следующее уравнение:

. (2.23)

Поскольку рассматривается оптимальная траектория движения для объекта (2.1), подставим в (2.23) вместо правую часть уравнения объекта и получим основное уравнение метода динамического программирования в виде

. (2.24)

Таким образом, оптимальным будет управление, которое минимизирует выражение (2.24). Однако использовать его для вычисления нельзя, так как одно уравнение (2.24) содержит (m+1) неизвестную величину (и ).

(лкц 27апр повтор)

2.4. Принцип максимума Понтрягина

2.3.4. Расчетные соотношения метода динамического программирования

В случае оптимального управления соотношение (2.24) принимает вид

. (2.25)

Продифференцируем (2.25) по Uвдоль оптимальной траектории

. (2.26)

Добавив уравнения (2.26) к (2.25), получим систему из (m+1) уравнения с (m+1) неизвестным, решая которую можно найти оптимальное управление.

Поскольку (2.25) и (2.26) представляют собой систему уравнений в частных производных, для определения из неё оптимального управления, как правило, приходится использовать приближенные численные методы. В результате найденное управление получается не оптимальным, а близким к нему.

Задача отыскания точногооптимального управления методом динамического программирования носит названиезадачи АКОР(аналитического конструирования оптимальных регуляторов). Эта задача имеет решение при наличии следующих условий [1, 18].

1. Объект управления описывается линейным уравнением состояния (2.3)

, , , .

2. Переход из начальной точки в конечную рассматривается

на бесконечном интервале времени .

3. Критерий оптимальности имеет вид квадратичной формы (2.11)

.

Оптимальное управление, полученное методом динамического программирования, для такой постановки задачи будет иметь вид

.

Таким образом, оптимальным для задачи АКОР будет пропорциональный закон управления.

Пример 2.2

Объект, который описывается уравнением

с учетом ограничений , необходимо перевести из начальной точки в конечную за бесконечное время, согласно критерию оптимальности

,

(лкц 27апр начало нового материала)

Запишем уравнение метода динамического программирования (2.25)

и дополним его уравнением в частных производных (2.26)

.

Выразим из второго уравнения и подставим в первое, в результате получим

или после приведения подобных

.

Решение квадратного уравнения относительно управления дает два значения

Поскольку для одной системы двух оптимальных законов управления быть не может, одно из найденных значений не является оптимальным. Для определения оптимального управления проверим устойчивость замкнутой системы.

1) В уравнение объекта подставим значение и получим уравнение замкнутой системы

или

.

Как видим, система неустойчива, значит первое управляющее воздействие не является оптимальным, малые искажения управляющего воздействия могут вести к большим для траектории и функционала качества траектории.

2) В уравнение объекта подставим значение , при этом уравнение замкнутой системы примет вид

,

и она будет устойчивой.

Таким образом, оптимальный закон управления имеет вид , где .

Соседние файлы в предмете Модели и методы анализа проектных решений