Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ТОАУ.docx
Скачиваний:
55
Добавлен:
21.12.2018
Размер:
1.32 Mб
Скачать

1.2. Метод динамического программирования

1.2.1. Принцип оптимальности

Метод динамического программирования пригоден для решения задач оптимального управления с учетом всех особенностей. Рассмотрим его применение к следующему непрерывному варианту задачи оптимального управления. Пусть имеется ОУ, описываемый в терминах пространства состояния векторным дифференциальным уравнением

(1.44)

где - n-мерный вектор состояния; m-мерный вектор управления.

Задано начальное состояние объекта управления , область допустимых управлений и критерий оптимальности

(1.45)

у которого верхний предел интегрирования считается фиксированным. На вектор и его конечное значение ограничений не налагаем, т.е. рассматриваем задачу со свободным правым концом траектории и фиксированным временем управления. Аргумент в составе функций , может указывать на их нестационарный характер, и подобные объекты принято называть неавтономными. Требуется в классе допустимых управлений найти управление , на котором функционал достигает минимального значения, т. е.

(1.46)

а объект управления за время переводится из заданного начального состояния в произвольное конечное, принадлежащее пространству состояния.

Данная задача распространяется на случай управления дискретным объектом. Математически такой объект описывается не дифференциальным, а разностным уравнением вида (В.25). Это уравнение записывают в виде

Критерий оптимальности имеет структуру

где — фиксированная величина. Относительно векторов состояния и управления вводятся те же допущения, что и в непрерывном варианте. Задача заключается в поиске такой последовательности векторов на которой достигает минимального значения с учетом заданного состояния объекта.

В основе метода динамического программирования лежит весьма простой, на первый взгляд, принцип оптимальности, утверждающий, что любой оставшийся конечный участок оптимальной траектории сам по себе также является оптимальной траекторией. Рассмотрим более детально и докажем это утверждение. Пусть поставленная зада­ча решена и найдены оптимальное управление и соответствующая ему оптимальная траектория . Построим эту траекторию в пространстве состояния (рис. 1.2). Выделим на ней точку , соответствующую некоторому моменту . Эта точка делит оптималь­ную траекторию на два участка — 1 и 2. Покажем, что участок 2 оптимальной траектории сам по себе является оптимальным в следующем смысле. Пусть в момент объект оказался в состоянии и необходимо найти в области допустимых управлений такое управление и соответствующую ему траекторию, при которых . Принцип оптимальности утверждает, что такой траекторией будет участок , первоначальной оптимальной траектории.

Доказательство принципа очень простое. Пусть принцип несправедлив и можно указать участок , на котором интеграл меньше, чем на участке 2. Но тогда с самого начала, т. е. с момента , можно было бы подо­брать такое управление, при котором траектория движения объекта совпала бы с кривой . На этой траектории в силу сделанного допущения и очевидного факта значение функционала оказалось бы меньше, чем на траектории 1—2. Однако по исходным предпосылкам функционал достигает наименьшего значения на траектории 1—2. Отсюда следует, что участок с указанными свойствами существовать не может и, следовательно, участок 2 является оптимальным в обусловленном смысле.

Таким образом, каковы бы ни были первоначальное состояние объекта, и управление в начальный период времени, последующее управление должно быть оптимальным относительно состояния, которое примет объект в результате первоначального управления. Оптимальное управление в любой момент времени не зависит от предыстории системы и определяется только состоянием системы в этот момент времени и целью управления.

Принцип оптимальности не следует смешивать с неко­торыми кажущимися его аналогами: оптимальным явля­ется лишь конечный участок оптимальной траектории, а не какой-либо промежуточный. В качестве примера, наглядно иллюстрирующего ситуацию, Беллман в одной из своих работ излагает стратегию поведения бегуна на дальнюю дистанцию. На старте бегун ставит перед собой цель, выложив все свои возможности, пройти дистанцию за минимальное время. Находясь на дистанции, он в каждый момент распределяет свои силы так, чтобы с учетом своего состояния, в данный момент оставшийся участок пути пройти за минимальное время. Если же он будет ставить перед собой цель пройти за минимальное время каждый ближайший участок, то не исключено, что фини­шировать ему не придется.