Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
черновик_лекций5марта.doc
Скачиваний:
159
Добавлен:
15.06.2014
Размер:
4.25 Mб
Скачать

2.4.3. Задача оптимального быстродействия

Задача оптимального быстродействия имеет некоторые особенности, которые упрощают ее решение на основе принципа максимума Понтрягина . Рассмотрим последовательно эти особенности.

· Гамильтониан быстродействия

Рассмотрим общий класс объектов управления (2.1)

с ограниченным управлением () и критерием оптимальности в виде (2.6), т.е. критерий быстродействия

.

Согласно процедуре синтеза на основе принципа максимума запишем расширенный вектор правых частей и вектор сопряженных координат

, ,

а затем сформируем гамильтониан в виде

. (2.36)

В соответствии с (2.33) максимум гамильтониана равен нулю. Поскольку первое слагаемое в данном выражении не зависит от управления, можно вместо (2.35) рассматривать усеченный гамильтониан, который называется гамильтонианом быстродействия

. (2.37)

В этом случае формулировка принципа максимума принимает вид

. (2.38)

Таким образом, при решении задачи оптимального быстродействия нет необходимости переходить к расширенному вектору состояния и расширенному вектору правых частей. Можно сформировать гамильтониан быстродействия и определять управление, обеспечивающее его максимум в соответствии с (2.38).

Метод ДП применим более строго для оптимизации дискретных процессов. В основе метода принцип оптимальности Беллмана, справедливый и для дискретных, и для непрерывных систем.

Напомним еще раз принцип оптимальности Беллмана: оптимальное управление обладает тем свойством, что каково бы не было начальное состояние и управление до данного момента, последующее управление должно быть оптимальным при том состоянии, в которое пришла система в результате предыдущего этапа управления.

Для иллюстрации сущности метода и получения рекуррентных расчетных соотношений рассмотрим простейшую одномерную систему, поведение которой описывается разностным уравнением на заданном интервале :

,

(5.1)

где - координата системы,- управление в момент времени().

- интервал дискретности,.

Начальная координата , управление ограничено.

Требуется определить последовательность оптимальных управлений , минимизирующую сумму (эквивалент функционала).

,

(5.2)

где - некоторые известные заданные функции.

На основе сформулированного выше принципа оптимальности, задача оптимизации функции многих переменных u(0,1, … N-1)сводится к задаче последовательной минимизации функции одной переменной.

 

 

Дискретный многошаговый процесс построения оптимального управления (алгоритм)

1) Рассмотрим последний интервал

Пусть известны.

На основании принципа Беллмана управление на этом интервале u(N-1)зависит отx(N-1), удовлетворяет ограничению и минимизирует сумму, входящую в (5.2):

Заменивx(N)его выражением из уравнения (5.1):

(5.3)

;

(5.4)

Т.к. сумма (5.4) зависит от одной неизвестной u(N-1), которую следует выбрать из условия минимумапри учете ограничений наu. Обозначим это оптимальное значение u*(N-1),а минимальное значение, зависящее отx(N-1) через :

(5.5)

Таким образом, минимизируя (5.4) по переменной u(N-1)определяется функция.

2) Переходим к интервалу времени, состоящему из последнего и предпоследнего участков:

Этому интервалу соответствует

(5.6)

Определяем минимум поu(N-2). Обозначим:

(5.7)

С учетом определения оптимального управления на интервале N-1, (5.7) запишем:

(5.8)

В результате минимизации (5.8) по одной переменной u(N-2) призаданных координатахx(N-2) определяетсяu*(N-2)икак функциюx(N-2).

3) Продолжая процедуру оптимизации по шагам от конечного момента времени Nк начальному, получим реккурентную формулу:

(5.9)

Таким образом, минимизация проводится по одной переменной u(N-k)и определяется u*(N-k). Применяя последовательно (5.9), в результате получаемu*(0), зависящую от.

Алгоритм справедлив и для многомерных систем, с числом управлений . При этом скаляры заменяются на векторыx,u,f,и минимизируется функцияmпеременных, что при реализации на ЭВМ требует большого объема памяти.

Метод динамического программирования может быть распространен также на непрерывные системы и приводит к соответствующему уравнению в частных производных(уравнению Беллмана) – эвристический вывод уравнения Беллмана. Уравнение Беллмана аналитически решается лишь в некоторых случаях, как правило, его решают численными методами.

Нахождение оптимального управления на основе уравнения Беллмана. Структура оптимального управления

Сравнивая (5.1) и (5.2) с постановкой значения оптимизации управления на основе уравнения Беллмана имеем:

(5.10)

Уравнение Беллмана для рассматриваемой задачи имеет вид:

(5.11)

 

(5.12)

 

(5.13)

Найдем максимум по уравнению в (5.12). Дифференцируя по U выражения в [   ] и приравнивая к 0, получаем структуру оптимального управления:

:

(5.14)

Решение уравнения Беллмана в дополнительной постановке задачи в следующем виде:

(5.15)

К (t)– неизвестная симметричная матрица.

Подставляя (5.15) в (5.11)      и решая матричное уравнение в частных производных (произведениях), получим уравнение в векторно-матричном виде для матрицы К(t).

(5.16)

Оптимальное управление имеет вид:

(5.17)

В некоторых случаях применяют обозначения:

При этом (5.16) имеет вид:

(5.18)

Аргумент tдля простоты опущен.

(5.16) или (5.18) представленные матричные уравнения Риккати. Таким образом, для определения оптимального управления необходимо решить (как и в принципе max) двухточечную краевую задачу, так как в уравнениях состояния х  заданы максимальные условия, а в уравнениях Риккати для коэффициента усиления зоны управления заданы конечные условия. В установленном режиме при дифференциальные уравнения Риккати превращаются в алгебраические. Для решения матричного уравнения Риккати разработаны стандартные параметры, в том числе и в пакете MATLAB.

В данной постановке отыскание U*называется задачей Летова-Калмана АКОР. При использовании в постановке задачи так называемого функционала обобщенной работы Красовского уравнение для коэффициентаКилиВупрощается, превращается в линейное дифференциальное уравнение.

Особенность методов АКОР состоит в возможности синтеза управления в линейных (линеализованных) схемах, подверженных случайным воздействиям. При этом используется так называемая теорема разделения. Теорема разделения состоит в следующем: для линейного оборота управления с аддитивными помехами и линейного измерителя при квадратичном функционале качества структура оптимального управления состоит в последовательном соединении фильтра и оптимального регулятора.

Рисунок 5.1 - Структура оптимального управления

Схема описывается векторно-матричным уравнением следующего вида:

;;

;

;

;

В установленном режиме получается аналитическое выражение.

Пример.  Связь матричного уравнения принципом максимума и ДП.

Постановка задачи: 

(1)

(2)

Уравнение Беллмана:

(3)

U*(t) – оптимальное управление:

(4)

Продифференцируем (4) по ,

(5)

На основе (1) имеем

(6)

 

 

Таким образом (3) перепишем в следующем виде:

(7)

Обозначим:        Учтем, что:,

Из (7) следует:

(8)

Выражения (8) имеют тот же вид, что и принцип максимума, следовательно, соотношение (3) можно записать в следующем виде:

(9)

Из (8) следует, что оптимальное управление достигает в каждый момент времени максимума функции Гамильтона.

Заметим, что таким образом, получены все условия принципа максимума Понтрягина.

Метод ДП позволяет получить решение в виде уравнения в частных производных.

Вероятно, следует сказать вновь о принципе максимума Понтрягина.

Принцип максимума позволяет получить оптимальное управление в виде краевой двухточечной задачи для обычных дифференциальных уравнений. Решение в некоторых случаях проще, чем решения уравнения Беллмана .

В ряде практических задач на множество управлений накладываются некоторые существенные ограничения в виде неравенств. Решение таких задач дает принцип максимума – математический метод, разработанный Понтрягиным и его учениками.

Поведение математической модели ОУ описывается обыкновенным дифференциальным уравнением, в векторной форме, которое имеет вид:

(4.1)

или в скалярной форме

,

(4.2)

где - вектор состояния,

- вектор управления,

t– время ,

- интервал времени функционирования системы,

;n-мерное эвклидово пространство, элементами служат векторы;

;- множество допустимых значений управления;

- непрерывная вместе со своими частными производными векторная функция.

Момент начала процесса задан, а момент окончания процессаопределяется первым моментом достижения точкой (x,t) некой заданной гиперповерхности, т.е. в момент .

Начальное условие задает начальное состояние процесса в пространстве.

Предполагается, что при управлении используется информация только о текущем времени, т.е. система управления является разомкнутой и имеет программное управление.

Рисунок 4.1 - Структурная схема процесса управления

 

Множество допустимых управлений образует кусочно-непрерывные функцииu(t)со значениями в области.

 

 

4.2 Постановка задачи оптимизации.

Функционал качества управления в общем случае имеет вид (задача Больца):

,

(4.3)

где - заданные непрерывно-дифференцируемые функции.

Требуется найти такую тройку , что

,

(4.4)

- оптимальная траектория;

- оптимальное управление;

- оптимальный момент окончания процесса.

Иначе в эквивалентной форме можно записать:

,

(4.5)

где – начальные значения времениtи фазных координат вектора состоянийx.

Рассматриваемые ранее типовые задачи оптимизации (максимальное быстродействие, терминальный критерий) сводятся к одной обобщенной задаче. Для этого функционал качества рассматривается не только в конечный момент времени, но и в текущий. При этом функционалпринимается за дополнительнуюфазовую координату. Тогда задача сводится к обеспечению минимума величины.

Рассмотрим разные критерии:

Максимальное быстродействие. Время tсчитается дополнительнойкоординатой, определяемой уравнением

.

(4.6)

Таким образом, задача минимизации времени управления сводится к минимизациифазовой координаты.

Терминальный критерий (задача Майера). Новая фазовая координата

,

(4.7)

.

(4.8)

Задача Лагранжа (интегральный критерий). Если функционал качества задан в виде:

,

(4.9)

то приняв текущее значение (4.9) за новую переменную :

 

,

(4.10)

получим для этой переменной уравнение:

 

(4.11)

Таким образом, задача отыскания минимума критерия качества сводится к отысканию минимума фазовой координатыв момент временирасширенного векторного состояния по отношению к управлениюu. При этом на конечное положение объекта могут накладываться различные ограничения. Ограничения могут иметь следующий вид:

,

(4.12)

где– некоторые дифференцируемые функции.

Для отыскания экстремума функции при наличии ограничений в виде равенств используется метод множителей Лагранжа. В соответствии с этим методом задача оптимизации сводится к описанию экстремума функции следующего вида:

,

(4.13)

где – неопределенные множители Лагранжа, определяемые из условия (4.12).

Таким образом, необходимо найти , при котором функционалбудет минимален.

 

 

4.3 Условия оптимальности (по Понтрягину).

Решение задачи отыскания оптимального управления и минимизации функционала было получено Понтрягиным и его учениками, благодаря установленному ими

принципу максимума, связавшему оптимизируемый (минимизируемый) функционал состояния с динамикой процесса.

Эта связь была установлена через функцию Гамильтона или функцию Понтрягина, которая имеет вид:

,

(4.14)

где  – правые части уравнений (4.1, 4.2) для(i=1,n) и одним из уравнений (4.6), (4.8), (4.11) дляв зависимости от задачи оптимизации.

Вспомогательные функцииудовлетворяют уравнению:

;

(4.15)

для  заданных конечные условия, определяемые выражением:

;;

(4.16)

Принцип максимума состоит в том, что для оптимального управления u(t)и соответствующих координат, для которых функционалимеет минимальное значение, функция ГамильтонаHимеет максимум по отношению к управлению на всем интервале.

Принцип максимума был обоснован математически как необходимое условие оптимальности для нелинейных объектов и как необходимое и достаточное условие оптимальности для линейных объектов.

Таким образом, определение оптимального управления  состоит в нахождении максимума функцииHотносительнодля любого момента.

Используя выражение (4.14) для функции Hможно переписать уравнение объекта управления (4.1) для координати уравнения (4.15) для вспомогательных функцийв канонической форме. Для этого продифференцируем выражение (4.14) по.

;

(4.17)

Дифференцируя (4.14) по xi, получим:

;

(4.18)

Таким образом, выражения (4.17) и (5.18) позволяют привести уравнение (4.1) и (4.15) к следующей канонической форме уравнений Гамильтона:

(4.19)

(4.20)

Алгоритм определения оптимального управления заключается в следующем:

нахождение из условия максимума функции Hвектора управления

подстановка в уравнения (4.1) и (4.11);

решение уравнений (4.1) и (4.11) относительно x(t) и .

Таким образом, при отыскании оптимального уравнения необходимо решать систему дифференциальных уравнений (4.1) при начальных условиях и (4.11) при конечных условиях (так называемая двухточечная задача). Аналитические решения возможны только для систем малых размерностей, однако современные численные методы позволяют решать более сложные задачи.

 

 

4.4 Доказательство необходимых условий оптимальности (по принципу максимума).

Рассмотрим случай, когда конечное состояние объекта не подчинено никаким условиям, а время управления задано (задача со свободным правым концом и заданным временем переходного процесса). В этом случае конечные условия (4.16) имеют вид:

;);;

(4.21)

                                                                                         Понтрягин предложил эффективный путь решения задачи с помощью понятия игольчатой вариации управления. Это понятие является центральным в доказательстве принципа максимума. При этом допустимыми управлениями будем считать все кусочно-непрерывные функции времени, удовлетворяющие ограничениям.

Пусть – оптимальное управление, обеспечивающее оптимальную фазовую траекторию,– вектор, координатами которого является– кусочно-непрерывные  функции на отрезке.

Рассмотрим бесконечно малый промежуток времени: и поварьируем управление, заменив егона этом малом интервалевеличиной,оставив его неизменным вне этого интервала. Такое варьирование называется игольчатым.

Рисунок 4.2 – Игольчатое варьирование

 

Отметим, что не требуется, чтобы вариации были бесконечно малыми величинами. Важно только, чтобы они удовлетворяли ограничению. При этом, не смотря на конечную величину разности, импульс приращения управленияи влияние этой вариации на следующее поведение объекта бесконечно малы.

Для доказательства вычислим вызываемое вариацией управления изменение поведение объекта.

В соответствии с уравнениями для или длявариацияв моментравна с точностью до малых высшего порядка разности скоростей изменения координат, умноженной на промежуток времени:

(4.22)

Эти разности бесконечно малы и являются начальными значениями вариаций переменных на интервале [,]. В силу этого переменныебудут бесконечно отличаться от оптимальныхв этом интервале. Положив в уравнениях (4.1);получим

(4.23)

Разложим правую часть (4.23) в ряд Тейлора в окрестности , отбрасывая часть 2-ого порядка малости, получим:

(4.24)

Вычитая из (4.24) уравнение соответствующие уравнения (4.1) получим следующее уравнение в вариациях:

;.

(4.25)

Уравнение (4.25) следует интегрировать при начальных условиях (4.22) в момент .

Вычислим вариацию функционала ; т.к. оптимальное управлениеu*(t)обеспечивает минимум функционала, то при замене его другим уравнениемu(t)значениеможет лишь увеличиваться.

Следовательно, необходимым условием минимума с учетом (4.21) будет:

;

(4.26)

Вариацию можно вычислить, не интегрируя уравнение (4.25). Действительно, вычислим производную по времени от суммы.

(4.27)

Подставим в (4.27) значение ииз (4.15) и (4.25) получим:

.

(4.28)

Из (4.28) следует, что на интервале

.

(4.29)

С учетом (4.21) находим

.

(4.30)

Таким образом

.

(4.31)

Подставим в (4.31) выражение для из (4.22), получим

.

(4.32)

Так как в качестве момента tможно выбрать любой текущий момент времениtв интервале, то равенство (4.32) справедливо для любого момента времениt. С учетом (4.14) выражение (4.32) можно записать в следующем виде

.

(4.33)

Из (4.33) следует, что при допустимой вариациитолько при

.

(4.34)

Таким образом, доказано, что для минимума функционала необходимо, чтобы функционал ГамильтонаНимел максимальное значение относительно управленияна всем интервале управления.

Доказательство принципа максимума для других задач, а также его достаточность для линейного объекта более сложное.

В частном случае, когда ограничения на управление нет, оптимальное управление определяется из условия

,

(4.35)

как и при использовании вариационного исчисления.

 

 

4.5 Условие трансверсальности.

На практике распространенной задачей является задача со свободным правым концом, когда - произвольное, а,соответственно, оптимальное управление и оптимальное время окончания процесса.

Рассмотрим задачу (Задача Больца) со свободным правым концом как общий случай.

.

(4.36)

На основании (4.33) при t=tkопределим условия, при которых.

.

(4.37)

На основании (4.14) имеем

,

(4.38)

при t=:. Из (4.38) при малых вариацияхимеем

.

(4.39)

В то же время

, при.

(4.40)

Подставим (4.39) и (4.40) в (4.37) получим

(4.41)

- условие трансверсальности.

Для других классов задач управления (со свободным левым концом или с подвижными концами) условие трансверсальности будет отличаться. Например, если начальное состояние процесса и его начало не заданы, а определяются также как и конечные состояния, то

,

(4.42)

а терминальный член функционала задан в виде то условие трансверсальности будет иметь вид:

.

(4.43)

В этом случае решение задачи включает в себя определение оптимальных моментов начала и окончания процесса, траекторий и управления.

 

 

4.5 Алгоритм применения принципа максимума .

Этапы:

Для модели процесса и функционала Больца (4.3), составить Гамильтониан

.

Найти структуру оптимального управления из условия максимума Гамильтона по управлению

.

Составить систему канонических уравнений с заданными в задаче условиями

.

Получить недостающие условия для уравнений составленной системы из условий трансверсальности

.

Решить двухточечную краевую задачу для системы канонических уравнений. В результате определяется тройка: (, , ), на которой достигается экстремум функционала качества.

 

Пример.

Дано: модель ОУ описывается

Функционал качества:Требуется найти оптимальную пару, на которой достигается минимум функционала.

Сравнивая с общей постановкой задачи, имеем

 

Решается задача Больца

Составляем гамильтониан

 Находим максимум гамильтониана по управлению. Так как ограничения на управление отсутствует, можно применить необходимые условия безусловного экстремума.

Отсюда,и. Данное управление обеспечивает максимум по управлению, так как удовлетворяются достаточные условия экстремума.

Выписываем условие трансверсальности  в форме (4.11) с учетом результата пункта 2.

     ,

 Проверяем условие трансверсальности в форме (4.41). Так как тои

Поскольку  , тои. В результате имеем.

 Решаем полученную двухточечную задачу

Из второго уравнения с конечными условиями  имеем - оптимальное управление. Решая первое уравнение с начальными условиями, получаем оптимальную траекторию.

Для многомерных задач определение оптимального управления представляет собой значительную трудность, а иногда невозможную.

В этом случае для решения двухточечной краевой задачи применяют численные методы, которые несколько снижают точность решения.

Рассмотрим еще примеры

максимизировать (7.1.1)

при условиях  (7.1.2 )

Как видно, целевая функция задачи и ограничение являются суммой функций от одной переменной каждая. Такая функция, как известно, называется адитивной. Если все выпуклые, то для решения задачи можно применить метод множителей Лагранжа.

Если имеется много локальных минимумов, то этот метод дает лишь один из них. Если надо найти глобальный максимум, метод множителей Лагранжа применить невозможно.

Поэтому рассмотрим другой метод, обеспечивающий отыскание глобально-оптимального решения. Предположим, что все – целые числа. Предположим также, что в рассматриваемой задаче все переменные могут принимать лишь целочисленные значения.

Через обозначим абсолютный (глобальный) максимум при условии . Выберем некоторое значение и, зафиксировав его, максимизируем по всем остальным переменным . Предположим, что такая максимизация проведена для всех возможных значений . Тогда будет наибольшим из всех возможных значений . Формально этот процесс (эта процедура) записывается так:

(7.1.3)

причем

.                            (7.1.4)

Поскольку для неотрицательных целых чисел, удовлетворяющих условию (7.1.4), зависит от , то обозначим

.                 (7.1.5)

Предположим, что мы вычислили для всех допустимых целых значений = , где означает целую часть .

Очевидно, что

.          (7.1.6)

Для вычисления (7.1.6) определим и для всех допустимых значений и выберем максимальное . Одновременно найдем оптимальное решение . Таким образом, если бы была известна функция , то вся задача свелась бы к задаче с одной переменной.

Покажем, как вычислить .

Обозначим

при условии

.

Повторив вышеприведенные выкладки, получим

,        (7.1.7)

где

,               (7.1.8)

причем максимум в (7.1.7) отыскивается при условии

.

Аналогичным образом вычисляем и т.д. В конце концов на -м шаге мы используем “основное рекуррентное соотношение (ОРС) динамического программирования”

(7.1.9)

при условии, что

.

Используя ОРС (7.1.9), организуем процесс вычислений, как многошаговый процесс, следующим образом. На первом шаге, зафиксировав начало интервала 0 и изменяя его правый конец , вычисляем

(7.1.10)

для всех возможных значений =0, 1, … , b. Оптимальное решение первого шага обозначим через . Составляем таблицу динамического программирования первого шага (табл. 7.1) и заполняем ее результатами вычислений.

На втором шаге (=2) находим в соответствии с соотношением

,   (7.1.11)

причем значения берем из табл. 7.1.

Вычисляем последовательно для всех значений = 0,1,…,, используя результаты табл. 7.1. Одновременно находим и . Результаты вычислений заносим в таблицу второго шага (табл. 7.2).

Таблица 7.1

 

Таблица 7.2

 

0

 

 

 

0

 

 

 

1

 

 

 

1

 

 

 

 

 

 

 

 

 

Дале, пользуясь соотношением (7.1.8), последовательно вычисляем для всех значений= 0, 1, 2, …, .

В конце концов, на последнем шаге при находим

,   (7.1.12)

а также соответствующее оптимальное значение для последней переменной . Для отыскания значений всех остальных переменных надо воспользоваться таблицей и т.д. шагов. Полагая , из таблицы предшествующего шага находим (без вычислений)

.

Следовательно, динамическое программирование – это направленный последовательный перебор вариантов, который обязательно приводит к глобальному максимуму. Для применения метода необходимо табулировать функции , … , для всех допустимых значений .

Сравним метод динамического программирования по числу необходимых операций с простым перебором вариантов. Для упрощения расчетов примем .

При простом переборе число возможных вариантов (при условии целочисленности всех переменных ) равно числу способов, которыми можно разместить одинаковых шаров в урн. Оно составляет

.

Например, при = 5, = 20, = 10626.

Оценим число операций, требуемых для решения этой задачи методом динамического программирования.

Для вычисления при фиксированном необходимо выполнить (+1) вычислений функции при . Следовательно, чтобы заполнить одну таблицу (при =0,1, …,) необходимо операций.

Таким образом, для вычисления всех функций , необходимо операций.

С учетом вычислений функции общее число операций составляет

.

Это значительно меньше, чем , то есть имеем существенное сокращение объема вычислений сравнительно с простым перебором.

Подведем некоторые итоги. Рассмотренную выше задачу (7.1.1), (7.1.2) с экономической точки зрения можно трактовать как задачу распределения одного ограниченного ресурса между разными способами производства, где – объем производства по -му способу ; – прибыль от достижения объема ; – затраты ресурса на производство по -му способу (при ограничении на общий объем использованного ресурса ).

Поэтому можно трактовать как максимальную прибыль от первых способов производства, когда общий объем ресурса (сырья) равен единиц.

Рассматриваемую задачу можно интерпретировать как -шаговый процесс принятия решений, где на -м шаге принимается решение о том, какое количество ресурса из общего объема следует выделить на переработку по -му способу производства. Как видим, структура этой задачи не изменяется от числа шагов, то есть задача инвариантна относительно .

Решение для -шаговой задачи получается из решения для ()-шаговой задачи путем добавления -го шага и использования результатов предыдущего ()-го шага.

Следовательно, сущность динамического программирования состоит в замене решения данной -шаговой задачи последовательностью одношаговых задач.

Подводя итоги, назовем главные признаки (свойства) задач, к которым можно применить метод динамического программирования:

Задача должна допускать интерпретацию как -шаговый процесс принятия решений.

Задача должна быть определена для любого числа шагов и иметь структуру, не зависящую от их числа.

Для k-шаговойзадачи должно быть задано некоторое множество параметров, описывающих состояние системы, от которых зависят оптимальные значения переменных. Это множество не должно изменяться при увеличении числа шагов. (В рассматриваемом выше примере таким параметром было общее количество ресурса.)

Выбор решения (стратегии управления) на -м шаге не должен влиять на предыдущие решения, кроме необходимого пересчета переменных.

Пусть – вектор параметров, описывающих состояние процесса (вектор состояния). Тогда оптимальное значение целевой функции для -шагового процесса будем  называть функцией состояния.

Пусть Xk– вектор переменных управления (стратегия), который необходимо определить на -м шаге. Тогда для задач, к которым можно применить метод динамического программирования, должно выполняться следующееосновное рекуррентное соотношение:

,

где – вектор состояния предыдущего ()-го шага при условиях и . В рассматриваемой задаче .

Сформулируем принцип оптимальностиБеллмана, который обосновывает это соотношения [4; 18].

Оптимальная стратегия обладает следующим свойством : для любых начального состояния и начальной стратегии , стратегия на -м шаге должна быть оптимальной только относительно текущего состояния системы и не должны зависеть от предыдущих состояний.

Таким образом, принцип оптимальности Беллмана утверждает, что оптимальное управление системой на каждом шаге не зависит от предыстории процесса, то есть как система достигла текущего состояния, а определяется только этим состоянием. Системы (процессы), которые имеют такое свойство, называются марковскими.

Соседние файлы в предмете Модели и методы анализа проектных решений