Материал: ОиММПР. Лекция 10

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

-

этап

получения стохастической оптимальной

оценки x (k )=M [ x (k )/ z (k )]

 

состояния процесса x(k )

на основе наблюдений z (k ) ;

-

этап

формирования

детерминированных

управляющих воздействий

 

uопт( k )=− L(k ) x (k ) , линейно связанных с оценкой состояния.

Наиболее конструктивным при решении задачи динамической оптимизации управления оказывается динамическое программирование. Динамическое программирование предназначено для изучения многошаговых процессов, обладающих определенными свойствами инвариантности.

Это особый метод, он специально приспособлен для оптимизации динамических задач, в которых операция состоит из элементов, сильно влияющих друг на друга. ДП связано с именем Ричарда Беллмана, который сформулировал принцип Беллмана. Он позволяет существенно сократить перебор решений в многоэтапных нелинейных задачах.

Принцип оптимальности Беллмана

Принцип оптимальности Беллмана ставит вопрос о том, что такое оптимальность отдельного элемента системы с точки зрения оптимальности всей

системы:

1 2

 

 

m лет

каково бы ни было состояние системы в результате

P1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Xij

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

какого-либо числа шагов, на ближайшем шаге нужно

P2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

выбирать управление так, чтобы оно в

 

 

 

 

 

 

 

совокупности с оптимальным управлением на всех

Pn

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

последующих шагах приводило к оптимальному выигрышу на всех оставшихся шагах, включая выигрыш на данном шаге.

Принимая решение на отдельном этапе, мы должны выбирать управление на этом этапе с прицелом на будущее, т.к. нас интересует результат в целом по всем шагам. Беллман предложил рассматривать величину выигрыша от iго

16 из 20

шага и до конца, если iый шаг начинается с некоторого состояния S . Такую величину называют условным оптимальным выигрышем Wi ( S ) .

Тогда, принимая решение на каждом iшаге, мы должны выбрать решение Xi так, чтобы условный оптимальный выигрыш был максимальным от

iшага и до конца.

Определение: оптимальность в малом понимается через оптимальность в большом.

Любой процесс имеет где-то окончание, т.е. имеет горизонт планирования. Тогда последний этап «не имеет будущего». Вот именно его можно оптимизировать только из условий данного этапа. После этого приступают к оптимизации ( m−1)го этапа. Выбирают такое Xm−1 , чтобы при применении

этого Xm−1 его можно было внести в управление последнего шага. При этом мы задаём состояние, с которого начинается ( m−1)ый шаг. Поэтому функцию Wi ( S ) называют условным оптимальным выигрышем. Таким образом, процесс оптимизации разворачивается от конца к началу, и начальное состояние становится известно. Принцип Беллмана нашёл применение в методе программно-целевого планирования (любое действие планируется некоторым проектом).

Функциональное уравнение Беллмана.

Назовём состоянием системы некоторый вектор координат: S=(ξ1 2 , ... L) . В некоторых задачах состояние системы – одна величина. Тогда

работу системы можно представить как движение в фазовом пространстве – пространстве состояний. Назовём это - шаговым управлением – управлением на iом шаге. Рассмотрим процесс управления системой за m шагов. Функция

Wi (S ,U i) называется выигрышем на i-ом шаге. Здесь

Sсостояние перед iым

шагом, а Uiуправление на iом шаге.

 

 

 

Величина Wi (S ,U i) должна быть

известна

до начала

динамического

программирования. Если состояние перед

iым шагом было S

и мы приняли

 

 

 

17 из 20

какое-то управление Ui , то система перейдёт в новое состояние S'=ϕi (S ,U i) . Эта

функция должна быть так же известна. Если эти функции не заданы, то их надо сформулировать. Введём Wi ( S )условный оптимальный выигрыш. Это выигрыш

на всех этапах от i до конца, если iый шаг начинается с состояния S . Рассмотрим m шагов. Начнём с (i+1)го шага. Предполагаем, что мы

системой управляем оптимально, величина оптимального выигрыша Wi+1 (S') . На iом шаге - любое управление. Wi ( S )неоптимальный выигрыш, т. к. на iом шаге мы применяем управление Ui .

Wi ( S )=max {W i ( S,Ui )+Wi +1 ( S' )};

S'=ϕi ( S,Ui );

Ui

=max Wi (S,Ui )+Wi+1 [ϕi ( S, Ui )]

}

Wi ( S )

неизвестно

U i { известно

неизвестно

Это функциональное уравнение Беллмана. Для использования уравнения Беллмана оптимизацию начинают с конца:

-этап условной оптимизации

1)i=m

Wm ( S )=max {f m(S ,U m)} .

U m

2) i=m−1

Wm1 ( S )=max {f m−1 (S ,U m−1 )+Wm [ϕm−1 ( S,Um−1 )]}

U m−1

Итак, идя от конца к началу, мы получаем последовательно:

Wm ( S ) ,Wm−1 ( S ), ... ,W 1 ( S )

Um ( S ) ,Um−1 ( S ) , ... ,U1 ( S)

Придя в начальное состояние W1(S), мы можем подставить S = S0 и W1(S0) = Wmax – это безусловный выигрыш.

- этап безусловной оптимизации

Теперь необходимо получить, идя от начала к концу по цепочке, на каждом шаге (этапе) безусловно оптимальные уравнения:

18 из 20

U1 ( S )=U1 ( S0 )=U'1

ϕ1 (S ,U 1)=ϕ (S0 ,U '1)=S'1

U2 ( S )=U'2

ϕ2 (S ,U 2)=ϕ (S'1 ,U'2)

Итак, в конце мы получаем безусловно оптимальное решение:

U'1 ,U'2 , ... ,U'm ;W max

Пример: транспортная задача.

Все вышеприведенное определено для конечных вариационных задач, т. е. основано на методе обратного прогона.

Если мы рассматриваем бесконечные процессы (метод прямого прогона), являющиеся результатом либо бесконечных последовательностей операций, либо выборов, сделанных в каждой точке непрерывного множества, мы встречаемся с трудностью доказательства существования достигаемого максимума, а не просто локального супремума. Поэтому при рассмотрении лучше начать с уравнения функционала

f (p; S+T )=lim sup ( pD ;T ) ,

D [0 , S]

который предполагает, что супремум фактически достигается и в пределе может

быть заменен максимумом, при

S →0 будет предельный случай нелинейного

дифференциального уравнения,

где p — начальное состояние, p D , D

ограниченная замкнутая область состояний, S — состояние в точке t интервала

[0,T].

В теории динамического программирования имеется еще один важный метод приближения, который называется «приближением в пространстве поведений». Он рассматривает естественную двойственность между функцией f(p), описывающей максимальный функционал, и оптимальным(-и) поведением(- ями) q=q(p). В задаче q рассматривается как индекс поведения (управления) среди всех возможных по множеству поведений Q для D.

19 из 20

Заключение

Задача векторной динамической оптимизации принятия решения связана с преодолением проблем редукции, нормализации и скаляризации. Предварительная редукция множества решений может быть осуществлена непосредственно в пространстве критериев на основе методов поиска множеств компромисса (множеств Парето).

Фундаментальную роль в синтезе оптимальных управлений для линейной постановки задачи и среднеквадратичного критерия оптимальности имеет принцип разделения. В соответствии с ним задача стохастического оптимального управления решается в два этапа: этап стохастического оценивания состояния объекта и этап поиска детерминированных управляющих воздействий, линейно связанных с оценками состояния.

20 из 20