Вычисление равновесия Нэша. Существует несколько различных концепций вычисления равновесия Нэша. Рассмотрим три наиболее часто используемых метода: решение для фиксированных точек, редуцирование к вариационным неравенствам и преобразование задачи о равновесии к задаче оптимизации.
Пусть g лучшее отображение реакции x g x g1 x ... gn x ,
тогда x* равновесие Нэша, если и только если x* g x* . Если g x
функция одной переменной, то x* фиксированная точка, если и только если x* g x* ; в этом случае необходимо решить систему алгебраических уравнений. Если g x множество, то существует система неравенств, независимых от x, необходимо найти допустимое решение этих неравенств.
Введем |
функцию |
n |
агрегирования: Hr x,y rk fk x k,yk с |
||
r rk 0. |
|
k 1 |
Очевидно, |
что x* равновесие если и только если |
Hr x* ,x* Hr x* ,y ; x S, то max h x,r T x x* 0, где h: S RM:
|
x S |
|
|
h x,r r1 1 f1 x ... |
rn n fn x T ; |
M m1 ... mn; |
mk размер- |
ность xk ; r r1,...,rn |
неотрицательный вектор. Рассмотрим сле- |
||
дующий итеративный алгоритм: пусть задан произвольный x 1 S ;
решим задачу оптимизации max f x,x 1 ;x S . |
Пусть x 2 |
решение |
|||
этой задачи, определим 1 |
f x 2 ,x 1 . Если |
0, то x 1 |
равнове- |
||
|
|
1 |
|
|
|
сие, иначе 1 0. Общий k-й шаг следующий: |
для существующих |
||||
x 1 ,...,x k , 1,..., k 1 0 |
найдем |
x k 1 , k |
для |
задачи |
|
max ; f x,x i ;x S;i 1,...,k . |
Существует |
подпоследователь- |
|||
ность итерационной последовательности x 1 ,x 2 ,..., которая сходится к единственному равновесию Нэша.
Распространение на динамические системы. Рассмотрим ди-
намическую игру олигополии одного продукта. Маржинальная при-
|
fk |
|
|
' |
|
' |
|
быль фирмы k: |
|
x p |
xi |
xk p |
xi |
Ck xk . Если маржи- |
|
xk |
|||||||
|
|
i |
|
i |
|
нальная прибыль положительна (отрицательна), то фирма увеличивает (уменьшает) выпуск своей продукции; если маржинальная прибыль
176
равна нулю, то (учитывая вогнутость fk в xk ) выпуск максимизирует прибыль. Корректирующая концепция может моделироваться следующим образом:
xk t Kk p i xi xk p' i xi Ck' xk ;Kk 0; k 1,...,n.
Динамическое равновесие этой системы имеет точку внутреннего равновесия. При исследовании динамических игр рассмотрим только асимптотическое поведение траектории t . Локальная асимптотическая устойчивость исследуется на основе локальных собственных значений якобиана. Якобиан имеет структуру J D a 1T , где
|
|
|
' |
|
1 |
|
|
' |
|
|
n |
|
|
T |
|
D diag K1 p xi |
Cn |
x1 ,...,Kn p xi |
Cn |
xn ; |
1 1,...,1 ; |
||||||||||
|
|
|
i |
|
|
|
|
|
i |
|
|
|
|
|
|
|
' |
|
|
|
" |
|
|
|
' |
|
|
" |
|
T |
|
a K1 p |
xi x1 p xi |
... Kn p |
xi |
xn p xi |
. |
||||||||||
|
|
i |
|
|
i |
|
|
|
i |
|
|
i |
|
|
|
Пусть di |
обозначает i-й диагональный элемент D и ai |
i-й эле- |
|||||||||||||
мент вектора a. Характеристический полином якобиана: |
|
|
|||||||||||||
|
det D a1Τ I det D I det I D I 1a1Τ |
||||||||||||||
|
n |
|
|
|
n |
ai |
|
|
|
|
|
|
|
|
|
|
di |
1 |
|
|
0. |
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
||||||
|
i 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
i 1 di |
|
|
|
|
|
|
|
|||||
Это уравнение эквивалентно полиномиальному уравнению степени n. Найдем n действительных отрицательных корней, следовательно, динамическое равновесие локально асимптотически устойчиво.
3.6. Исследование СУ с помощью дифференциальных игр
Рассмотрим задачу дифференциальных игр – в нашем случае обобщенную задачу оптимального управления с двумя игроками.
Один игрок выбирает управление u t u Rmu и минимизирует свой функционал качества, другой игрок выбирает управление v t v Rmυ и максимизирует свой функционал качества. Дифференциальная игра называется игрой с нулевой суммой, если два функционала качества идентичны. Дифференциальные игры интересны в связи H теорией робастного управления.
177
Применение теории оптимального управления к теории дифференциальных игр является прямым: в принципе максимума Понтрягина функция Гамильтона минимизируется по отношению к управлению u; в принцип минимакса Нэша-Понтрягина функция Гамильтона одновременно минимизируется по отношению к u и максимизируется по отношению к v.
Будем рассматривать системы, инвариантные во времени, с неограниченными управлениями u, v и свободным (незакрепленным) состоянием в финальное время tb .
Общая постановка задачи. Найти такие непрерывные управления u: ta,tb Rmu ; v: ta,tb Rmv , что система x t f x t ,u t ,v t переводится из начального состояния x ta xa в терминальное с временем
tb
tb с функционалом качества J u,v K x tb (x x t ,u t ,v t dt, ми-
ta
нимизируемым по отношению к u и максимизируемым по отношению к v.
Подзадача 1. Оба игрока используют разомкнутое управление: u t u t,xa,ta ;v t v t,xa,ta .
Подзадача 2. Оба игрока используют замкнутое управление: u t ku x t ,t ;v t kv x t ,t .
Специальная постановка задачи с разделением переменных.
Функции f и L могут быть разделены:
f x t ,u t ,v t =f1 x t ,u t +f2 x t ,v t ;L x t ,u t ,v t =L1 x t ,u t +L2 x t ,v t .
Принцип минимакса Нэша-Понтрягина. Функция Гамильтона
H :Rn Rmu Rmv Rn R.
H x t ,u t ,v t , t L x t ,u t ,v t T t f x t ,u t ,v t .
Если uo : ta,tb Rmu ; vo : ta,tb Rmv |
оптимальные управле- |
ния, то выполняются следующие условия:
a)xo t = H=f xo t ,uo t ,vo t ; |
xo ta =xa; |
|
||||
|
|
f |
T |
|
||
o t = xH= xL xo t ,uo t ,vo t |
|
|
xo t ,uo t ,vo t |
o t ; |
||
|
||||||
|
|
|
|
|||
|
|
x |
|
|
||
o tb = xK xo tb ;
178
б) гамильтониан H xo t ,u t ,v t , o t имеет седловую точку по отношению к u Rmu ; v Rmv ; t ta, tb .
H xo t ,uo t ,vo t , o t H xo t ,u t ,vo t , o t ; u Rmu ; H xo t ,uo t ,vo t , o t H xo t ,uo t ,v t , o t ; v Rmv ;
в) далее в случае подзадачи 2 при применении закона управления v t kv x t , t , uo минимизирующее управление задачи оптимального управления; при применении закона управления u t ku x t , t , vo максимизирующее управление задачи оптимального управления.
Теория Hamilton-Jacobi-Isaacs (HJI). В принципе минимакса Нэ-
ша-Понтрягина выражено необходимое условие для H для получения равновесия Нэша в седловой точке uo, vo формированием нера-
венств H xo,uo,v, o H xo,uo,vo, o H xo,u,vo, o .
Для распространения теории HJI на теорию дифференциальных игр сформулируем необходимое условие равновесия Нэша в виде minmaxH xo,u,v, o maxminH xo,u,v, o H xo,uo,vo, o .
u v |
v |
u |
|
|
|
Рассмотрим задачу дифференциальных игр, инвариантную во |
|||||
времени: |
найти |
два |
таких |
закона |
управления |
u x :Rn Rmu ; v x :Rn |
Rmv , |
что |
динамическая |
система |
|
x t f x t ,u t ,v t развивается от начального состояния x ta xa к конечному со временем tb и функционалом качества:
tb
J u,v K x tb L x t ,u t ,v t dt,
ta
минимизируемая управлением u и максимизируемая v.
Предположим, что функция Гамильтона H L x,u,v T f x,u,v
имеет единственное равновесие Нэша для x, Rn . Соответствую-
щие H-минимизиующие и H-максимизирующие управления: u~ x, ,
~v x, .
Если функция |
J x, t |
удовлетворяет |
граничным условиям |
||||
J x, tb K x и |
HJI |
PDE, |
J |
minmaxH x,u,v, xJ |
|||
|
~ |
|
t |
u v |
|
|
|
|
|
~ |
|
n |
ta,tb , |
||
maxminH x,u,v, xJ H x,u |
x, xJ ,v(x, xJ), xJ ; x, t R |
|
|||||
v u |
~ |
x, xJ ; |
~ |
|
|
||
|
|
|
|||||
то закон управления u x u |
v x v(x, xJ) оптимальный. |
||||||
179
|
LQ задача дифференциальной игры. Найдем такие непрерыв- |
|
ные |
неограниченные управления u: ta,tb Rmu ; |
v: ta,tb Rmv , |
что |
система x t Ax t B1 u t B2v t переводится |
из начального |
состояния x ta xa в состояние с финальным временем tb и функционал качества
|
tb |
|
|
J u,v 0,5xT tb Fx tb 0,5 xT t Qx t uT t u t 2vT t v t dt, |
|||
|
ta |
|
|
F ; Q 0 |
одновременно уменьшается выбором u и увеличивается |
||
выбором v. |
|
|
|
Решение LQ дифференциальной игры на основе принципа |
|||
минимакса |
Нэша-Понтрягина. |
Функция |
Гамильтона: |
H 0,5xTQx 0,5uTu 0,5 2vT v T Ax T B1u T B2v . |
Необходи- |
||
мые условия, следующие из принципа минимакса Нэша-Понтрягина: xo= H=Axo+B1uo+B2vo;
o= xH= Qxo AT o;
uH=0=uo+B1T o;
vH=0= 2vo+B2T o .
Таким образом, минимаксная функция Гамильтона определяет H-минимизирующие и H-максимизирующие законы управления: uo t B1T o t ;vo t 2B2T o t . Подстановка их в дифференциальное уравнение для x приведет к линейной двухточечной граничной задаче: xo t =Axo t B1 B1T o t + 2B2B2T o t ; o t = Qxo t AT o t ; xo ta =xa; o tb =Fxo tb .
Два дифференциальных уравнения однородны в xo, o и в ко-
нечное время tb вектор o tb линейная функция вектора xo tb ; поэтому примем o t K t xo t , где K t n n матрица.
Дифференцированием найдем
|
Kx Kx Kx KAx KB |
B1T Kx 2KB B2T Kx Qx AT Kx |
||
|
K AT K KA KB |
1 |
2 |
|
или |
B1T K |
2KB B2T K Q x 0; t |
ta, tb . |
|
|
2 |
|
2 |
|
|
Результирующие |
законы |
оптимального |
управления: |
uo t B1T K t xo t ;vo t 2B2T K t xo t , где симметричная положи- тельно-определенная n n матрица K t решение дифференциального
180