Материал: 2488

Смотрите также:

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Вычисление равновесия Нэша. Существует несколько различных концепций вычисления равновесия Нэша. Рассмотрим три наиболее часто используемых метода: решение для фиксированных точек, редуцирование к вариационным неравенствам и преобразование задачи о равновесии к задаче оптимизации.

Пусть g лучшее отображение реакции x g x g1 x ... gn x ,

тогда x* равновесие Нэша, если и только если x* g x* . Если g x

функция одной переменной, то x* фиксированная точка, если и только если x* g x* ; в этом случае необходимо решить систему алгебраических уравнений. Если g x множество, то существует система неравенств, независимых от x, необходимо найти допустимое решение этих неравенств.

Введем	функцию	n
		агрегирования: Hr x,y rk fk x k,yk с
r rk 0.		k 1
	Очевидно,	что x* равновесие если и только если

Hr x* ,x* Hr x* ,y ; x S, то max h x,r T x x* 0, где h: S RM:

	x S
h x,r r1 1 f1 x ...	rn n fn x T ;	M m1 ... mn;	mk размер-
ность xk ; r r1,...,rn	неотрицательный вектор. Рассмотрим сле-

дующий итеративный алгоритм: пусть задан произвольный x 1 S ;

решим задачу оптимизации max f x,x 1 ;x S .			Пусть x 2		решение
этой задачи, определим 1	f x 2 ,x 1 . Если		0, то x 1		равнове-
		1
сие, иначе 1 0. Общий k-й шаг следующий:				для существующих
x 1 ,...,x k , 1,..., k 1 0	найдем	x k 1 , k		для	задачи
max ; f x,x i ;x S;i 1,...,k .		Существует		подпоследователь-

ность итерационной последовательности x 1 ,x 2 ,..., которая сходится к единственному равновесию Нэша.

Распространение на динамические системы. Рассмотрим ди-

намическую игру олигополии одного продукта. Маржинальная при-

	fk			'		'
быль фирмы k:		x p	xi	xk p	xi	Ck xk . Если маржи-
быль фирмы k:	xk	x p	xi	xk p	xi	Ck xk . Если маржи-
	xk		i		i

нальная прибыль положительна (отрицательна), то фирма увеличивает (уменьшает) выпуск своей продукции; если маржинальная прибыль

176

равна нулю, то (учитывая вогнутость fk в xk ) выпуск максимизирует прибыль. Корректирующая концепция может моделироваться следующим образом:

xk t Kk p i xi xk p' i xi Ck' xk ;Kk 0; k 1,...,n.

Динамическое равновесие этой системы имеет точку внутреннего равновесия. При исследовании динамических игр рассмотрим только асимптотическое поведение траектории t . Локальная асимптотическая устойчивость исследуется на основе локальных собственных значений якобиана. Якобиан имеет структуру J D a 1T , где

D diag K1 p xi

x1 ,...,Kn p xi

xn ;

1 1,...,1 ;

a K1 p

xi x1 p xi

... Kn p

xn p xi

Пусть di

обозначает i-й диагональный элемент D и ai

i-й эле-

мент вектора a. Характеристический полином якобиана:

det D a1Τ I det D I det I D I 1a1Τ

i 1

i 1 di

Это уравнение эквивалентно полиномиальному уравнению степени n. Найдем n действительных отрицательных корней, следовательно, динамическое равновесие локально асимптотически устойчиво.

3.6. Исследование СУ с помощью дифференциальных игр

Рассмотрим задачу дифференциальных игр – в нашем случае обобщенную задачу оптимального управления с двумя игроками.

Один игрок выбирает управление u t u Rmu и минимизирует свой функционал качества, другой игрок выбирает управление v t v Rmυ и максимизирует свой функционал качества. Дифференциальная игра называется игрой с нулевой суммой, если два функционала качества идентичны. Дифференциальные игры интересны в связи H теорией робастного управления.

177

Применение теории оптимального управления к теории дифференциальных игр является прямым: в принципе максимума Понтрягина функция Гамильтона минимизируется по отношению к управлению u; в принцип минимакса Нэша-Понтрягина функция Гамильтона одновременно минимизируется по отношению к u и максимизируется по отношению к v.

Будем рассматривать системы, инвариантные во времени, с неограниченными управлениями u, v и свободным (незакрепленным) состоянием в финальное время tb .

Общая постановка задачи. Найти такие непрерывные управления u: ta,tb Rmu ; v: ta,tb Rmv , что система x t f x t ,u t ,v t переводится из начального состояния x ta xa в терминальное с временем

tb с функционалом качества J u,v K x tb (x x t ,u t ,v t dt, ми-

нимизируемым по отношению к u и максимизируемым по отношению к v.

Подзадача 1. Оба игрока используют разомкнутое управление: u t u t,xa,ta ;v t v t,xa,ta .

Подзадача 2. Оба игрока используют замкнутое управление: u t ku x t ,t ;v t kv x t ,t .

Специальная постановка задачи с разделением переменных.

Функции f и L могут быть разделены:

f x t ,u t ,v t =f1 x t ,u t +f2 x t ,v t ;L x t ,u t ,v t =L1 x t ,u t +L2 x t ,v t .

Принцип минимакса Нэша-Понтрягина. Функция Гамильтона

H :Rn Rmu Rmv Rn R.

H x t ,u t ,v t , t L x t ,u t ,v t T t f x t ,u t ,v t .

Если uo : ta,tb Rmu ; vo : ta,tb Rmv

оптимальные управле-

ния, то выполняются следующие условия:

o tb = xK xo tb ;

178

б) гамильтониан H xo t ,u t ,v t , o t имеет седловую точку по отношению к u Rmu ; v Rmv ; t ta, tb .

H xo t ,uo t ,vo t , o t H xo t ,u t ,vo t , o t ; u Rmu ; H xo t ,uo t ,vo t , o t H xo t ,uo t ,v t , o t ; v Rmv ;

в) далее в случае подзадачи 2 при применении закона управления v t kv x t , t , uo минимизирующее управление задачи оптимального управления; при применении закона управления u t ku x t , t , vo максимизирующее управление задачи оптимального управления.

Теория Hamilton-Jacobi-Isaacs (HJI). В принципе минимакса Нэ-

ша-Понтрягина выражено необходимое условие для H для получения равновесия Нэша в седловой точке uo, vo формированием нера-

венств H xo,uo,v, o H xo,uo,vo, o H xo,u,vo, o .

Для распространения теории HJI на теорию дифференциальных игр сформулируем необходимое условие равновесия Нэша в виде minmaxH xo,u,v, o maxminH xo,u,v, o H xo,uo,vo, o .

u v	v	u
Рассмотрим задачу дифференциальных игр, инвариантную во
времени:	найти	два	таких	закона	управления
u x :Rn Rmu ; v x :Rn		Rmv ,	что	динамическая	система

x t f x t ,u t ,v t развивается от начального состояния x ta xa к конечному со временем tb и функционалом качества:

J u,v K x tb L x t ,u t ,v t dt,

минимизируемая управлением u и максимизируемая v.

Предположим, что функция Гамильтона H L x,u,v T f x,u,v

имеет единственное равновесие Нэша для x, Rn . Соответствую-

щие H-минимизиующие и H-максимизирующие управления: u~ x, ,

~v x, .


Если функция	J x, t		удовлетворяет		граничным условиям
J x, tb K x и	HJI	PDE,		J	minmaxH x,u,v, xJ
	~			t	u v
				~		n	ta,tb ,
maxminH x,u,v, xJ H x,u			x, xJ ,v(x, xJ), xJ ; x, t R
v u	~	x, xJ ;		~

то закон управления u x u				v x v(x, xJ) оптимальный.

179

	LQ задача дифференциальной игры. Найдем такие непрерыв-
ные	неограниченные управления u: ta,tb Rmu ;	v: ta,tb Rmv ,
что	система x t Ax t B1 u t B2v t переводится	из начального

состояния x ta xa в состояние с финальным временем tb и функционал качества

	tb
J u,v 0,5xT tb Fx tb 0,5 xT t Qx t uT t u t 2vT t v t dt,
	ta
F ; Q 0	одновременно уменьшается выбором u и увеличивается
выбором v.
Решение LQ дифференциальной игры на основе принципа
минимакса	Нэша-Понтрягина.	Функция	Гамильтона:
H 0,5xTQx 0,5uTu 0,5 2vT v T Ax T B1u T B2v .			Необходи-

мые условия, следующие из принципа минимакса Нэша-Понтрягина: xo= H=Axo+B1uo+B2vo;

o= xH= Qxo AT o;

uH=0=uo+B1T o;

vH=0= 2vo+B2T o .

Таким образом, минимаксная функция Гамильтона определяет H-минимизирующие и H-максимизирующие законы управления: uo t B1T o t ;vo t 2B2T o t . Подстановка их в дифференциальное уравнение для x приведет к линейной двухточечной граничной задаче: xo t =Axo t B1 B1T o t + 2B2B2T o t ; o t = Qxo t AT o t ; xo ta =xa; o tb =Fxo tb .

Два дифференциальных уравнения однородны в xo, o и в ко-

нечное время tb вектор o tb линейная функция вектора xo tb ; поэтому примем o t K t xo t , где K t n n матрица.

Дифференцированием найдем

	Kx Kx Kx KAx KB		B1T Kx 2KB B2T Kx Qx AT Kx
	K AT K KA KB	1	2
или	K AT K KA KB	B1T K	2KB B2T K Q x 0; t	ta, tb .
	2		2
	Результирующие	законы	оптимального	управления:

uo t B1T K t xo t ;vo t 2B2T K t xo t , где симметричная положи- тельно-определенная n n матрица K t решение дифференциального

180

a)xo t = H=f xo t ,uo t ,vo t ;

xo ta =xa;

o t = xH= xL xo t ,uo t ,vo t

xo t ,uo t ,vo t

o t = xH= xL xo t ,uo t ,vo t

xo t ,uo t ,vo t

дифферинциальная 6 тема
История развития промышленности Ижевска с середины ХХ века по настоящее время. Современное состояние
Коррекция геометрического шума МФПУ с помощью аппроксимации методом наименьших квадратов передаточных характеристик матрицы полиномом T-го порядка
Особливості митного контролю на автомобільному транспорті
Формирование опыта вербального самовыражения у обучающихся средствами иноязычного монолога