Материал: Материалы по курсу (часть 2)

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Это больше, чем 2, поэтому, если в 1-й день будет z1=2,то оптимальным решением будет воздержаться от операции в надежде на улучшение состояния больного в оставшиеся два дня, и дерево альтернатив для первого дня приобретает вид рис. 2.16. Из этого рисунка видно, что w1(1)=w1(2)=w̅2. Наконец, среднеожидаемая оценка состояния больного в 1-й день

Это среднеожидаемая оценка состояния оперируемого больного, полученная за счет использования двух резервных дней. В случае, если бы эти дни не предоставлялись и больной бы оперировался всегда в 1-й день, среднеожидаемая оценка его состояния, как подсчитано выше, равнялась бы 1,9.

Таким образом, оптимальной стратегией врача будет следующая. Если в первый день состояние больного оценено на 3, то в этот день проводится операция. В случае же, если в первый день состояние больного оценивается меньше, чем на 3, решение об операции откладывается до следующего дня. Если на второй день состояние больного оценивается на 3 или на 2, то в этот день проводится операция. Если во второй день состояние больного оценено на 1, то операция откладывается на 3-й день. При такой тактике мы рассчитываем, что в момент операции состояние больного в среднем окажется равным 2,336 (вместо 1,9 при чисто случайной тактике).

В данном примере вместо хирургической операции могут, конечно, рассматриваться и другие существенные воздействия на организм человека, успешность применения которых критична к состоянию человека, меняющемуся во времени. Можно также переформулировать эту задачу как нахождение оптимального выбора момента выполнения ответственных действия человеком (спортивных достижений; специальных заданий, выполняемых в экстремальных условиях) в ограниченном интервале времени в условиях меняющегося во времени его физиологического или психологического состояния. При этом считается, что во всех промежуточных точках заданного интервала времени состояние человека может быть оценено количественно. Задачу можно существенно усложнить, если ввести зависимость данного состояния от предыдущего.

13. Игровые методы обоснования решений. Основные понятия теории игр. Платежная матрица.

Рассмотрим игру (модель конфликтной ситуации), в которой участвуют два игрока A и B, имеющие прямо противоположные интересы, поэтому выигрыш одного равен проигрышу другого. Такая игра называется парной игрой с нулевой суммой. Если игрок A выигрывает a, то игрок B при этом выигрывает -a, поэтому сумма выигрышей всегда равна нулю. Процесс игры заключается в последовательных ходах (личных – сознательных и случайных) противников, а совокупность правил, определяющих выбор варианта действий при каждом личном ходе в зависимости от сложившейся ситуации называется стратегией игрока. При конечном числе стратегий игра будет конечной. Пусть у игрока A имеется m возможных стратегий A1, A2, …, Am, а у игрока B – n возможных стратегий B1, B2, …, Bn. Пусть также известны величины aij – выигрыши игрока A при использовании Ai с его стороны и Bj со стороны противника. Тогда игра, называемая игрой m × n, может быть представлена таблицей, называемой платежной матрицей или просто матрицей игры.

Платежная матрица (матрица игры)

Приведение игры к матричной форме может само по себе составить трудную задачу, однако таким путем многоходовая игра фактически сводится к одноходовой – от игрока требуется сделать только один ход: выбрать подходящую стратегию. Для данного игрока среди всех стратегий имеется оптимальная, обеспечивающая ему максимальный выигрыш. Задача теории игр – нахождение оптимальных стратегий игроков в предположении одинаковой «разумности» противников.

14. Нижняя и верхняя цена игры. Принцип минимакса. Решение игры в чистых стратегиях.

Каждый игрок выбирает для себя наиболее выгодную стратегию. При этом первый игрок стремится выбрать такую стратегию, которая доставляет ему максимальный выигрыш, тогда как второй игрок выбирает стратегию, приводящую его к минимальному проигрышу. В этой связи вводят понятия нижней и верхней чистой цены игры.

По матрице игры определяются нижняя и верхняя цены игры.

Пусть , , тогда

Нижней чистой ценой игры (максимином) называется число, определяемое по формуле:

Верхней чистой ценой игры (минимаксом) называется число, определяемое по формуле:

Принцип минимакса:

Принцип выбора противниками стратегий, соответствующих получению ими выигрышей и .

Принцип осторожности, заставляющий игроков придерживаться максиминной и минимаксной стратегий соответственно, а минимаксную стратегию и максиминную стратегию называют общим термином «Минимаксные стратегии»

Известно, что минимаксные стратегии устойчивы по отношению к информации о поведении другой стороны только в случае, если . В этом случае матрица игры имеет седловую точку, а величина называется ценой игры.

Оптимальные чистые стратегии – стратегии и , при которых достигается выигрыш . Совокупность этих стратегий – решение игры

(Иными словами: Целью участников любой матричной игры является выбор наиболее выгодных стратегий, доставляющих игроку А максимальный выигрыш, а игроку В минимальный проигрыш.

Определение. Чистую стратегию Ai игрока А называют оптимальной, если при ее применении выигрыш игрока А не уменьшается, какими бы своими стратегиями не пользовался игрок В. Оптимальной для игрока В называют чистую стратегию Bj, при использовании которой проигрыш игрока В не увеличивается, какие бы стратегии не применял игрок А.)

Пример 1 — Самая простая конечная игра – игра . Ее матрица имеет вид таблицы. Если для этой матрицы , то игра имеет седловую точку и ее решение – это пара чистых стратегий, пересекающихся в седловой точке.

Пример 2 — Найти нижнюю и верхнюю цены игры с платежной матрицей

В каждой строке платежной матрицы найдем наименьший элемент и запишем его справа от матрицы. В каждом столбце платежной матрицы найдем наибольший элемент, и запишем его снизу от матрицы. В результате получим таблицу

Нижняя цена игры

Верхняя цена игры

, цена игры =3

15. Решение игры в смешанных стратегиях.

Задача теории игр – нахождение оптимальных стратегий игроков в предположении одинаковой «разумности» противников.

Рассмотрим игру (модель конфликтной ситуации), в которой участвует два игрока A и B, имеющие прямо противоположные интересы.

Процесс игры заключается в последовательных ходах (личных – сознательных и случайных) противников, а совокупность правил, определяющих выбор варианта действий при каждом личном ходе в зависимости от сложившейся ситуации называется стратегией игрока.

При конечном числе стратегий игра будет конечной. Пусть у игрока A имеется m возможных стратегий A1, A2Am, а у игрока Bn возможных стратегий B1, B2Bn. Пусть также известны величины aij – выигрыши игрока A при использовании Ai с его стороны и Bi со стороны противника.

Тогда игра, называемая игрой m×n, может быть представлена таблицей, называемой платежной матрицей или просто матрицей игры.

По матрице игры определяются нижняя α и верхняя β цены игры.

Принцип выбора противниками стратегий, соответствующих получению ими выигрышей α и β называется принципом минимакса, а сами стратегии – минимаксными. Известно, что минимаксные стратегии устойчивы по отношению к информации о поведении другой стороны только в случае, если α = β.

В случае α β для получения наибольшего выигрыша игроку выгодно применять не одну (чистую) стратегию, а чередовать случайным образом несколько стратегий.

Такие стратегии, состоящие в случайном чередовании чистых стратегий, называются смешанными и задаются соответствующими вероятностными векторами.

Пусть SA - смешанная стратегия игрока A, а SB - смешанная стратегия игрока B. Тогда SA =(p1, p2pm), SB =(q1, q2qn), где pi - вероятность применения игроком A стратегии Ai, qi - вероятность применения игроком B стратегии Bi, причем

Чистая стратегия – частный случай смешанной.

Если допустить применение смешанных стратегий, то для каждой конечной игры можно найти хотя бы одно решение, т.е. пару устойчивых оптимальных стратегий игроков (SA*, SB*), обладающих следующим свойством: если один из игроков придерживается своей оптимальной стратегии, то другому не может быть выгодно отступить от своей.

Выигрыш, соответствующий решению, называется ценой игры и в общем случае (при применении смешанной стратегии) лежит в интервале α ≤ γ ≤ β.

α – нижняя цена игры

γ – выигрыш

β – верхняя цена игры

Рассмотрим игру 2×2.

Ее матрица имеет вид:

Если в матрице 2×2 седловой точки нет и α ≠ β, то необходимо искать решение в смешанных стратегиях.

Пара оптимальных смешанных стратегий SA = (p1, p2), SB = (q1, q2), и цена игры в этом случае определяются по формулам:

Игра 2×2 и ее решение имеют простую геометрическую интерпретацию.

Пусть точки A1 и A2 соответствуют применению одноименных стратегий, а любая точка внутри этого отрезка соответствует некоторой смешанной стратегии SA *= (p1, p2).

Рисунок 1 – геометрическая интерпретация задачи 2×2

Ординаты прямой B1B1, проведенной так, как показано на рис.1, соответствуют выигрышу игрока A при применении им любой стратегии (чистой или смешанной) при условии, что B применяет B1. Прямая B2B2 также отражает выигрыш игрока A в случае, когда B применяет B2. Жирной линией отмечена нижняя граница выигрыша B1NB2 – минимальный выигрыш игрока A при любой его смешанной стратегией. Очевидно, решение достигается в точке максимума нижней границы (на рис.1 в точке N). Геометрические построения легко осуществляются по элементам матрицы игры, которые откладываются на вертикальных осях.

По рисунку легко находятся α, β, γ и проводится анализ игры.

Геометрическим способом также легко анализируются и решаются игры 2×n.

Они задаются матрицей игры:

Например, геометрическая интерпретация игры 2×4, в которой число наклонных линий получается равным 4, по числу стратегий игрока B. имеет вид:

Рисунок 2 – геометрическая интерпретация задачи 2×4

Нижняя граница игры может в данном случае уже представлять сложную ломаную линию, максимум которой, как и ранее, определяет решения игры.

Т.е. находим, самую нижнюю кривую и самая верхняя точка пересечения в этой кривой и есть решение игры.

Из рис. 2 видно, что нижняя граница выигрыша – прямая B1MNB2, ее максимум достигается в точке N, которая определяет оптимальную стратегию SA *= (p1, p2). Следует отметить, что стратегия B3 вообще может не рассматриваться как заведомо невыгодная игроку B, а значения p1 и p2 можно найти по формулам игры 2×2, учитывая, что в точке N активных стратегий игрока B только две B2 и B4.