- •Тема 5. Принятие решений в условиях неопределенности
- •Тема 5. Принятие решений в условиях неопределенности 1
- •5.1.Критерии в условиях неопределенности
- •5.1.1.Критерий Лапласа
- •5.1.2. Минимаксный критерий
- •5.1.3.Критерий Сэвиджа
- •5.1.4. Критерий Гурвица
- •5.1.5. Пример.
- •5.2. Теоретико-игровые модели
- •5.2.1. Оптимальность в форме равновесия
- •5.2.2. Почти антагонистические игры
- •5.2.3. Принципы оптимальности в условиях обмена информацией
- •5.2.4.Смешанные стратегии
- •5.3. Игры с нулевой суммой
- •5.3.1. Оптимальное решение игры двух лиц с нулевой суммой
- •5.3.2. Теорема о минимаксе
- •5.3.3. Решение игр с нулевой суммой в смешанных стратегиях
- •5.4. Методы решения матричных игр в смешанных стратегиях
- •5.4.1. Графическое решение игр
- •5.4.2. Метод последовательных приближений
- •5.4.3. Решение матричных игр методами линейного программирования
5.4.2. Метод последовательных приближений
В этом методе используется метод моделирования. Игру многократно моделируют или проигрывают, выбирая на каждом шаге такую чистую стратегию, которая является наилучшей из всех предыдущих партий. Относительные частоты применения этих стратегий определяют приближенное решение игры. При этом требуется определить минимум и максимум дискретного набора чисел и произвести операцию сложения.
Табл.5.4.2-1. Метод последовательных приближений для игры 3×3.
N |
i(N) |
l1(N) |
l2(N) |
l3(N) |
v1(N) |
j(N) |
u1(N) |
u2(N) |
u3(N) |
v2(N) |
v1(N)- v2(N) |
|
|
|
|
|
|
|
|
|
|
|
|
При методе последовательных приближений все расчеты заносятся в таблицу. Для случая игры 3x3 эта таблица составляется следующим образом (табл.5.4.2-1). В первую колонку вносится номер партии, во вторую — номер i(N) чистой стратегии игрока А в N-й партии, в третью — общий платеж l1(N) игроку А после N партий, если игрок В применяет все время стратегию с1. Аналогично определяют l2(N) и l3(N); v1(N) – наименьший средний выигрыш игрока А после N партий; j(N) – номер чистой стратегии игрока В в N-й партии; u1(N) – общий платеж игроку А после N партий, если игрок А все время применяет стратегию k1.
Аналогично определяются стратегии u2(N) и u3(N); v2(N) – наибольший средний выигрыш игрока А после N партий.
.
Игрок А в первой партии выбирает стратегию k1. Правило выбора стратегий j(N) и i(N) на каждом шаге может быть записано следующим образом:
j(N) выбирается так, чтобы оно было наименьшим целым, при котором
,
т.е. прежде, чем сделать очередной выбор системы на данном шаге N, сравнивают, при каких стратегиях на данном шаге игрок А получит суммарный платеж меньше, и применяют эту стратегию.
i (N) выбирается наименьшим целым числом, при котором
.
т. е. перед очередным шагом игрок А делает возможный перебор стратегий и ходит так, чтобы на данном шаге получить максимальный платеж. Здесь вместо (N) стоит (N-1), так как вначале ходит игрок А, потом игрок В, и первые перед N-м ходом имеют N-1 партий, а вторые – N партий для анализа; uj(N) вычисляют по формуле
Цена игры приближенно определяется по формуле
,
где
[ Кузин 15к]
5.4.3. Решение матричных игр методами линейного программирования
Теория игр находится в тесной связи с линейным программированием, так как любую конечную игру двух лиц с нулевой суммой можно представить в виде задачи линейного программирования и наоборот. Дж. Данциг [2] отмечает, что когда в 1947 году создатель теории игр Дж. фон Нейман впервые ознакомился с симплекс-методом, он сразу установил эту взаимосвязь и обратил особое внимание на концепцию двойственности в линейном программировании. Этот раздел иллюстрирует решение матричных игр методами линейного программирования.
Оптимальные значения вероятностей xi, i = 1, 2, ..., m, игрока А могут быть определены путем решения следующей максиминной задачи.
,
Чтобы сформулировать эту задачу в виде задачи линейного программирования, положим
Отсюда вытекает, что
Следовательно, задача игрока A может быть записана в виде.
Максимизировать z = v
при ограничениях
Отметим последнее условие, что цена игры v может быть как положительной, так и отрицательной.
Оптимальные стратегии у1,у2,…, yn игрока В определяются путем решения задачи
,
Используя процедуру, аналогичную приведенной выше для игрока А, приходим к выводу, что задача для игрока В сводится к следующему.
Максимизировать w = v
при ограничениях
Две полученные задачи оптимизируют одну и ту же (не ограниченную в знаке) переменную v, которая является ценой игры. Причиной этого является то, что задача игрока В является двойственной к задаче игрока А. Это означает, что оптимальное решение одной из задач автоматически определяет оптимальное решение другой.
Пример 5.4.3-1.
Рассмотрим пример решения матричной игры методом линейного программирования. Вернемся к примеру игры двух участников с нулевой суммой, платежная матрица которой приведена на рис.5.3.1-2:
.
Эта игра не имеет седловой точки, поэтому решение игры следует искать в смешанных стратегиях. Значение цены игры должно находится между -2 (минимум строк) и 4 (максимум столбцов).
Задача линейного программирования для игрока А.
Максимизировать z = v
при ограничениях
Из системы ограничений можно исключить переменную x2 и перейти к задаче с двумя оптимизируемыми переменными z и v.
Максимизировать z = v
при ограничениях
На рис.5.4.3-1 приведен графический способ решения задачи линейного программирования. Цифрами обозначены графики линейных функций, представляющих собой границы областей, в пределах которых выполняются соответствующие ограничения-неравенства. Стрелками показаны направления внутрь областей.
v
Согласно полученному решению игрок А должен выбирать свою первую стратегию с вероятностью , а вторую – с вероятностью . Цена игры при выборе первым игроком такой смешанной стратегии может быть определена с помощью любого из активных ограничений:
Задача линейного программирования для игрока А.
Максимизировать z = v
при ограничениях
Для решения сформулированной задачи линейного программирования воспользуемся системой компьютерной математики Mathcad. Встроенная функция Minimize реализует достаточно универсальный алгоритм оптимизации не требующий вычисления производных. На рис.5.4.3-2 приведено решение поставленной задачи с соответствующим описанием ее постановки.
Оптимальным решением, полученным с помощью программы, является смешанная стратегия y1 = 0,412, y2= 0,588, y3 = 0. Ей соответствует цена игры v = 1,294, т.е. решения полученные игроком А и игроком В дают одинаковую цену игры, что соответствует теореме о минимаксе. Кроме того известно, что в игре 2×n каждый из участников может располагать не более чем двумя активными стратегиями. Равенство нулю вероятности y3 означает, что третья стратегия не является активной и участнику В не следует использовать ее в данной игре. Последний результат подтверждается и графическим решением задачи линейного программирования для игрока А: точка максимума целевой функции не принадлежит прямой (3), соответствующей третей чистой стратегии игрока В.