Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЭМММ.docx
Скачиваний:
19
Добавлен:
07.12.2018
Размер:
74.04 Кб
Скачать

Понятие смешанной стратегии. Упрощение платежных матриц

Если платёжная матрица не имеет Седловой точки, то есть a<B, то поиск решения игры приводит к применению сложной стратегии, состоящей в случайном применении 2 и более стратегий с определёнными частотами. Смешанной стратегией игрока называют вектор, каждая из компонент которого показывает относительную частоту, использования игроком соответствующей чистой стратегии. Обычно смешанную стратегию игрока A обозначают как P, а второго игрока B как вектор Q. Из определения следует, что сумма компонент вектора стратегии равна 1, а сами компоненты неотрицательны.

P=(p1, p2, …, pm), pi>0, i=1

Q=(q1, q2 …, qn), qj>0, j=1

Основная теорема теории игр утверждает, что каждая конечная игра имеет, по крайней мере, 1 решение и возможно оно находится в области смешанных стратегий. Применение игроками оптимальных смешанных стратегий P* и Q* позволяет получить выигрыш равный цене игры j и a<j<ß.

Для игр с платёжными матрицами большой размерности отыскания решения можно несколько упростить, если уменьшить их размерность путём вычёркивания дублирующих и заведомо невыгодных стратегий.

1)Если в матрице игры все элементы строки (столбца) равны соответствующим элементам другой строки (столбца), то соответствующие им стратегии называются дублирующими и одна из них может быть исключена.

2)Если в матрице игры все элементы некоторой строки, определяющей стратегию игрока A не больше (<) соответствующих элементов другой строки, то стратегия игрока A называется заведомо невыгодной и может быть исключена из рассмотрения.

3)Если в матрице игры все элементы некоторого столбца, определяющего стратегию игрока B, не меньше (>) соответствующих элементов другого столбца, то данная стратегия игрока B называется заведомо невыгодной и может быть исключена из платёжной матрицы.

Решение статистических игр

Особенности игр с природой:

  1. В платёжной матрице нельзя отбрасывать те или иные состояния природы

  2. Решение достаточно найти только для игрока A, поскольку природа нашей рекомендации воспринять не может

  3. Смешанные стратегии приобретают смысл только при многократном повторении игры.

Игра с природой задаётся платёжной матрицей, в которой строки соответствуют стратегиям сознательного игрока, а столбцы – состояниям природы. Состояние природы обозначаются как Пj (П – «природа», j – номер состояния). Для игр с природой часто составляют матрицу рисков. Риск – разность между максимально возможным выигрышем при данном состоянии природы и выигрышем, который будет получен при применении стратегии Ai в тех же условиях. Риск сознательного игрока A при применении им своей стратегии Ai в условиях Пj обозначается как rij. Величина rij рассчитывается по формуле:

rij=Bj-aij

Bj – максимальный выигрыш в j-столбце, характеризует благоприятность состояния природы, aij – выигрыш игрока A при применении i-стратегии при j-состоянии природы.

rij>0

Определение наилучшей стратегии сознательного игрока A в игре с природой основано на применении некоторых критериев, которые делятся на 2 группы:

  • Критерии, основанные на известных вероятностях природы

  • Критерии, используемые в условиях полной неопределённости

Коммерческая фирма занимается продажей новогодних игрушек. Спрос на ёлочные гирлянды может составить 200, 250, 300 или 350 штук. Фирма закупает гирлянды по 2 денежные единицы за 1 штуку, а реализует по 3 денежных единицы. Непроданные к новому году гирлянды реализуются оптом по сниженной цене 1,8 денежных единиц за штуку. Определите оптимальную стратегию поведения фирмы на рынке.

Решение.

  1. Определим стратегии фирмы и возможные состояния природы. У фирмы 4 стратегии:

A1 – закупить 200 штук гирлянд

A2 – закупить 250 штук гирлянд

A3 – закупить 300 штук гирлянд

A4 – закупить 350 штук гирлянд

У природы 4 стратегии:

П1 – спрос составит 200 штук

П2 – спрос составит 250 штук

П3 – спрос составит 300 штук

П4 – спрос составит 350 штук

  1. Составим платёжную матрицу игры:

А/П

П1

П2

П3

П4

А1

200

200

200

200

А2

190

250

250

250

А3

180

240

300

300

А4

170

230

290

350

a11=-2*200+3*200=200

a12=-2*200+3*200=200

a21=-2*250+3*200+1,8*50=190

a31=-2*300+3*200+1,8*100=180

Рассмотрим критерии первой группы.

Критерий Байеса

Если на основе данных статистических наблюдений известны вероятности состояний природы qj, то оптимальной стратегией игрока A считается та чистая стратегия Ai, которая соответствует максимальному среднему значению выигрыша.

В нашем примере предположим, что эксперты дали оценку возможных состояний спроса на ёлочные украшения. По их оценкам вероятности следующие: q1=0,2; q2=0,4; q3=0,3; q4=0,1.

Рассчитаем средние выигрыши по каждой стратегии игрока A:

a1=200*0,2+200*0,4+0,3*200+0,1*200=200

a2=190*0,2+250*0,4+250*0,3+0,1*250=238

a3=0,2*180+0,4*240+0,3*300+0,1*300=252

a4=248

Из полученных значений ai выберем максимальное значение. Оно соответствует стратегии A3, её и рекомендуем.

Критерий Лапласа

Если игроку A представляется в равной мере правдоподобными все состояния природы, то полагают, что q1=q2=…=qn=1/n. Оптимальной считают чистую стратегию Ai, которая обеспечивает максимальный средний выигрыш a.

a1=200

a2=(190+250+250+250)/4=235

a3=255

a4=260

Максимальный средний выигрыш соответствует стратегии A4, её и рекомендуем.

Рассмотрим критерии второй группы.

Критерий Вальда.

Оптимальной считается та стратегия игрока A, которая гарантирует в наихудших условиях максимальный выигрыш a. Критерий Вальда выражает позицию крайнего пессимизма.

a1=min (200; 200; 200; 200)=200

a2=min (190; 250; 250; 250)=190

a3=180

a4=170

Максимальный выигрыш соответствует A1.

Критерий Сэвиджа.

Выбирается та стратегия, которая в наихудших условиях даёт наименьший риск r.

Для расчёта определим максимальный проигрыш Bj по каждому состоянию природы

А/П

П1

П2

П3

П4

А1

200

200

200

200

А2

190

250

250

250

А3

180

240

300

300

А4

170

230

290

350

Bj

200

250

300

350


А/П

П1

П2

П3

П4

А1

0

50

100

150

А2

10

0

50

100

А3

20

10

0

50

А4

30

20

10

0

Bj

200

250

300

350

Найдём максимальный риск по каждой стратегии игрока A.

r1=150

r2=100

r3=50

r4=30

Минимальный риск соответствует стратегии A4.

Критерий Гурвица.

Оптимальной считается чистая стратегия Ai.

Критерий Гурвица называют критерием пессимизма-оптимизма.

В нашем примере примем значение лямбда 0,3.

S1=0,3*200+(1-0,3)*200=200

2=0,3*190+0,7*250=232

S3=0,3*180+0,7*300=260

S4=0,3*170+0,7*350=296

Максимальный обобщённый выигрыш соответствует стратегии A4.

Ответ. Так как стратегия A4 появилась большее количество раз по всем критериям, то она является преобладающей и фирме можно рекомендовать придерживаться четвёртой стратегии. В этом случае ей обеспечена максимальная прибыль при любом состоянии спроса

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]