Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Все шпоры.doc
Скачиваний:
58
Добавлен:
22.09.2019
Размер:
3.24 Mб
Скачать

49. Марковские процессы. Необходимость применения итеративной процедуры в методе итераций по стратегиям при бесконечном числе этапов.

Конечной целью является определение оптимальной стратегии, приводящей к максимальному значению Е. Так как имеется m уравнений с неизвестными, оптимальное значение Е нельзя определить за один шаг. В связи с этим используется итеративная процедура, начинающаяся с произвольной стратегии, а затем определяется новая стратегия, дающая лучшее значение Е. Итеративный процесс заканчивается, если две последовательно получаемые стратегии совпадают.

50. Марковские процессы. Алгоритм метода итераций по стратегиям при бесконечном числе этапов. Общая характеристика.

Упрощенное рекуррентное уравнение имеет вид:

Т.е. система m уравнений с неизвестными f(1), f(2), …,f(m) и E. Конечной целью является определение оптимальной стратегии, приводящей к максимальному значению Е. Используется итеративная процедура, начинающаяся с произвольной стратегии, затем определяется новая стратегия, дающая лучшее значение Е. Итеративный процесс заканчивается, если две последовательно получаемые стратегии совпадают.

Итеративный процесс состоит из двух основных шагов.

1.Шаг оценивания параметров:

Выбираем произвольную стратегию s; Используя соответствующие матрицы , , произвольно полагая f(m) = 0, решаем уравнения

, относительно неизвестных , , ,.., .

2.Шаг улучшения стратегии:

Для каждого состояния определяем альтернативу k, обеспечивающую

Здесь используются значения , j = 1, 2, …, m, определенные на шаге оценивания параметров. Результирующие оптимальные решения для состояний 1, 2, …, m формируют новую стратегию t. Если s и t идентичны, то алгоритм заканчивается; в этом случае t – оптимальная стратегия. В противном случае полагаем s = t и возвращаемся к шагу оценивания параметров.

51. Марковские процессы. Критерий выбора оптимального решения в методе итераций по стратегиям при бесконечном числе этапов.

Конечной целью решения методом итераций по стратегиям является определение оптимальной стратегии, приводящей к максимальному значению Е (доход). Так как имеется m уравнений с m + 1 неизвестными, оптимальное значение Е нельзя определить за один шаг. В связи с этим используется итеративная процедура, начинающаяся с произвольной стратегии, а затем определяется новая стратегия, дающая лучшее значение Е. Итеративный процесс заканчивается, если две последовательно получаемые стратегии совпадают.

52. Марковские процессы. Пример шага оценивания параметров в методе итераций по стратегиям при бесконечном числе этапов.

Выбираем произвольную стратегию. Имеем соответствующие матрицы:

Уравнение шага оценивания параметров принимает вид:

Полагая , получаем решение этих уравнений:

53. Марковские процессы. Пример шага улучшения стратегии в методе итераций по стратегиям при бесконечном числе этапов.

На первом этапе была выбрана произвольная стратегия S. Имеем соответствующие матрицы:

На первом шаге оценивания параметров были получены результаты:

Перейдем ко второму шагу – улучшения стратегии.

Для каждого состояния i определяем альтернативу к, обеспечивающую , где f(j) имеют значения, определенные на шаге оценивания параметров. Результаты занесем в таблицу:

Оптимальное решение

i

1

5,3+0,2*12,88+0,5*8+

+0,3*0=11,875

4,7+0,3*12,88+0,6*8+

+0,1*0=13,36

13,36

2

2

3+0*12,88+0,5*8+

+0,5*0=7

3,1+0,1*12,88+0,6*8+

+0,3*0=9,19

9,19

2

3

-1+0*12,88+0*8+

+0*1=-1

0,4+0,05*12,88+0,4*8+

+0,55*0=4,24

4,24

2

Полученная стратегия неравна предыдущей. Итеративный процесс продолжается до тех пор, пока две последовательно получаемые стратегии совпадут. Результирующие оптимальные решения для состояний 1,2, ..., m формируют новую стратегию t. Если s и t идентичны, то алгоритм заканчивается; в этом случае t -оптимальная стратегия. В противном случае полагаем s = t и возвращаемся к шагу оценивания параметров. Целью этого шага является получение максимального Е. Поскольку f(i) не зависит от альтернатив к, задача максимизации на шаге улучшения стратегии эквивалентна максимизации Е по альтернативам к.

54. Марковские процессы. Отличие метода итераций по стратегиям от метода итераций по стратегиям с дисконтированием при бесконечном числе этапов. Общая характеристика.

Алгоритмы обоих методов состоят из 2-х шагов:

  1. Шаг оценивания параметров

  2. Шаг улучшения стратегии

Отличие заключается в ведении коэффициента дисконтирования α.

Таким образом, уравнение для шага 1 примет вид:

На втором шаге улучшения стратегии уравнение примет вид:

55. Марковские процессы. Шаг 1 оценивания параметров в алгоритме итераций по стратегиям с дисконтированием при бесконечном числе этапов.

При использовании метода итераций по стратегиям с дисконтированием выполняются следующие действия:

Шаг 1. Оценивание параметров. Для произвольной стратегии s с матрицами , решаем систему из m уравнений:

, относительно m неизвестных

56. Марковские процессы. Шаг 2 улучшения стратегии в алгоритме итераций по стратегиям с дисконтированием при бесконечном числе этапов.

Шаг улучшения стратегии. Для каждого состояния определяем альтернативу , обеспечивающую

где имеет значения, определенные на шаге оценивания параметров. Если полученная стратегия совпадает со стратегией , то алгоритм закончен; в этом случае стратегия оптимальна. В противном случае полагаем и повторяем шаг оценивания параметров.

57. Марковские процессы. Пример улучшения стратегии в алгоритме итераций по стратегиям с дисконтированием при бесконечном числе этапов.

Решим задачу садовника с учетом коэффициента дисконтирования . Выберем произвольную стратегию . Матрицы и ( и )

определяют уравнения:

Решение этих уравнений дает: , ,

Результаты вычислений итераций по улучшению стратегии приведены в следующей таблице.

Оптимальное решение

1

5,3+0,6[0,2×6,6+0,5×3,21

+0,3×(-2,5)]=6,61

4,7+0,6[0,3×6,6+0,6×3,21

+0,1×(-2,5)]=6,89

6,89

2

2

3+0,6[0×6,6+0,5×3,21

+0,5×(-2,5)]=3,21

3,1+0,6[0,1×6,6+0,6×3,21

+0,3×(-2,5)]=4,2

4,2

2

3

-1+0,6[0×6.6+0×3,21

+1×(-2,5)]=-2,5

0,4+0,6[0,05×6,6+0,4×3,21

+0,55×(-2,5)]=0,54

0,54

2

Шаг оценивания параметров, выполненный на основе матриц и

Приводит к следующим уравнениям

Решением этих уравнений будет: , ,

Результаты, полученные на шаге улучшения стратегии, приведены в следующей таблице:

Оптимальное решение

1

5,3+0,6[0,2×8,88+0,5×6,62

+0,3×3,37]=8,95

4,7+0,6[0,3×8,88+0,6×6,62

+0,1×3,37]=8,88

8,95

1

2

3+0,6[0×8,88+0,5×6,62

+0,5×3,37]=5,99

3,1+0,6[0,1×8,88+0,6×6,62

+0,3×3,37]=6,62

6,62

2

3

-1+0,6[0×8.88+0×6,62

+1×3,37]=1,02

0,4+0,6[0,05×8,88+0,4×6,62

+0,55×3,37]=3,37

3,37

2

Так как новая стратегия отличается от предыдущей, повторяем шаг оценивания параметров с использованием матриц и :

Получаем следующие уравнения:

Решением этих уравнений будет: , ,

Результаты, полученные на шаге улучшения стратегии, приведены в следующей таблице:

Оптимальное решение

1

5,3+0,6[0,2×8,98+0,5×6,63

+0,3×3,38]=8,98

4,7+0,6[0,3×8,98+0,6×6,63

+0,1×3,38]=8,91

8,98

1

2

3+0,6[0×8,98+0,5×6,63

+0,5×3,38]=6,00

3,1+0,6[0,1×8,98+0,6×6,63

+0,3×3,38]=6,63

6,63

2

3

-1+0,6[0×8.98+0×6,63

+1×3,38]=1,03

0,4+0,6[0,05×8,98+0,4×6,63

+0,55×3,38]=3,37

3,37

2

Так как новая стратегия идентична предыдущей, то она оптимальна. При дисконтировании оптимальная стратегия исключает применение удобрений при хорошем состоянии системы (состояние 1).