Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

М.А. Тынкевич Многошаговые процессы принятия решений (динамическое программирование)

.pdf
Скачиваний:
88
Добавлен:
19.08.2013
Размер:
271.06 Кб
Скачать

10

3.2. Пример решения задачи

Рассмотрим пример, аналогичный представленному в предшествующей лабораторной работе:

 

 

A +

B X

, X >

0

+

H

Y

,

 

A=13 , B=2 , H=1 ;

(6)

C( X ,Y )=

 

 

0

,

X =

0

 

 

 

 

 

 

R =5, емкость склада T =4, спрос S

максимальный объем производства

 

=3, N = 6. Здесь систему управления запасами можно интерпретировать

как систему с пятью состояниями (i Y = 0, 1, 2 , 3 , 4).

 

 

 

Для удобства

 

последующей

 

работы

рассчитаем

таблицу

значе-

ний Сi j ( j= i+X-3),

где

учитываются

затраты

на производство,

рав-

ные 13+2× X при X > 0

 

и 0

при X = 0,

и на хранение,

равные 1× j (X не

превышает 5).

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i \ j

 

 

0

 

 

1

 

 

2

 

 

3

 

4

 

 

Сi j =

0

 

 

19+0

21+1

23+2

 

 

 

 

 

 

 

1

 

 

17+0

19+1

21+2

 

 

23+3

 

 

 

 

 

2

 

 

15+0

17+1

19+2

 

 

21+3

 

23+4

 

 

 

3

 

 

 

0+0

15+1

17+2

 

 

19+3

 

21+4

 

 

 

4

 

 

 

 

 

 

0+1

 

15+2

 

 

17+3

 

19+4

 

 

Берем за начальное поведение политику производства, обеспечивающую минимальный объем выпуска, достаточный для покрытия спроса.

Тогда для i=0 берем X=3, для i=1 - X=2,

для i=2 - X=1, для i=3 и

i=4 - X=0: начальное поведение определяется системой переходов

( 0 0 ) , ( 1

0 ) , ( 2 0 ) , ( 3

0 ) , ( 4 1 ) .

Для этого поведения

возникает система 5 уравнений с 6 неизвест-

ными, которую решаем с точностью до константы (при выборе, например

F0 , равным какой-то константе, другие Fi определятся с точностью до константы, тогда как значение C не зависит от этого выбора):

F0 + C = 19 + F0

F0 = 0,

C = 19,

F1 + C = 17 + F0

F1 = - 2,

 

F2 + C = 15 + F0

F2

= - 4,

 

F3 + C = 0 + F0

F3

= - 19,

 

F4 + C = 1 + F1

F4

= - 20.

 

Обнаружив, что выбранная политика обеспечивает

 

средние затра-

ты, равные 19 , попытаемся найти улучшенное поведение:

при j=0;

i = 0 : min[C0 j +Fj ] = min [ 19+0, 22-2, 25-4, - ,

-

]

i = 1

: min[C1 j +Fj ] = min [ 17+0, 20-2, 23-4, 26-19,

-

]

при j=3;

i = 2

: min[C2 j +Fj ] = min [ 15+0, 18-2, 21-4, 24-19, 27-20 ]

при j=3;

i = 3

: min[C3 j +Fj ] = min [

0+0,

16-2, 19-4, 22-19, 25-20 ]

при j=0;

i = 4

: min[C 4 j +Fj ] = min [

- ,

1-2 , 17-4, 20-19, 23-20 ]

при j=1.

Найденное улучшенное поведение определяет систему переходов:

 

 

11

 

 

 

 

( 0 0 ) , ( 1

3 ) , ( 2

3 ) , ( 3 0 ) , ( 4 1 ) .

Строим и решаем соответствующую систему уравнений

F0 + C = 19 + F0

F0 = 0,

C = 19,

F1

+ C = 26 + F3

F1 = - 12,

F2 + C = 24 + F3

F2 = - 14,

F3 + C = 0 + F0

F3 = - 19,

F4

+ C = 1 + F1

F4 = - 30.

Видим, что и эта выбранная политика обеспечит средние затраты, равные 19.

Аналогичные попытки улучшения дают поведения:

 

 

( 0

1 ) , ( 1

3 ) , ( 2

3 ) , ( 3

4 ) , ( 4

1 ) , C=17.3 ;

( 0

2 ) , ( 1

2 ) , ( 2

4 ) , ( 3

0 ) , ( 4

1 ) , C=17

;

( 0

2 ) , ( 1

3 ) , ( 2

3 ) , ( 3

0 ) , ( 4

1 ) , C=16.3 ;

( 0

1 ) , ( 1

3 ) , ( 2

4 ) , ( 3

0 ) , ( 4

1 ) , C=16

;

( 0

2 ) , ( 1

3 ) , ( 2

4 ) , ( 3

0 ) , ( 4

1 ) , C=15.8 ;

( 0

2 ) , ( 1

3 ) , ( 2

4 ) , ( 3

0 ) , ( 4

1 ) .

 

Поскольку два очередных приближения в поведениях совпали, можно утверждать, что оптимальная политика переходов между состояниями имеет вид:

и оптимальный производственный цикл определяется последовательностью объемов производства [ 5 - 5 - 0 - 5 - 0 ]. Найденная политика может быть принята за отправную при скользящем планировании.

3.3. Контрольные задания

3.3.1. Требования

1. Ознакомьтесь с постановкой задачи и ответьте на следующие вопросы:

-правомерность замены процесса большой длительности бесконечношаговым;

-эффективность такой замены;

-можно ли в бесконечношаговом процессе пользоваться критериями эффективности, обычными в конечношаговых (минимум суммарных затрат, максимальная прибыль, максимальный объем добычи и т.п.);

-в чем смысл интегрального дисконтированного эффекта;

-понятие функционального уравнения;

-методы решения функциональных уравнений;

-приближение в поведениях – что это такое;

-почему начальное поведение выбирается по минимальному приемлемому объему производства.

12

2.Выберите вариант контрольного задания и выполните его. Оцените полученное оптимальное решение с позиций здравого смысла.

3.Постройте функциональные уравнения и оцените соответствующие упрощения (усложнения) для следующих видоизменений задачи:

- к следующему периоду (сезону) сохраняемая продукции на складе уменьшается на P %;

- функция затрат на производство X и сохранение Z единиц продук-

ции линейная: C (X,Z)=C× X+H× Z .

3.3.2. Варианты заданий

R

T

S

A

B

H

R

T

S

A

B

H

1

5

4

3

13

2

3

2

5

4

3

17

2

3

3

5

4

3

13

3

2

4

5

4

3

17

3

2

5

6

5

4

15

2

3

6

6

5

3

15

2

3

7

6

5

4

15

3

2

8

6

5

3

15

3

2

9

5

5

4

15

2

3

10

5

5

4

19

2

4

11

5

5

4

15

3

2

12

5

5

4

19

4

2

13

4

4

3

13

3

2

14

6

4

5

13

3

2

15

4

4

3

15

2

3

16

4

6

5

15

2

3

17

8

5

4

20

2

4

18

3

7

2

13

3

2

19

8

5

4

20

4

2

20

3

7

2

15

2

3

21

7

5

4

20

2

4

22

5

4

4

15

2

3

23

7

5

4

20

4

4

24

5

4

4

20

4

4

25

7

5

4

20

3

2

26

5

4

4

20

3

2

27

4

6

4

27

4

6

28

4

6

4

28

4

6

29

4

6

4

27

4

3

30

4

6

4

30

4

2

31

6

4

5

20

4

2

32

3

7

2

28

4

6

33

4

6

5

20

2

4

34

3

7

2

30

4

2

35

3

7

2

20

4

4

35

10

5

4

20

4

2

37

3

7

2

20

3

2

38

10

5

4

20

2

4

39

4

6

4

30

4

4

40

4

6

4

20

4

4

41

4

6

4

30

3

6

42

4

6

4

20

3

2

43

7

5

5

28

4

6

44

10

5

4

28

4

6

45

7

5

5

30

4

2

46

10

5

4

30

4

2

47

6

4

4

20

2

1

48

6

5

5

28

4

6

49

6

4

4

20

2

7

50

6

5

5

30

4

2

R - максимальный объем производства, T - емкость склада , S - спрос

13

4.Лабораторная работа 4.

Стохастические процессы принятия решений. Задача дихотомического выбора

4.1. Постановка задачи и описание метода решения

Как правило при изучении реальных процессов мы не испытываем 100%-ной уверенности в точности используемых оценок спроса, дохода, затрат и т.п. Обычно значения подобных параметров оптимизационной задачи являются функциями от многих факторов, которые невозможно или затруднительно учесть в математической модели, и с позиций решающего задачу выступают в роли случайных величин, для которых известны лишь параметры соответствующего распределения вероятностей или другие вероятностные оценки.

Естественно, что в таких условиях мы не можем говорить о точных значениях прибыли, затрат и т.п., а лишь об ожидаемых значениях этих величин или о вероятностях того, что указанные величины принимают значения в некотором заданном диапазоне.

Более того, если в случае детерминированного процесса обнаруживается одна или несколько оптимальных стратегий, представляющих вполне определенную последовательность управляющих воздействий (такие стратегии называют чистыми), то для стохастического процесса оптимальная стратегия часто представляет совокупность таких воздействий, смешанных в некоторых пропорциях (соответственно такие стратегии и называют смешанными).

Рассмотрим в качестве примера многошагового стохастического процесса принятия решений известную задачу дихотомического выбора

(задачу о золотодобыче).

Пусть имеются два прииска А и B с запасами золота соответственно X и Y, но лишь единственная добывающая машина, которую приходится перебрасывать с одного прииска на другой. При работе на прииске А ма-

шина в течение сезона с вероятностью P1 добывает долю R1 имеющегося запаса и с вероятностью 1-P1 ломается навсегда. При работе на прииске B значения вероятностей и доли добычи равны соответственно P2 , R2 ,1- P2 .

Требуется найти оптимальную перестановку машины между приисками, которая максимизирует ожидаемый объем добычи за N сезонов .

Обозначим через Fk(X,Y) максимум математического ожидания суммарного объема добычи за k сезонов при начальных запасах X и Y. Т.к. есть

лишь два выбора при установке машины в очередном сезоне, то

 

 

A : P1 { R1 X + Fk 1(( 1 R1 )X ,Y ) }

 

Fk (X,Y) = max

B : P

{ R

Y + F

( X ,( 1 R

2

)Y ) }

( 1 )

 

2

2

k 1

 

 

 

Pис. 2
Pис. 1

 

 

14

 

 

 

 

F1

A : P1 R1 X

( 2 )

(X,Y) = max B : P

R

 

Y

 

 

2

 

2

 

 

Решение полученных рекуррентных соотношений обычным численным методом осложняется двухмерностью искомых функций. На помощь приходит факт, что эти функции обладают свойством однородности F (rX,rY) = r F(X,Y), откуда можно сделать вывод, что оптимальная политика для точки (X,Y) остается оптимальной для всех точек луча из (0,0), проходящего через указанную точку. Следовательно, оптимальная политика определяется соотношением между X и Y.

Если учесть, что при X>>Y оптимальным первым выбором является выбор А, а при Y>>X - выбор B , то легко видеть, что совокупность всех допустимых точек (X,Y) (положительный квадрант плоскости) разбивается на две области оптимального первого выбора (рис.1) .

Возникает вопрос об отыскании граничной линии L , где оба выбора равноценны. При k=1 она определяется элементарно уравнением

P1 R1 X = P2 R2 Y .

( 3 )

При k>1 воспользуемся следующими соображениями. Если в точке

(X,Y) линии L использовать выбор А, то последующее состояние опреде-

ляется точкой ((1-R1)X,Y), которая лежит

в области первого выбора B.

При использовании в точке (X,Y ) линии L

первого выбора B возникает

состояние, определяемое точкой ( X , (1-R2)Y ), для которой заведомо оптимален первый выбор А.

Следовательно, для точек граничной линии равноценны выборы "AB + оптимальное продолжение" и "BA + оптимальное продолжение" (рис.2).

Для этих последовательностей выборов находим представления:

(AB+) Fk(X,Y) = P1 [ R1X + F k-1((1-R1 )X,Y) ]=

=P1 [ R1X + P2 [ R2 Y + Fk-2((1-R1)X,(1-R2)Y) ] ]

=P1 R1 X + P1 P2 R2 Y + P1 P2 F k-2((1-R1)X,(1-R2)Y) ,

(BA+) Fk(X,Y) = P2 [ R2 Y + Fk-1 (X,(1-R2)Y) ]=

=P2 [ R2 Y + P1 [ R1 X + F k-2((1-R1 )X,(1-R2)Y) ] ]=

=P2 R2 Y + P2 P1R1X + P2P1 F k-2((1-R1)X,(1-R2)Y) .

Сравнивая оба выражения, получаем искомое уравнение граничной

линии при k>1:

P1 R1X + P1 P2 R2Y = P2 R2Y + P2 P1R1 X

15

или в более изящной форме:

P1 R1

X =

P2 R2

Y

( 4 )

1

P

1

P

 

1

 

 

2

 

 

Отсюда возникает простой путь решения. На первом шаге проверяем исходное состояние (точку) на положение относительно граничной линии

(4) и запоминаем соответствующий выбор. Отыскиваем координаты очередной точки в соответствии со сделанным выбором и проводим аналогичные действия. На последнем шаге (в оставшемся одношаговом процессе) суждение о выборе определяется линией (3).

4.2. Пример решения задачи

Пусть N=5, X=10, Y=20, P1 =1/3, P2 =1/2, R1 =3/4, R2 =2/3.

Уравнение ( 4 ) граничной линии при k>1 имеет вид

Y =

9

X .

 

 

16

 

Точка (10,20) лежит выше граничной линии, что отвечает выбору B. Этот

выбор порождает точку ( 10 , (1-2/3)×

20), т.е. ( 10 , 20/3), принадлежащую

области B. Этот выбор, в свою очередь, порождает точку (10,20/9), при-

надлежащую области А. Выбор А

порождает точку (10/4,20/9), лежа-

щую в области B.

 

 

 

В итоге проделанных четырех выборов к последнему шагу возникает

точка (10,20/27 ), для которой

 

 

 

F ( 10, 20 ) = max [

1

 

3

 

10

,

1

 

2

 

20 ] = 5 ,

 

 

4

 

3

 

1

27

 

3

4

 

2

 

 

27

8

 

что соответствует выбору А.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таким образом,

оптимальная

последовательность

выборов

имеет

вид {B B A B A}. Что касается значения F5(10,20), то

его можно найти

обратным ходом по ранее найденным состояниям:

 

 

 

 

A : F1(10/4,20/27) = 0.625 ,

 

 

 

 

 

 

 

 

 

 

B : F2(10/4,20/9) =1/2×

[ 2/3×

20/9 + F1(10/4,20/27)]=1.05,

A : F3(10,20/9)

= 1/3×

[ 3/4×

10

+ F2 (10/4,20/9)] = 2.85,

B : F4 (10,20/3)

= 1/2×

[ 2/3×

20/3 + F3 (10,20/9) ]

= 3.65,

B : F5(10,20)

= 1/2×

[ 2/3×

20

 

+ F4 (10,20/3) ] = 8.49 .

В случае бесконечношагового процесса соответствующее

функциональное уравнение имеет вид:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A : P1 { R1X + F( ( 1 R1)X ,Y ) }

 

F(X,Y) = max B : P { R Y +

F( X ,( 1 R

2

)Y )

}

( 5 )

 

 

2

2

 

 

 

 

 

 

 

 

 

 

 

 

Аналогичными рассуждениями можно показать, что области A и B первого выбора разделяются линией (4), и тем самым c легкостью делать очередной выбор по заданному соотношению запасов.

К сожалению, малейшее усложнение задачи многократно увеличивает трудоемкость решения [1]

16

4.3. Контрольные задания

4.3.1. Требования

1. Ознакомьтесь с постановкой задачи и подходом к ее решению методом рекуррентных соотношений.

2.Выберите вариант контрольного задания и выполните его решение. Оцените полученное оптимальное решение с позиций здравого смысла.

3.Как изменится математическая постановка задачи, если допустить, что машина выходит из строя не навсегда, а допускает ремонт к следующему сезону ?

4.Как вы подойдете к решению рассмотренной задачи в случае процесса бесконечной длительности ?

4.3.2.Варианты заданий

X

Y

P1

P2

R1

R2

N

X

Y

P1

P2

R1

R2

N

1

40

70

0.6

0.7

0.3

0.1

7

2

50

70

0.6

0.7

0.3

0.3

7

3

10

15

0.7

0.6

0.2

0.4

7

4

15

15

0.7

0.6

0.3

0.4

7

5

55

33

0.2

0.6

0.8

0.4

7

6

45

33

0.2

0.6

0.8

0.5

7

7

80

20

0.3

0.9

0.7

0.5

7

8

60

80

0.3

0.8

0.7

0.5

7

9

20

25

0.5

0.7

0.7

0.5

7

10

20

25

0.5

0.7

0.7

0.5

7

11

65

50

0.1

0.4

0.7

0.3

7

12

65

50

0.1

0.4

0.7

0.3

7

13

100

75

0.7

0.9

0.6

0.5

7

14

100

75

0.7

0.8

0.6

0.5

7

15

55

20

0.3

0.5

0.6

0.3

7

16

50

20

0.2

0.5

0.6

0.3

7

17

15

50

0.1

0.3

0.6

0.5

7

18

15

40

0.2

0.3

0.6

0.5

7

19

45

70

0.8

0.9

0.5

0.4

7

20

60

70

0.8

0.9

0.5

0.4

7

21

120

100

0.4

0.3

0.5

0.7

7

22

120

90

0.4

0.3

0.5

0.7

7

23

33

40

0.9

0.7

0.5

0.7

7

24

50

40

0.9

0.7

0.5

0.7

7

25

20

15

0.5

0.6

0.3

0.2

7

26

30

15

0.5

0.3

0.3

0.8

7

27

90

50

0.5

0.6

0.4

0.4

7

28

90

60

0.5

0.7

0.4

0.4

7

29

150

200

0.6

0.5

0.7

0.9

7

30

150

200

0.6

0.5

0.7

0.8

7

31

100

100

0.4

0.3

0.5

0.7

7

32

50

100

0.3

0.3

0.5

0.7

6

33

60

40

0.9

0.7

0.5

0.7

7

34

75

40

0.8

0.7

0.5

0.7

6

35

20

25

0.5

0.6

0.3

0.2

7

36

25

25

0.5

0.6

0.3

0.2

6

37

80

50

0.5

0.6

0.5

0.4

7

38

60

50

0.5

0.6

0.5

0.4

6

39

50

200

0.6

0.5

0.6

0.9

7

40

75

100

0.6

0.5

0.6

0.8

6

41

60

50

0.4

0.3

0.5

0.7

6

42

50

100

0.4

0.4

0.5

0.7

6

43

35

40

0.8

0.7

0.5

0.7

6

44

75

40

0.9

0.7

0.5

0.7

6

45

20

45

0.5

0.8

0.3

0.2

6

46

25

25

0.5

0.8

0.3

0.2

6

47

80

50

0.6

0.6

0.4

0.4

6

48

60

50

0.4

0.5

0.5

0.4

6

49

150

100

0.6

0.5

0.7

0.5

6

50

75

100

0.5

0.4

0.6

0.8

6

17

5.Лабораторная работа 5.

Марковские процессы принятия решений

5.1. Постановка задачи и описание метода решения

Пусть некоторая система (сбыт, потребление, здоровье, плодородие, комнатная температура и пр.) в любой фиксированный момент t может находиться в одном из n состояний и перейти из этого состояния в любое

другое. Пусть вероятность Pt(i,j) перехода в момент t из i-го состояния в j-е не зависит от предыстории системы. Такая система называется мар-

ковской.

Если вероятности перехода не зависят от времени, марковская система обладает свойством стационарности, т.е. функция Xt(j) вероятности

нахождения системы в момент t в j-ом состоянии при t→∞ асимптотически сходится к функции X(j), удовлетворяющей уравнениям:

X ( j ) = n

P( i, j ) X ( i ),

j = 1 . . n .

i= 1

 

 

Это позволяет предсказать вероятность того или иного состояния на дальнюю перспективу без каких-то трудоемких вычислений.

Предположим, что вероятности перехода зависит от некоторой политики (выбора) q и переход сопровождается получением некоторого

благоприятного эффекта Ri j(q).

Обозначим через Fk(i) ожидаемый эффект функционирования системы, находившейся в начальный момент в i-м состоянии, за k периодов при использовании оптимальной политики. Руководствуясь принципом оптимальности, требующим независимо от начального состояния i и от начального выбора q далее действовать оптимально, т.е. гарантировать мак-

симум ожидаемого эффекта

в последующем процессе, приходим к

ре-

куррентным соотношениям вида:

 

 

 

 

Fk(i) = max n

P

( q ) [ R

( q ) + F

k 1

( j ) ] , i = 1 . . n , k

1;

( 1 )

q j = 1 i j

i j

 

 

 

 

 

 

F0( i ) = 0 ,

i = 1 . . n .

 

 

Для процессов большой длительности использование (1) требует существенных затрат времени даже при машинной реализации процесса вычислений. Если учесть, что при независимости значений вероятностей и эффектов от времени процесс обладает свойством стационарности, то в предположении регулярности (возможности прямого или опосредствованного перехода из любого состояния в любое) полагаем для больших k

Fk (i) = Fi + k G ,

( 2 )

где G - средний эффект за период и Fi -составляющая суммарного эффек-

18

та, определяемая начальным состоянием. Подставляя (2) в (1) и учитывая

 

 

n

Pi j( q ) = 1,

 

 

 

j=

1

 

получаем систему функциональных уравнений

 

Fi

+ G = max n

Pi j ( q ) [ Ri j ( q )+ F j ] , i = 1 . . n ,

( 3 )

 

q j=

1

 

 

которую можно решать приближением в поведениях. Приведенную систему можно получить, если записать уравнение для бесконечношагового процесса с учетом дисконтирования, положить величину дисконтирован-

ного эффекта равной Fi + G/(1-α ) и принять α = 1 .

Для иллюстрации марковского процесса принятия решений рассмотрим "задачу о такси" .

Таксист обслуживает окрестности трех городов и может руководствоваться одним из трех выборов: ездить по городу в поисках случайного пассажира, ждать вызова по радио или поехать на стоянку и стать там в очередь.

Для каждого города ( i ) и каждого выбора ( q ) известны вероятности поездки в тот или иной город и соответствующие доходы, сведенные в таблице:

Город

Выбоp

Вероятности перехода

Значения дохода

i

q

j=1

j=2

j=3

j=1

j=2

j=3

1

1

1/2

1/4

1/4

10

4

8

 

2

1/16

3/4

3/16

8

2

4

 

3

1/4

1/8

5/8

4

6

4

2

1

1/2

0

1/2

14

0

18

 

2

1/16

7/8

1/16

8

16

8

3

1

1/4

1/2

1/4

10

2

8

 

2

1/8

3/4

1/8

6

4

2

 

3

3/4

1/16

3/16

4

0

8

Возьмем за начальное поведение q0 = (1, 1, 1), т.е. во всех городах будем придерживаться первого выбора. Для выбранного поведения строим систему n уравнений с n+1 неизвестными

Fi + G = n Pi j( q

0 ) [ Ri j( q0 ) + F j ] , i = 1 . . n,

j = 1

 

разрешимую с точностью до константы. Для нашего примера :

F1 + G = 1/2 [ 10 + F1 ] + 1/4 [ 4 + F2 ] + 1/4 [ 8 + F3]

F2 + G = 1/2 [ 14 + F1] + + 1/2 [18 + F3]

F3 + G = 1/4 [ 10 + F1 ] + 1/2 [ 2 + F2 ] + 1/4 [ 8 + F3 ]

Полагая, например, F3 = 0, получаем F1 = 4/3, F2 = 7.47 и G = 9.2, т.е. выбранная политика дает средний доход за одну поездку, равный 9.2.

 

 

 

 

 

 

 

 

19

 

 

 

 

 

 

Вычисляем

 

n

 

 

 

 

 

 

 

 

 

 

 

Ti(q) =

Pi

j ( q ) [ Ri j ( q )+ F j ]

 

 

 

 

 

 

j=

1

 

 

 

 

 

 

 

 

при всех i и q

и найденных значениях Fi:

 

 

 

 

 

 

 

T1(1) =

1/2

[10+4/3 ] +

1/4

[ 4+7.47 ] + 1/4

[ 8+0 ]

 

 

 

T1(2)

=

1/16 [

8+4/3 ] +

3/4

[ 2+7.47 ] + 3/16 [ 8+0 ]

 

 

 

T1(3)

=

1/4

[

4+4/3 ] +

1/8 [ 6+7.47 ] + 5/8

[ 4+0 ]

 

 

 

T2(1)

=

1/2

[14+4/3 ] +

 

 

 

+ 1/2

[18+0 ]

 

 

 

T2(2)

=

1/16 [

8+4/3 ] +

7/8 [16+7.47 ] + 1/16 [ 8+0 ]

 

 

 

T3(1)

=

1/4

[10+4/3 ] +

1/2

 

[ 2+7.47 ] +

1/4

[ 8+0 ]

 

 

 

T3(2)

=

1/8

[

6+4/3 ] +

3/4

 

[ 4+7.47 ] +

1/8

[ 2+0 ]

 

 

 

T3(3)

= 3/4

[

4+4/3 ] +

1/16 [ 0+7.47 ] + 3/16 [ 8+0 ].

Выбирая максимальное из значений Ti(q)

по q, получаем улучшенное по-

ведение q =(1, 2, 2). Строим и решаем систему уравнений:

 

 

 

F1 + G = 1/2 [ 10 + F1] + 1/4 [ 4 + F2 ] + 1/4 [ 8 + F3 ]

 

 

F2 + G = 1/16 [

8 + F1] + 7/8 [16 + F2 ]

+ 1/16 [ 8 + F3]

 

 

 

 

F3 + G = 1/8 [

6 + F1] + 3/4 [ 4 + F2 ]

+ 1/8 [ 2 + F3]

,

получая F3 = 0,

F2 = -3.88, F1 = 12.85,

G = 13.15.

q =(2, 2, 2), для

Попытка

дальнейшего улучшения

дает политику

которой F3 = 0,

F2 = -1.18,

F1 = 12.86,

G = 13.34. Очередная попытка

улучшения приводит к той же политике,

откуда напрашивается вывод о

том, что оптимальная политика состоит в использовании второго выбора во всех городах и обеспечивает средний ожидаемый доход за одну поездку, равный 13.34.

2.3. Контрольные задания

2.3.1. Требования

1. Выберите вариант контрольного задания и выполните его решение в предположении процесса большой длительности. Оцените полученное оптимальное решение с позиций здравого смысла.

2.Как вы будете решать задачу, если процесс не будет длительным ?

3.Как получить систему функциональных уравнений (3) на основе интегрального дисконтированного эффекта ?

4.Что характерно для стационарного процесса ?

Соседние файлы в предмете Информатика