第8章动态规划.pptx
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《第8章动态规划.pptx》由会员分享,可在线阅读,更多相关《第8章动态规划.pptx(103页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、分阶段的最短路径:C1T 3-:B1C1T 4-:A2B1C1T 7-:QA2B1C1T 11 Q-A3B1C1T 11 Q-A3B2C2T 11第1页/共103页最短路径34476117811第2页/共103页最短路径解的特点1、可以将全过程求解分为若干阶段求解;-多阶段决策问题多阶段决策问题2、在全过程最短路径中,将会出现阶段的最优路径;-递推性递推性3、前面的终点确定,后面的路径也就确定了,且与前面的路径(如何找到的这个终点)无关;-无后效性无后效性3、逐段地求解最优路径,势必会找到一个全过程最优路径。-动态规划动态规划第3页/共103页7.17.1多阶段决策问题 动态规划是解决多阶段最
2、优决策的方法,由美国数学家贝尔曼(R.Bellman)于 1951年首先提出;1957年贝尔曼发表动态规划方面的第一部专著“动态规划”,标志着运筹学的一 个新分支的创立。第4页/共103页动态规划将复杂的多阶段决策问题分解为一系列简单的、离散的单阶段决策问题,采用顺序求解方法,通过解一系列小问题达到求解整个问题目的;动态规划的各个决策阶段不但要考虑本阶段的决策目标,还要兼顾整个决策过程的整体目标,从而实现整体最优决策.第5页/共103页动态规划的分类:离散确定型离散随机型连续确定型连续随机型第6页/共103页动态规划的特点:动态规划动态规划没有准确的数学表达式和定义精确的算法没有准确的数学表达
3、式和定义精确的算法,它强调它强调具体问题具体分具体问题具体分析析,依赖分析者的经验和技巧。与运筹学其他方法有很好的互补关系与运筹学其他方法有很好的互补关系,尤其在处理非线性、离散性问题时有尤其在处理非线性、离散性问题时有其独到的特点。其独到的特点。第7页/共103页 通常多阶段决策过程的发展是通过状态的一系列变换来实现的。一般情况下,系统在某个阶段的状态转移除与本阶段的状态和决策有关外,还可能与系统过去经历的状态和决策有关。因此,问题的求解就比较困难复杂。而适合于用动态规划方法求解的只是一类特殊的多阶段决策问题,即具有“无后效性”的多阶段决策过程。所所谓谓无无后后效效性性,又又称称马马尔尔柯柯
4、夫夫性性,是是指指系系统统从从某某个个阶阶段段往往后后的的发发展展,仅仅由由本本阶阶段段所所处处的的状状态态及及其其往往后后的的决决策策所所决决定定,与与系统以前经历的状态和决策系统以前经历的状态和决策(历史历史)无关。无关。具有无后效性的多阶段决策过程的特点是系统过去的历史,只能通过现阶段的状态去影响系统的未来,当前的状态就是后过程发展的初始条件。第8页/共103页动态规划的应用动态规划在工程技术,企业管理,军事部门有广泛的应用;可解决资源分配,生产调度,库存管理,路径优化,设备更新,投资规划,排序问题和生产过程的最优控制等问题;第9页/共103页使用动态规划方法求解决策问题首先要将问题改造
5、成符合动态规划求解要求的形式,要涉及以下概念:(1)(1)阶段 (2)(2)状态(3)(3)决策与策略 (4)(4)状态转移方程 (5)(5)指标函数 (6)(6)基本方程7.2 7.2 动态规划的基本概念和基本思想一、基本概念第10页/共103页(1)(1)划分阶段划分阶段 把一个复杂决策问题按时间或空间特征分解为若干(n)(n)个相互联系的阶段(stage),(stage),以便按顺序求解;阶段变量描述当前所处的阶段位置,一般用下标 k 表示;第11页/共103页 每阶段有若干状态(state),表示某一阶段决策面临的条件或所处位置及运动特征的量,称为状态。反映状态变化的量叫作状态变量。k
6、 阶段的状态特征可用状态变量 sk 描述;每一阶段的全部状态构成该阶段的状态集合Sk,并有sk Sk。每个阶段的状态可分为初始状态和终止状态,或称输入状态和输出状态,阶段的初始状态记作sk,终止状态记为sk+1,也是下个阶段的初始状态。(2)确定状态 第12页/共103页(3)(3)决策、决策变量 所谓决策就是确定系统过程发展的方案,决策的实质是关于状态的选择,是决策者从给定阶段状态出发对下一阶段状态作出的选择。用以描述决策变化的量称之决策变量,和状态变量一样,决策变量可以用一个数,一组数或一向量来描述也可以是状态变量的函数,记以 ,表示于 k 阶段状态 sk 时的决策变量 第13页/共103
7、页 决策变量的取值往往也有一定的容许范围,称之允许决策集合决策变量 xk(sk)的允许决策集用 XK(SK)表示,xk(sk)XK(SK),允许决策集合实际是决策的约束条件。第14页/共103页(4)(4)策略和允许策略集合 策略策略(Policy)也叫决策序列策略有全过程也叫决策序列策略有全过程策略和策略和 k 部子策略之分,全过程策略是指具部子策略之分,全过程策略是指具有有n 个阶段的全部过程,由依次进行的个阶段的全部过程,由依次进行的 n 个个阶段决策构成的决策序列,简称策略,表示阶段决策构成的决策序列,简称策略,表示为为 。从。从 k 阶段到第阶段到第 n 阶段,阶段,依次进行的阶段决
8、策构成的决策序列称为依次进行的阶段决策构成的决策序列称为 k 部子策略部子策略,表示为表示为 ,显然当,显然当 k=1时的时的 k 部子策略就是全过程策略。部子策略就是全过程策略。第15页/共103页(5)状态转移方程 状态转移确定从一个状态到另一个状态的转状态转移确定从一个状态到另一个状态的转移过程移过程,由状态转移方程描述由状态转移方程描述:sk+1=T(sk,xk);状态转移方程在大多数情况下可以由数学公状态转移方程在大多数情况下可以由数学公式表达式表达,如如:sk+1=sk+xk;第16页/共103页(6)指标函数 用来衡量策略或子策略或决策的效果的用来衡量策略或子策略或决策的效果的某
9、种数量指标,就称为指标函数。它是定义某种数量指标,就称为指标函数。它是定义在全过程或各子过程或各阶段上的确定数量在全过程或各子过程或各阶段上的确定数量函数。对不同问题,指标函数可以是诸如费函数。对不同问题,指标函数可以是诸如费用、成本、产值、利润、产量、耗量、距离、用、成本、产值、利润、产量、耗量、距离、时间、效用,等等。时间、效用,等等。第17页/共103页 用vk(sk,xk)表示第 k 段处于状态 sk且所作决策为 xk 时的指标,则它就是第 k 段指标函数,简记为vk。用f(sk,xk)表示第k k子过程的指标函数。表示处于第 k 段 sk 状态且所作决策为xk时,从 sk 点到终点的
10、距离。由此可见,f(sk,xk)不仅跟当前状态 sk 有关,(2 2)过程指标函数(也称目标函数)(1)阶段指标函数)阶段指标函数(也称阶段效应)(也称阶段效应)第18页/共103页还跟该子过程策略还跟该子过程策略 pk(sk)有关有关,严格说来,应严格说来,应表示为表示为 fk(sk,pk(sk)。它是由各阶段的阶段指。它是由各阶段的阶段指标函数标函数 vk(sk,xk)累积形成的,对于累积形成的,对于 k 部子过部子过程的指标函数可以表示为:程的指标函数可以表示为:式中,表示某种运算,可以是加、减、乘、除、开方等第19页/共103页 多阶段决策问题中,常见的目标函数形式多阶段决策问题中,常
11、见的目标函数形式之一是取各阶段效应之和的形式,即之一是取各阶段效应之和的形式,即:有些问题,如系统可靠性问题,其目标函有些问题,如系统可靠性问题,其目标函数是取各阶段效应的连乘积形式,数是取各阶段效应的连乘积形式,第20页/共103页(7)最优解 用用 fk*(sk)表示第表示第 k 子过程指标函数子过程指标函数Fk(sk,pk(sk)在状态在状态 sk 下的最优值,即下的最优值,即:称称 fk(sk)为第为第 k 子过程上的最优指标函数;子过程上的最优指标函数;与它相应的子策略与它相应的子策略 pk(sk)称为状态称为状态 sk 下的最下的最优子策略,记为优子策略,记为 pk*(sk)第21
12、页/共103页例例 用动态规划求解最短路问题 第22页/共103页最短路的求解最短路的求解:阶段:可分为4个阶段,k=1,.,4。状态:可用城市编号,S1=Q,S2=A1,A2,A3,S3=B1,B2,B3,S4=C1,C2,S5=T 决策:决策变量也可用城市编号;状态转移方程:sk+1=xk;阶段指标函数:过程指标(阶段递推)函数:第23页/共103页 k=4f4(C1)=3,f4(C2)=4 k=3f3(B1)=min1+f4(C1)=4*,4+f4(C2)=8=4 f3(B2)=min6+f4(C1)=9,3+f4(C2)=7*=7 f3(B3)=min3+f4(C1)=6*,3+f4(
13、C2)=7=6 k=2 f2(A1)=min7+f3(B1),4+f3(B2),6+f3(B3)=min11*,11*,12=11f2(A2)=min3+f3(B1),2+f3(B2),4+f3(B3)=min7*,9,10 =7 f2(A3)=min4+f3(B1),1+f3(B2),5+f3(B3)=min8*,8*,11 =8 k=1 f1(Q)=min2+f2(A1),4+f2(A2),3+f2(A3)=min13,11*,11*=11 最短路是:Q A2 B1 C1 T,p=A2,B1,C1,T Q A3 B1 C1 T,p=A3,B1,C1,T Q A3 B2 C2 T,p=A3,
14、B2,C2,T第24页/共103页整个过程的最优策略应具有这样的性质:无论过去的状态和决策如何,对前面的决策所形成的状态而言,后续的诸决策必须构成最优策略;上一条成立的条件是阶段递推函数严格单调。二、动态规划的最优性原理第25页/共103页在在例例题题中中,求求解解最最短短路路线线的的计计算算公公式式可可以以概概括写成:括写成:其其中中,vk 在在这这里里表表示示从从状状态态 sk 到到由由决决策策 xk 所所决决定定的的状状态态 sk+1 之之间间的的距距离离。f5(s5)=0 是是边边界条件,表示全过程到第四阶段终点结束。界条件,表示全过程到第四阶段终点结束。第26页/共103页 一般地,
15、对于一般地,对于 n 个阶段的决策过程,假设只个阶段的决策过程,假设只考虑指标函数是考虑指标函数是“和和”与与“积积”的形式,第的形式,第 k 阶段和第阶段和第 k+1 阶段间的递推公式可表示如下:阶段间的递推公式可表示如下:当过程指标函数为下列当过程指标函数为下列“和和”的形式时的形式时 第27页/共103页相应的函数基本方程为相应的函数基本方程为 :第28页/共103页 当过程指标函数为下列当过程指标函数为下列“积积”的形式时的形式时第29页/共103页相应的函数基本方程为相应的函数基本方程为:第30页/共103页动态规划的优缺点动态规划的优点动态规划的优点可以解决线性,非线性,整数规划无
16、法有效求解的复杂问题;容易找到全局最优解;可以得到一组解;动态规划的缺点:动态规划的缺点:没有标准的模型可供应用,构模依赖于个人的经验和技巧;状态变量需满足无后效性,有较大的局限性;第31页/共103页7.3 7.3 动态规划方法应用动态规划的步骤:1.将问题按时间或空间划分为满足递推关系的若干阶段,对非时序问题可人为地引入“时段”概念;2.正确选择状态变量 sk,满足:可知性:正确描述动态过程演变,可直接或间接确定状态变量的值;无后效性:后面的决策与前面的决策无关;第32页/共103页3.确定决策变量 xk以及允许决策集合Xk;4.写出状态转移方程 sk+1=T(sk,xk);5.决策变量的
17、取值范围 6.写出过程指标函数(阶段函数)的递推关系,应满足:a)是定义在所有阶段上的数量函数;b)具有可分离性,并满足递推关系;c)阶段函数应严格单调。第33页/共103页动态规划应用举例:1.最优路径问题2.资源配置问题3.生产与库存问题4.机器负荷分配问题5.复合系统工作可靠性问题6.二维背包问题7.设备更新问题8.货郎担问题9.非线性规划的求解第34页/共103页1.最优路径问题 某厂要确定一种新产品在今后五年内的价格,并已拟定只在5、6、7、8元这四种单价中进行选择。据预测,今后五年不同价格下每年盈利(万元)见下表,但是各相邻年度价格增减不得超过1元。问今后五年内每年定价各为多少,可
18、逾七五年总利润最大。价格/元 盈利/万元第一年第二年第三年第四年第五年592458675864765973887664第35页/共103页价格/元盈利/万元第一年第二年第三年第四年第五年592458675864765973887664131411843410182223172428283037353638第36页/共103页解:1、建立动态规划模型:阶段:以年划分阶段,k=5,4,3,2,1;状态变量sk为每个阶段初的价格,则Sk=5,6,7,8;决策变量xk为每年所确定的价格,则Xk=5,6,7,8;状态转移方程:阶段指标函数vk(sk,xk)为每个阶段选择xk所取得的盈利;例如v(sk,)
19、过程指标函数为第k阶段状态为sk时到最后一个阶段的总利润。基本函数方程为:第37页/共103页、逆序求解:k=5f5(s5,x5)v5(s5,x5)+f6*(s6)f5*(s5)x5*s x 5 6 7 8 5 8+0 8 5 6 4+0 4 6 7 3+0 3 7 8 4+0 4 8第38页/共103页k=4f4(s4,x4)v4(s4,x4)+f5*(s5)f4*(s4)x4*s x 5 6 7 8 5 5+8 5+4 13 5 6 6+8 6+4 6+3 14 5 7 7+4 7+3 7+4 11 6,8 8 6+3 6+4 10 7第39页/共103页k=3f3(s3,x3)v3(s3
20、,x3)+f4*(s4)f3*(s3)x3*s x 5 6 7 8 5 4+13 4+14 18 6 6 8+13 8+14 8+11 22 7 7 9+14 9+11 9+10 23 6 8 6+11 6+10 17 7第40页/共103页k=2f2(s2,x2)v2(s2,x2)+f3*(s3)f2*(s2)x2*s x 5 6 7 8 5 2+18 2+22 24 6 6 5+18 5+22 5+23 28 7 7 5+22 5+23 5+17 28 7 8 7+23 7+17 30 7第41页/共103页k=1f1(s1,x1)v1(s1,x1)+f2*(s2)f1*(s1)x1*s
21、x 5 6 7 8 5 9+24 9+28 37 6 6 7+24 7+28 7+28 35 6,7 7 6+28 6+28 6+30 36 8 8 8+28 8+30 38 8S1=8 X1=8 s2=8 x2=7 s3=7 x3=6 s4=6 x4=5 s5=5 x5=5第42页/共103页2.资源配置问题如何将有限的资源分配给若干种生产活动,并使资源利用的收益最大是经济活动中常见的问题,动态规划可以求解一些线性规划无法解决的资源配置问题。一般的资源分配问题可以描述为如下的规划问题:maxmax:z z=g g1 1(x x1 1)+)+g g2 2(x x2 2)+.+)+.+g gn
22、n(x xn n)x x1 1+x x2 2+.+.+x xn n=a ax xi i 0 0 i i=1,.,=1,.,n n第43页/共103页例:某厂为扩大生产能力,拟订购某种成套例:某厂为扩大生产能力,拟订购某种成套4 46 6套,以分配给其所辖套,以分配给其所辖1 1、2 2、3 3个分厂使用。预计个分厂分的不同套数的设备后,每年创造的利润(万个分厂使用。预计个分厂分的不同套数的设备后,每年创造的利润(万元)如下表所示。该厂应订购几套设备并如何分配,才能使每年预计创利元)如下表所示。该厂应订购几套设备并如何分配,才能使每年预计创利总额最大?总额最大?分厂利润(万元)0套1套2套 3套
23、 4套5套 6套1035676520467891030259887第44页/共103页建立动态规划模型:建立动态规划模型:1.阶段与分厂相联系,阶段 k 只考虑分配分厂 k 的设备套数;2.状态变量 sk 表示 k 分厂可分配的设备套数;3.决策变量 xk 表示决定在 k 分厂使用的设备套数;4.状态转移方程:sk+1=sk-xk;5.阶段函数:vk(sk,xk)为k分厂使用设备xk时的获利,从第一分厂到第k分厂的总获利 fk(sk)=max vk(sk,xk)+fk+1(sk+1)6.基本状态方程第45页/共103页k=3第46页/共103页k k=2:=2:s3=s2 x2第47页/共10
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 章动 规划
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内