首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
本文研究了折扣马尔可夫决策规划(以下简记为MDP)最优策略的结构。证明了:任给一策略π*=(πG*1*,…,πn*n+1*,…),若它是β折扣最优的,则随机平稳策略也是β折扣最优的;对任何n(≥1),我们也给出了随机平稳策略也是β折扣最优的充分条件。还证明了:任给一随机平稳策略π0  相似文献   

2.
董泽清 《数学学报》1978,21(2):135-150
我们涉及的折扣马氏决策规划(有些著者称为马氏决策过程),具有状态空问与每个状态可用的决策集均为可数无穷集、次随机转移律族、有界报酬函数.给出了一个求(ε_)最优平稳策略的加速收敛逐次逼近算法,比White的逐次逼近算法更快地收敛于(ε_)最优解,并配合有非最优策略的检验准则,使算法更加得益. 设β为折扣因子,一般说β(或(ε,β))_最优平稳策略,往往是非唯一的,甚至与平稳策略类包含的策略数一样多.我们自然希望在诸β(或(ε,β))_最优平稳策略中寻求方差齐次地(关于初始状态)达(ε_)最小的策略.我们证明了这种策略确实存在,并给出了获得这种策略的算法.  相似文献   

3.
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果.  相似文献   

4.
本文在S、A(i)(i∈S)均匀可列集情形下,建立了折扣依赖于历史的矩最优模型。给出了折扣总报酬k阶矩在各类策略下的统一表达式;讨论了矩最优策略的结构与性质;证明了矩最优方程在给定条件下,存在唯一的有界解。  相似文献   

5.
针对模糊随机需求下单制造商多零售商的分布控制型多产品报童问题, 建立了含资金约束的期望利润最大化两层规划模型.结合模糊随机模拟技术与遗传算法, 设计了求解模型的混合智能算法.该算法不仅可获得上层制造商的最优折扣批发价及下层零售商的最优订购量,亦可求得该折扣形式的起始折扣点(折扣区间).算例分析表明,当制造商采取最优数量折扣策略时:1)促使零售商订货量增加至资金约束上限;2)部分产品订货量可达模糊随机市场需求的最大可能值:3)零售商和制造商的利润均增加.  相似文献   

6.
针对顾客需求量不确定时,生产商为节省库存成本而采用数量折扣策略鼓励零售商提高单次订货量的决策问题,从在线问题与竞争分析的角度出发,设计了平衡策略,并证明了该策略是最优在线数量折扣策略.然后给出了算例,算例表明了无论顾客的需求量如何变化,平衡策略确定出的数量折扣,总能使生产商的成本接近于顾客需求量确定时的最小成本;同时与传统的数量折扣模型进行了对比,说明了在传统的数量折扣模型中做出的决策,往往不是我们所提出的新的评价准则(竞争比)下的最优策略.  相似文献   

7.
一类跳扩散需求存贮系统(s,S)库存控制策略研究   总被引:1,自引:0,他引:1  
考虑的是连续检查库存,需求为一个常时间函数和-个复合Poison跳扩散随机过程的和的存贮系统最优库存控制问题.基于期望折扣成本最小建立了无穷时间区间具有固定订购成本的最优库存模型,确定可采用(s,S)策略进行库存控制,给出了最优(s,S)策略的充要条件--HJB方程Ⅰ、Ⅱ.我们采用"猜测"的方法确定了最优(s,S)策略对应的值函数形式,建立了确定库存参数的最优化模型.  相似文献   

8.
郭先平  戴永隆 《数学学报》2002,45(1):171-182
本文考虑的是转移速率族任意且费用率函数可能无界的连续时间马尔可夫决策过程的折扣模型.放弃了传统的要求相应于每个策略的 Q -过程唯一等条件,而首次考虑相应每个策略的 Q -过程不一定唯一, 转移速率族也不一定保守, 费用率函数可能无界, 且允许行动空间非空任意的情形. 本文首次用"α-折扣费用最优不等式"更新了传统的α-折扣费用最优方程,并用"最优不等式"和新的方法,不仅证明了传统的主要结果即最优平稳策略的存在性, 而且还进一步探讨了( ∈>0  )-最优平稳策略,具有单调性质的最优平稳策略, 以及(∈≥0) -最优决策过程的存在性, 得到了一些有意义的新结果. 最后, 提供了一个迁移率受控的生灭系统例子, 它满足本文的所有条件, 而传统的假设(见文献[1-14])均不成立.  相似文献   

9.
本文考虑连续时间Markov决策过程折扣模型的均值-方差优化问题.假设状态空间和行动空间均为Polish空间,转移率和报酬率函数均无界.本文的优化目标是在折扣最优平稳策略类里,选取相应方差最小的策略.本文致力于寻找Polish空间下Markov决策过程均值-方差最优策略存在的条件.利用首次进入分解方法,本文证明均值-方差优化问题可以转化为"等价"的期望折扣优化问题,进而得到关于均值-方差优化问题的"最优方程"和均值-方差最优策略的存在性以及它相应的特征.最后,本文给出若干例子说明折扣最优策略的不唯一性和均值-方差最优策略的存在性.  相似文献   

10.
研究了在随机需求条件下,供应链中用价格折扣策略协调供需双方利益的问题。考虑随机性需求有可能造成分销商的库存积压,本提出了生产商给予分销商的积压商品价格折扣的策略,分析了其激励机制,给出了最优价格折扣的模型和算法。最后用数值方法验证了这种价格折扣策略能够给生产商和分销商带来利益改善,而且需求波动越大,该策略的协调效果越好。  相似文献   

11.
本文讨论Lippman型无界报酬折扣半马氏决策规划ε最优策略的性质,在§2中证明了:若策略π~*=(π_0~*、π_1~*,…)是ε最优的,则对任何自然数n,策略(π_0~*,π_1~*,…,π_(n+)~*)为(1-β~n)~(-1)ε最优;若策略π~*=(f_0,f_1,…,f_n,π_(n+1),…)是ε最优的,则策略f_n~∞为某ε_n最优。在§3中讨论策略的组合与分解,在§4中给出了一个策略π~*为最优的充要条件和为ε最优的充分条件。  相似文献   

12.
模糊随机需求报童问题的Stackelberg-Nash均衡策略   总被引:2,自引:0,他引:2  
针对模糊随机需求下的分布控制型报童问题,建立了无数量折扣和有数量折扣情况下的利润最大化两层规划模型,并结合模糊随机模拟技术和遗传算法设计了模型求解的混合智能算法.解决了上层制造商制定包括折扣区间和折扣价格的最优数量折扣策略,以及下层多零售商确定各自的最优订货量的Stackelberg-Nash均衡策略问题.  相似文献   

13.
本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP~(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义.  相似文献   

14.
林元烈 《数学学报》1992,35(1):8-19
本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP~(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义.  相似文献   

15.
定义了离散时间折扣多目标马氏决策模型,在加权准则下,证明了存在(n,∞)最优马氏策略;在字典序准则下,利用最优策略的结构性质,将其最优问题转化为一系列单目标模型的最优问题。  相似文献   

16.
关于最优存贮策略的两点注记   总被引:2,自引:0,他引:2  
本文统一论述了确定性静态存贮系统的最优存贮策略 ,并将具有数量折扣的经典 EOQ公式推广到了一般的确定性静态存贮系统 ;用机会损失 (后悔值 )概念对随机存贮系统的各种临界比公式进行了统一处理 .  相似文献   

17.
本文研究了在一般状态空间具有平均费用的非平稳Markov决策过程,把在平稳情形用补充的折扣模型的最优方程来建立平均费用的最优方程的结果,推广到非平稳的情形.利用这个结果证明了最优策略的存在性.  相似文献   

18.
在文献[1]—[3]中在各自的条件下,讨论过非时齐折扣马氏决策模型及其ε(≥0)最优策略存在的条件.在文献[4],文献[5]中,在状态和行动集都是可数的条件下,讨论了具有绝对平均相对有界的无界报酬的时齐折扣马氏决策模型.本文在状态集仍为可数,行动集为任意的条件下,建立与[4]相应的非时齐的折扣马氏决策模型;给出模型的有限阶段逼近和建立最优方程;证明了ε(>0)最优马氏策略的存在性和行动集为有限集时最优  相似文献   

19.
4.2基于稳态分析的随机库存模型 前面讨论的多阶段随机库存模型中利用了动态规划的最优化原理,把问题的求解化为一个多阶段决策过程.一般来讲,其求解是很困难的.本段从另外的角度来考虑.假定讨论的是无限时段,由库存水平(随机过程)的稳态分析,根据所采用的定货策略对系统加上费用结构,然后对稳态下单位时间系统运行的期望总平均费用(或折扣费用)求极小,用这种方法来求出最优策略中的参数. 我们先从最简单的随机模型开始. 4.2.1单个需求连续盘点的随机库存模型 假定α)相邻单个需求之间的时间间隔X1, X2,…独立同分布X,有分布F(x),密度f(x)…  相似文献   

20.
本文考虑半马尔可夫随机对策.在一定条件下,我们证明随机对策有值函数,两个局中人相对于折扣报酬都有最优策略.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号