首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
本文研究约束折扣半马氏决策规划问题,即在一折扣期望费用约束下,使折扣期望报酬达最大的约束最优问题,假设状态集可数,行动集为紧的非空Borel集,本文给出了p-约束最优策略的充要条件,证明了在适当的假设条件下必存在p-约束最优策略。  相似文献   

2.
在状态空间和行动集均有限的条件下,[1-5]讨论了时间离散的,平稳的马氏决策规划的摄动模型,其中,[1,3,4]讨论了单摄动模型,[5]讨论了具有加权准则的摄动模型,[6,7]讨论了时间离散的,平稳的马氏报酬过程的摄动模型,但[6,7]仅考虑了摄动对最优值的影响,而没有考虑摄动对最优策略的影响,本文将讨论具有摄动的非平衡平均马氏均策规划和连续时间折扣马氏决策规划。  相似文献   

3.
本文讨论了可数状态空间、可数决策空间、次随机转移率族、有界报酬函数的马氏决策规划(MDP)的折扣模型,给出了一个非ε-最优策略的检验准则.  相似文献   

4.
非负费用折扣半马氏决策过程   总被引:1,自引:0,他引:1  
黄永辉  郭先平 《数学学报》2010,53(3):503-514
本文考虑可数状态非负费用的折扣半马氏决策过程.首先在给定半马氏决策核和策略下构造一个连续时间半马氏决策过程,然后用最小非负解方法证明值函数满足最优方程和存在ε-最优平稳策略,并进一步给出最优策略的存在性条件及其一些性质.最后,给出了值迭代算法和一个数值算例.  相似文献   

5.
本文对可数状态集、非空决策集、报酬无界的平均准则马氏决策过程,提出了一组新的条件,在此条件下存在(ε)最优平稳策略,且当最优不等式中的和有定义时最优不等式也成立。  相似文献   

6.
本文首次在报酬函数及转移速率族均非一致有界的条件下,对可数状态空间,可地动集的连续时间折扣马氏决策规划进行研究,文中引入一类新的无界报酬函数,在一类新的马氏策略中,讨论了最优策略的存在性及春结构,除证明了在有界报酬和一致有界转移速率族下成立的主要结果外,本文还得到一些重要结论。  相似文献   

7.
董泽清 《数学学报》1978,21(2):135-150
我们涉及的折扣马氏决策规划(有些著者称为马氏决策过程),具有状态空问与每个状态可用的决策集均为可数无穷集、次随机转移律族、有界报酬函数.给出了一个求(ε_)最优平稳策略的加速收敛逐次逼近算法,比White的逐次逼近算法更快地收敛于(ε_)最优解,并配合有非最优策略的检验准则,使算法更加得益. 设β为折扣因子,一般说β(或(ε,β))_最优平稳策略,往往是非唯一的,甚至与平稳策略类包含的策略数一样多.我们自然希望在诸β(或(ε,β))_最优平稳策略中寻求方差齐次地(关于初始状态)达(ε_)最小的策略.我们证明了这种策略确实存在,并给出了获得这种策略的算法.  相似文献   

8.
本文讨论Harrison意义下无界报酬折扣模型的最优策略的性质与结构,它们实际上是可数状态空间与行动集上和一般状态与行动空间上两种有界折扣模型的结果,在这种无界折扣模型上的实现.主要结果如下.定理1 若  相似文献   

9.
本文讨论了一类非时齐部分可观察Markov决策模型.在不改变状态空间可列性的条件下,把该模型转化为[5]中的一般化折扣模型,从而解决了其最优策略问题,并且得到了该模型的有限阶段逼近算法,其中该算法涉及的状态是可列的.  相似文献   

10.
抽象空间中的马氏过程的强遍历性及收敛速度   总被引:3,自引:2,他引:1  
胡迪鹤 《数学学报》1984,27(3):293-304
<正> §1.引言Doob 在[2]中对一般状态的时齐的马氏过程的遍历性理论,作了系统的研究,得到了完满的结果.D.G.Kendall 在[8]中,J.F.C.Kingman 在[6]、[7]中,D.Vere-Jones在[5]中,对可数状态的时齐的马氏过程的遍历极限的收敛速度,作了研究,这些文章的一个共同特点是:假定对某一状态其遍历极限的收敛速度为几何速度(指数速度),证明对其它状态,其遍历极限的收敛速度亦然.然而 D.Isaacson 在[1]中,研究了可数状态时齐的马氏过程的强遍历性,而且证明了强遍历性蕴含了收敛速度是几何速度(指数速度).本文研究的是一般状态的马氏过程(时齐的或非时齐的),得到了马氏过程满足强遍历性的各种充要条件;证明了强遍历性蕴含了收敛的指数速度;找出了最佳收敛速度;并证明了在什么条件下达到最佳收敛速度.  相似文献   

11.
报酬无界的连续时间折扣马氏决策规划   总被引:2,自引:0,他引:2  
本文讨论了报酬函数夫界,转移速率族一致有界,状态空间和行动集均可数的连续时间折扣马氏决策规划,文中引入了一为新的无界报酬函数,并在一新的马氏策略类中,证明了有界报酬下成立的所有结果。讨论了最优策略的结构,得到了该模型策略为最优的一个充要条件。  相似文献   

12.
胡迪鹤 《数学学报》1984,27(4):469-481
<正> §1.引言Syski 在[1]中,对时齐的可数状态的遍历的马氏过程,在其二阶矩存在及其它条件下,证明了遍历位势核的存在性,并利用位势核的种种性质,改善了著名的 Riesz 分解定理.本文讨论的是时齐的一般状态的马氏过程,在强遍历的条件下,证明了遍历位势核的存在性,并得到了遍历位势核的一些性质.利用遍历位势核的存在性,改善了一般状态的马氏过程的 Riesz 分解定理.此外,还讨论了如何利用转移密度函数,寻找转移函数的遍历极限的问题.  相似文献   

13.
本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证明了最优平均值的收敛性和平均最优马氏策略的存在性.其次,给出了ε(>0)-平均最优马氏策略的滚动式算法.  相似文献   

14.
宋京生 《中国科学A辑》1987,30(12):1258-1267
本文讨论连续时间、可数状态、有限行动、有界报酬的马氏决策规划.与以往不同的是,我们放弃了转移速率族一致有界的传统假设,而在另一个弱得多的保证对给定的马氏策略相应的Q-过程唯一的充分条件下,证明了在传统假设下成立的所有结果;我们还较彻底地讨论了最优策略的结构问题,得到了一些新的、很好的性质.总策略类为全体随机马氏策略所构成的类.  相似文献   

15.
本文讨论Lippman型无界报酬折扣半马氏决策规划ε最优策略的性质,在§2中证明了:若策略π~*=(π_0~*、π_1~*,…)是ε最优的,则对任何自然数n,策略(π_0~*,π_1~*,…,π_(n+)~*)为(1-β~n)~(-1)ε最优;若策略π~*=(f_0,f_1,…,f_n,π_(n+1),…)是ε最优的,则策略f_n~∞为某ε_n最优。在§3中讨论策略的组合与分解,在§4中给出了一个策略π~*为最优的充要条件和为ε最优的充分条件。  相似文献   

16.
设备修理、更新模型及最优策略   总被引:6,自引:0,他引:6  
本文利用具有有限个状态和无限个选择行动的半马氏决策过程(SM-DP)建立了一个比较符合实际情况的设备修理、更新模型。在无穷时间和连续折扣情况下,证明了最优修理、更新策略的存在,以使设备的期望折扣净收入最大。  相似文献   

17.
本文考虑可数状态离散时间马氏决策过程的首达目标模型的风险概率准则.优化的准则是最小化系统首次到达目标状态集的时间不超过某阈值的风险概率.首先建立最优方程并且证明最优值函数和最优方程的解对应,然后讨论了最优策略的一些性质,并进一步给出了最优平稳策略存在的条件,最后用一个例子说明我们的结果.  相似文献   

18.
定义了离散时间折扣多目标马氏决策模型,在加权准则下,证明了存在(n,∞)最优马氏策略;在字典序准则下,利用最优策略的结构性质,将其最优问题转化为一系列单目标模型的最优问题。  相似文献   

19.
对折扣目标马氏决策规划,Derman 讨论了状态空间 S 可列、措施集 A_i(i∈S)均有限且报酬 r 有界时的最优策略问题.Harrison 提出了 S、A_i(i∈S)均可列的一种r 无界模型.文献[3]改进了 Harrison 条件提出报酬函数绝对平均相对有界模型,它是指存在一个常数 d>0和{r(i)>0,i∈S},r(i)有限,对一切 l∈S,a∈A_l 均有:i)|r(l,a)|≤r(l)<+∞;ii)∑q(j|l,a)r(j)≤r(l)+d.指出对于这个模型,当 S、  相似文献   

20.
本文是利用压缩算子求解的折扣有限水平Markov决策过程逼近非折扣情形的一点注记。这里涉及的状态集与活动集均为可数集。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号