排序方式: 共有16条查询结果,搜索用时 156 毫秒
11.
对于一般的MDP模型,本文证明了对任意一族依赖于历史的随机策略所导致的策略测度类的任意凸组合,存在一个随机马氏策略所导致的策略测度,使得相应于它们的平均期望目标,折扣目标以及期望总报酬目标的值均分别相等,推广了E.B.Dynkin和Yushkevich[1],M.Puterman[2],E.Feinberg和A.Shwartz[3],R.Strauch[4],以及董泽清和宋京生[5]等相应的所有结果.然后还进一步证明了关于平均期望目标、折扣目标以及期望总报酬目标的最优策略,它们要么唯一,要么有无穷多个. 相似文献
12.
郭先平 《数学物理学报(A辑)》2000,20(1):31-35
作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标。在弱遍历条件下用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus(1993)的主要结果。 相似文献
13.
郭先平 《数理统计与应用概率》1995,10(2):14-21
本文考虑的是可数状态空间不完全信息的非平衡MDP平均模型,借助于模型的转化,建立了不完全信息的非平衡MDP平均模型的最优方程,并进一步给出了最优方程的解及ε(〉,0)-最优策略存在的充分条件。 相似文献
14.
本文考虑具有 Borel状态空间和行动空间非平稳 MDP的平均方差准则.首先,在遍历条件下,利用最优方程,证明了关于平均期望目标最优马氏策略的存在性.然后,通过构造新的模型,利用马氏过程的理论,进一步证明了在关于平均期望目标是最优的一类马氏策略中,存在一个马氏策略使得平均方差达到最小.作为本文的特例还得到了 Dynkin E. B.和 Yushkevich A. A.及 Kurano M.等中的主要结果. 相似文献
15.
可数状态MDP的平均模型 总被引:1,自引:0,他引:1
郭先平 《数学年刊A辑(中文版)》1996,(5)
本文考虑可数状态空间任意行动空间MDP的平均模型,分析了四个平均报酬准则,在通常的遍历性条件下,用鞅论的方法证明了其最优报酬值的一致性和最优策略的存在性,从而较好地解决了Feinberg和Park[1]再次提及的Open问题.通过导入相应于Feinberg和Park[1]的非循环条件,用概率分析的方法证明了一致最优(f,B)-生成策略的存在性,推广了Feinberg和Park(1994)的主要结果。 相似文献
16.
本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证明了最优平均值的收敛性和平均最优马氏策略的存在性.其次,给出了ε(>0)-平均最优马氏策略的滚动式算法. 相似文献