首页 | 本学科首页   官方微博 | 高级检索  
     检索      

折扣模型最优策略的结构
引用本文:董泽清,刘克.折扣模型最优策略的结构[J].数学研究及应用,1986,6(3):125-134.
作者姓名:董泽清  刘克
作者单位:中国科学院应用数学研究所;中国科学院应用数学研究所
摘    要:本文研究了折扣马尔可夫决策规划(以下简记为MDP)最优策略的结构。证明了:任给一策略π*=(πG*1*,…,πn*n+1*,…),若它是β折扣最优的,则随机平稳策略也是β折扣最优的;对任何n(≥1),我们也给出了随机平稳策略也是β折扣最优的充分条件。还证明了:任给一随机平稳策略π0

收稿时间:1984/2/20 0:00:00
本文献已被 CNKI 等数据库收录!
点击此处可从《数学研究及应用》浏览原始摘要信息
点击此处可从《数学研究及应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号