折扣模型最优策略的结构 |
| |
引用本文: | 董泽清,刘克.折扣模型最优策略的结构[J].数学研究及应用,1986,6(3):125-134. |
| |
作者姓名: | 董泽清 刘克 |
| |
作者单位: | 中国科学院应用数学研究所;中国科学院应用数学研究所 |
| |
摘 要: | 本文研究了折扣马尔可夫决策规划(以下简记为MDP)最优策略的结构。证明了:任给一策略π*=(πG*,π1*,…,πn*,πn+1*,…),若它是β折扣最优的,则随机平稳策略也是β折扣最优的;对任何n(≥1),我们也给出了随机平稳策略也是β折扣最优的充分条件。还证明了:任给一随机平稳策略π0
|
收稿时间: | 1984/2/20 0:00:00 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《数学研究及应用》浏览原始摘要信息 |
| 点击此处可从《数学研究及应用》下载免费的PDF全文 |
|