排序方式: 共有3条查询结果,搜索用时 0 毫秒
1
1.
部分可观察马尔可夫决策规划──首达目标模型刘迪芬(湖南师范大学数学系,长沙410081)刘建庸,刘克(中国科学院应用数学研究所,北京100080)PARTIALLYOBSERVABLEMARKOVDECISIONPROGRAMMING:FIRSTPA... 相似文献
2.
随机折扣部分可观察马尔可夫决策规划 总被引:2,自引:0,他引:2
一、引言考虑一个部分可观察马尔可夫决策规划模型(简记为 POMDP),并引文[1]中所用的定义、记号(只将δ_N 换成∏,(?)换成 A)和有关结论.于是信息向量 π(t)与 π(t 1)有如下关系 相似文献
3.
无限阶段部分可观察马尔可夫决策规划 总被引:2,自引:0,他引:2
本文对[1,2]所考虑的无限阶段折扣费用部分可观察马尔可夫决策规划作了进一步的讨论,澄清了其中的一些模糊概念,补充或纠正了其中的疏漏和错误,特别地,在保持费用函数分片线性的原则下扩大了有限瞬时策略类,最后给出了几个新的结论,并对[1]中的策略迭代算法给出了修正及收敛估计。 相似文献
1