首页 | 本学科首页   官方微博 | 高级检索  
     检索      

离散时间MDP矩最优模型——折扣依赖于历史的情形
引用本文:林元烈,林建星.离散时间MDP矩最优模型——折扣依赖于历史的情形[J].应用概率统计,1992(3).
作者姓名:林元烈  林建星
作者单位:清华大学,清华大学 北京 100084,北京 100084
摘    要:本文在S、A(i)(i∈S)均匀可列集情形下,建立了折扣依赖于历史的矩最优模型。给出了折扣总报酬k阶矩在各类策略下的统一表达式;讨论了矩最优策略的结构与性质;证明了矩最优方程在给定条件下,存在唯一的有界解。

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号