连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形 |
| |
引用本文: | 林元烈.连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形[J].数学学报,1992,35(1):8-19. |
| |
作者姓名: | 林元烈 |
| |
作者单位: | 清华大学应用数学系 北京100084 |
| |
摘 要: | 本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP~(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义.
|
关 键 词: | 矩最优模型 折扣 Q矩阵族 MDP模型 |
收稿时间: | 1989-8-16 |
本文献已被 维普 等数据库收录! |
| 点击此处可从《数学学报》浏览原始摘要信息 |
| 点击此处可从《数学学报》下载免费的PDF全文 |
|