马尔可夫决策规划的现状和展望 |
| |
引用本文: | 董泽清.马尔可夫决策规划的现状和展望[J].运筹学学报,1987(2). |
| |
作者姓名: | 董泽清 |
| |
作者单位: | 中国科学院应用数学研究所 |
| |
摘 要: | §1.引言人类在征服自然、改造世界的过程中,最迷人的莫过于人能预测系统的未来,并能控制(至少影响)系统未来的发展,马尔可夫决策规划(Markov Decision Programming,简记为MDP)就是研究控制马尔可夫型随机系统未来发展的一门学科,也可以说它是研究马尔可夫型随机系统的最优序贯决策的一门学科.这种系统要在一系列的时刻点上(甚至是连续点上)都要作决策,在每个观察时刻,决策者根据观察到的系统状态,从它可用的行动(措施、方案等)集中选用其一(即作决策),这将导致两件事情发生:(i)将获得一定的效应;(ii)能确定
|
本文献已被 CNKI 等数据库收录! |
|