排序方式: 共有3条查询结果,搜索用时 0 毫秒
1
1.
2.
本文提出测度值马尔可夫决策过程新模型.在此模型下,agent对环境的把握用测度概念来表示,于是agent则根据测度来决定自己的最优行动以得到最优策略,因此本文也提供了测度值马尔可夫决策过程的最优策略算法.该模型是部分可观察马尔可夫决策过程的推广,它反映人类思维的一个重要特征,人们在把握全部状态可能性(即对状态空间进行权衡度量)的态势下,思考问题并选择自己的最优行动.部分可观察马尔可夫决策过程只是它的一种特例. 相似文献
3.
分析了Kennedy最新提出的高斯动态粒子群优化算法(GDPSO)的寻优模式,针对GDPSO的特点,结合粒子群优化算法的新寻优模式,提出了Logistic动态粒子群优化算法(LDPSO);并基于LDPSO和GDP—SO的特性,设计了LDPSO算法的两种改进策略——混合优化策略和最优粒子变异策略,混合优化策略用以提高收敛速度,最优粒子变异策略用以保持群体多样性,避免算法陷入局部最优。实验结果显示了LDPSO及其改进算法的有效性。 相似文献
1