排序方式: 共有24条查询结果,搜索用时 15 毫秒
11.
12.
一种集成规划的SARSA(λ)强化学习算法 总被引:2,自引:0,他引:2
提出一种新的集成规划的SARSA(λ)强化学习算法.该算法的主要思想是充分利用已有的经验数据,在无模型学习的同时估计系统模型,每进行一次无模型学习的试验后,利用模型在所记忆的状态/行动对组成的表中进行规划,同时利用该表给出了在学习和规划之间的量化折中参考.实验结果表明,本算法比单纯的无模型学习SARSA(λ)算法有效. 相似文献
13.
对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究.近似器由权值进行增量更新的固定特征函数线性加权组合构成,在对已有的算法进行比较分析的基础上,利用线性参数估计理论的有关成果,提出了基于值函数线性近似表示的平均报酬指标多步递推最小二乘即时差分强化学习算法.并给出了其一致收敛性证明. 相似文献
14.
15.
研究了行动-自适应评价强化学习方法,考虑到行动器所采取的探索策略对学习性能的影响,利用混合探索策略进行探索;分析学习和规划的特点,在评价器中应用集成模型学习和无模型学习的学习方法,在行动器应用新的混合探索策略,提出一种集成规划的行动-自适应评价强化学习算法并进行仿真实验,实验结果表明,新算法有较好的学习效果. 相似文献
16.
提出了一种自适应状态集结因子化SARSA(λ)强化学习算法,在学习的过程中利用Bellman余留数进行状态集结,通过集结,大大减少了状态空间搜索与计算的复杂度,有利于求解大状态空间的MDPs问题,而且,本算法不需要有关状态特征的先验知识,有很好的通用性。 相似文献
17.
研究了行动-评价强化学习方法,通过把多步截断学习引入评价器代替单步学习,并定义一种新的迹来记忆最新的多步学习经验,提出一种新的行动-评价强化学习算法,并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高,而在计算代价上仅多k个单位. 相似文献
18.
19.
聚类是机器学习和数据挖掘中的重要课题。近年来,深度神经网络(Deep Neural Networks,DNN)在各种聚类任务中受到广泛关注。特别是半监督聚类,在大量无监督数据中仅引入少量先验信息即可显著提高聚类性能。然而,这些聚类方法忽略了定义的聚类损失可能破坏特征空间,从而导致非代表性的无意义特征。针对现有半监督深度聚类的特征学习过程中局部结构保持有所欠缺的问题,本文提出一种改进的半监督深度嵌入聚类(Improved Semi-supervised Deep Embedded Clustering,ISDEC)算法,采用欠完备自动编码器在特征表达学习的同时,保持数据的内在局部结构;通过综合聚类损失、成对约束损失和重构损失,对聚类标签分配和特征表达进行联合优化。在包括基因数据在内的若干高维数据集上的实验结果表明,本方法的聚类性能比现有方法更好。 相似文献
20.