多步截断行动--评价强化学习算法 A Truncated Multi-step Actor--Critic Reinforcement Learning Algorithm期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

多步截断行动--评价强化学习算法

引用本文：	李春贵,刘永信,陈波. 多步截断行动--评价强化学习算法[J]. 内蒙古大学学报(自然科学版), 2005, 36(2): 210-213

作者姓名：	李春贵刘永信陈波

作者单位：	广西工学院计算机工程系,广西,柳州,545006;内蒙古大学自动化系,呼和浩特,010021

基金项目：	广西自然科学基金(桂科自0481016)，教育部重点项目基金(204031)，内蒙古大学博士基金(203043)资助

摘要：	研究了行动-评价强化学习方法,通过把多步截断学习引入评价器代替单步学习,并定义一种新的迹来记忆最新的多步学习经验,提出一种新的行动-评价强化学习算法,并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高,而在计算代价上仅多k个单位.
关键词：	强化学习行动-评价多步截断适合迹
文章编号：	1000-1638(2005)02-0210-04
修稿时间：	2004-08-19
A Truncated Multi-step Actor--Critic Reinforcement Learning Algorithm

LI Chun-gui,LIU Yong-xin,CHEN Bo. A Truncated Multi-step Actor--Critic Reinforcement Learning Algorithm[J]. Acta Scientiarum Naturalium Universitatis Neimongol, 2005, 36(2): 210-213

Authors:	LI Chun-gui LIU Yong-xin CHEN Bo

Affiliation:	LI Chun-gui~1,LIU Yong-xin~2,CHEN Bo~1

Abstract:	An actor-critic reinforcement learning method is investigated.The truncated multi-step learning can be used as learning component instead of step learning,and a new trace is defined to record multi-step learning experiences. A new actor-critic algorithm is proposed. The results of experiment show that the new algorithm has more effective performance, and it only spends extra k units in computing costs.

Keywords:	reinforcement learning action-critic truncated multi-step eligibility trace
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏