首页 | 本学科首页   官方微博 | 高级检索  
     

多步截断行动--评价强化学习算法
引用本文:李春贵,刘永信,陈波. 多步截断行动--评价强化学习算法[J]. 内蒙古大学学报(自然科学版), 2005, 36(2): 210-213
作者姓名:李春贵  刘永信  陈波
作者单位:广西工学院计算机工程系,广西,柳州,545006;内蒙古大学自动化系,呼和浩特,010021
基金项目:广西自然科学基金(桂科自0481016),教育部重点项目基金(204031),内蒙古大学博士基金(203043)资助
摘    要:研究了行动-评价强化学习方法,通过把多步截断学习引入评价器代替单步学习,并定义一种新的迹来记忆最新的多步学习经验,提出一种新的行动-评价强化学习算法,并进行仿真实验,实验结果表明,新算法的学习效率有明显的提高,而在计算代价上仅多k个单位.

关 键 词:强化学习  行动-评价  多步截断  适合迹
文章编号:1000-1638(2005)02-0210-04
修稿时间:2004-08-19

A Truncated Multi-step Actor--Critic Reinforcement Learning Algorithm
LI Chun-gui,LIU Yong-xin,CHEN Bo. A Truncated Multi-step Actor--Critic Reinforcement Learning Algorithm[J]. Acta Scientiarum Naturalium Universitatis Neimongol, 2005, 36(2): 210-213
Authors:LI Chun-gui  LIU Yong-xin  CHEN Bo
Affiliation:LI Chun-gui~1,LIU Yong-xin~2,CHEN Bo~1
Abstract:An actor-critic reinforcement learning method is investigated.The truncated multi-step learning can be used as learning component instead of step learning,and a new trace is defined to record multi-step learning experiences. A new actor-critic algorithm is proposed. The results of experiment show that the new algorithm has more effective performance, and it only spends extra k units in computing costs.
Keywords:reinforcement learning  action-critic  truncated multi-step  eligibility trace
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号