首页 | 本学科首页   官方微博 | 高级检索  
     检索      

平均报酬指标多步递推最小二乘即时差分学习
引用本文:李春贵,刘永信,王萌.平均报酬指标多步递推最小二乘即时差分学习[J].内蒙古大学学报(自然科学版),2008,39(5).
作者姓名:李春贵  刘永信  王萌
作者单位:1. 广西工学院计算机工程系,广西,柳州,545006
2. 内蒙古大学电子信息工程学院,呼和浩特,010021
基金项目:广西自然科学基金,教育部科学技术研究重点项目,内蒙古大学校科研和教改项目,内蒙古大学513人才计划
摘    要:对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究.近似器由权值进行增量更新的固定特征函数线性加权组合构成,在对已有的算法进行比较分析的基础上,利用线性参数估计理论的有关成果,提出了基于值函数线性近似表示的平均报酬指标多步递推最小二乘即时差分强化学习算法.并给出了其一致收敛性证明.

关 键 词:即时差分学习  平均报酬  函数近似  最小二乘  递推

Average Reward Multi-Step Temporal-Difference Learning Using Recursive Least-Squares Methods
LI Chun-gui,LIU Yong-xin,WANG Meng.Average Reward Multi-Step Temporal-Difference Learning Using Recursive Least-Squares Methods[J].Acta Scientiarum Naturalium Universitatis Neimongol,2008,39(5).
Authors:LI Chun-gui  LIU Yong-xin  WANG Meng
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号