平均报酬指标多步递推最小二乘即时差分学习 Average Reward Multi-Step Temporal-Difference Learning Using Recursive Least-Squares Methods期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

平均报酬指标多步递推最小二乘即时差分学习

引用本文：	李春贵,刘永信,王萌.平均报酬指标多步递推最小二乘即时差分学习[J].内蒙古大学学报(自然科学版),2008,39(5).

作者姓名：	李春贵刘永信王萌

作者单位：	1. 广西工学院计算机工程系,广西,柳州,545006 2. 内蒙古大学电子信息工程学院,呼和浩特,010021

基金项目：	广西自然科学基金，教育部科学技术研究重点项目，内蒙古大学校科研和教改项目，内蒙古大学513人才计划

摘要：	对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究.近似器由权值进行增量更新的固定特征函数线性加权组合构成,在对已有的算法进行比较分析的基础上,利用线性参数估计理论的有关成果,提出了基于值函数线性近似表示的平均报酬指标多步递推最小二乘即时差分强化学习算法.并给出了其一致收敛性证明.
关键词：	即时差分学习平均报酬函数近似最小二乘递推
Average Reward Multi-Step Temporal-Difference Learning Using Recursive Least-Squares Methods

LI Chun-gui,LIU Yong-xin,WANG Meng.Average Reward Multi-Step Temporal-Difference Learning Using Recursive Least-Squares Methods[J].Acta Scientiarum Naturalium Universitatis Neimongol,2008,39(5).

Authors:	LI Chun-gui LIU Yong-xin WANG Meng

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏