首页 | 本学科首页   官方微博 | 高级检索  
     

交叉口交通信号动态回报值强化学习控制
作者姓名:夏新海
作者单位:1.广州航海学院港口与航运管理学院510725;
基金项目:广东省自然基金项目(2016A030310104);广州市哲学社会科学发展“十三五”规划2020年度课题(2020GZGJ299)。
摘    要:强化学习能有效的实现随机动态交通环境下的自适应交通信号控制.为了适应交叉口交通需求水平的变化,在强化学习回报值定义中引入多重动态回报值结构.以孤立多相位信号控制交叉口为例,设计交叉口不同交通需求水平和交通需求变化情景,将算法与定时信号控制、Q-学习、SARSA进行性能比较,并分析不同回报定义和动作选择策略对算法性能的影响.结论表明,在所有交通情景下基于强化学习的自适应交通信号控制的鲁棒性比固定配时控制更强.在高交通需求情景下,算法均优于具有其他各种类型的回报定义的强化学习.最合适的回报定义是累计车辆延误的减少.在动作选择策略方面,协同ε-greedy和softmax方法可以获得更好的收敛性能.

关 键 词:交通工程  强化学习  交通信号控制  交叉口  
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号