共查询到20条相似文献,搜索用时 0 毫秒
1.
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性. 相似文献
2.
在动态干扰环境下的多节点无线传感器网络中,随着状态-动作空间的增大,传统强化学习难以收敛. 为克服这一问题,本文提出一种基于迁移强化学习的快速抗干扰算法,即将多智能体Q学习和值函数迁移方法相结合. 首先,将多节点通信抗干扰问题建模为马尔科夫博弈;然后,引入互模拟关系度量不同状态-动作对之间的相似性;最后,采用多智能体Q学习算法学习抗干扰策略,并在每一步Q值更新后,根据不同状态-动作对之间的相似性进行值函数迁移. 仿真结果表明,在分时隙传输的在线抗干扰问题中,所提算法的抗干扰性能显著优于正交跳频法和随机跳频法,在达到相同抗干扰效果时,所需的迭代次数远少于常规Q学习算法.
相似文献3.
仿真结果表明,对于列重和行重较小的低密度奇偶校验(Low Density Parity-check,LDPC)码而言,梯度下降比特翻转(Gradient Descent Bit-flipping,GDBF)译码算法展现出巨大的性能优势,但其对于基于有限域几何构造的列重和行重较大的LDPC码则性能损失严重.该文首先分析指出,对于大列重LDPC码而言,翻转函数中的“互相关项”和“双极性校验子求和项”之间的“不匹配”是造成性能损失的主要原因.其次,引入一种可靠性度量对双极性校验子进行加权,上述“不匹配”现象得到有效削弱,从而改善GDBF算法对大列重LDPC码的译码性能.仿真结果表明,在加性高斯白噪声信道下,相比于传统的GDBF算法,新提出的算法在误比特率为10-5时可获得0.8 dB的增益. 相似文献
4.
5.
6.
7.
8.
9.
10.
基于梯度下降法的RBF网络训练算法收敛速度较慢、易陷入局部最优,并且算法性能受初始值的影响较大.基于粒子群的RBF网络训练算法能够克服梯度下降法易陷入局部最优的缺点,但局部寻优能力不如梯度下降法.分析两种算法的优缺点,提出一种粒子群算法与梯度下降法结合的组合训练方法并用于RBF神经网络的训练.通过实验证明所提出的组合算... 相似文献
11.
针对极端环境话音系统下声学回波影响工作人员正常施工,且常规声学回声消除算法收敛速度慢的问题,提出一种基于动量梯度下降的基于l0范数的改进系数成比例归一化最小均方误差算法(L0-IPNLMS)。该算法将动量因子引入L0-IPNLMS算法中,解决在算法运行过程中梯度下降时梯度摆动幅度可能过大的问题,也提高了自适应滤波器的收敛速度,且残余回声下降明显,声学回波抑制效果更好。仿真实验表明,与L0-IPNLMS算法相比,新算法在模拟随机多音信号与真实语音信号输入时,均方误差(MSE)可以降低3.47 dB和3.69 dB,回波抑制比(ERLE)提高了3.46 dB和3.68 dB,在低信噪比情况下,使用新算法对真实语音信号进行回声消除,收敛速度高于L0-IPNLMS等算法,且收敛效果有明显改进。 相似文献
12.
13.
14.
RBF神经网络的梯度下降训练方法中的学习步长优化 总被引:9,自引:0,他引:9
梯度下降法是训练RBF神经网络的一种有效方法。和其他基于下降法的算法一样,RBF神经网络的梯度下降训练方法中也存在学习步长的取值问题。本文基于误差能量函数对学习步长的二阶Taylor展开,构造了一种优化学习步长的方法,进行了较详细的推导:实验表明,本方法可有效地加速梯度下降法的收敛速度、提高其性能。该方法的思想可以用于其他基于下降法的学习步长的优化中。 相似文献
15.
刘美玉刘启发程亚玲王瑾 《微电子学与计算机》2022,(12):13-20
光电混合人工智能计算芯片在人工智能应用中通过人工智能算法实现高速和高效的计算,其中光学神经网络(Optical Neural Networks,ONNs)算法在实现大量矩阵运算方面尤为重要.通过使用由马赫曾德尔干涉仪(Mach-Zehnder interferometers,MZI)搭建的快速傅里叶变换(Fast Fourier transform,FFT)型光学神经网络来实现手写数字的高精确度识别.在模型构建方面,利用奇异值分解将神经网络的线性层进行分解,从而实现数据降维,主要特征提取.在对该ONN的训练中,分别采用了带动量的随机梯度下降算法(Stochastic Gradient Descent with momentum,SGD with momentum)和均方根传递(Root Mean Square propagation,RMSprop)算法,分析了在不同训练算法下该ONN对手写数字的识别精度.此外,还深入剖析了两种训练算法背后的数学理论,探究造成两种训练算法实验结果差异的本质原因.最后,通过实验对比,发现RMSprop算法在FFT型光学神经网络上具有较高的识别精确度,达到97.4%;并且采用RMSprop算法的ONN计算速度优于SGD with momentum算法. 相似文献
16.
17.
为校正大口径量子通信望远镜的静态像差,提高接收信号光的能量集中度,提出了基于随机并行梯度下降(SPGD)算法的静态像差校正方法。该方法不同于经典的自适应光学校正方法,无需波前传感器,可有效降低系统的复杂性。对SPGD算法进行了分析,在此基础上利用64单元变形镜和CCD探测器搭建了校正平台,并将该校正平台应用到青海湖量子通信地面站望远镜系统,对700mm望远镜的静态像差进行了校正,远场光斑直径由校正前的58μm改善为30μm,验证了SPGD算法对望远镜波前畸变校正的可行性。 相似文献
18.
19.
20.
针对物联网(IoTs)场景下,联邦学习(FL)过程中大量设备节点之间因冗余的梯度交互通信而带来的不可忽视的通信成本问题,该文提出一种阈值自适应的梯度通信压缩机制。首先,引用了一种基于边缘-联邦学习的高效通信(CE-EDFL)机制,其中边缘服务器作为中介设备执行设备端的本地模型聚合,云端执行边缘服务器模型聚合及新参数下发。其次,为进一步降低联邦学习检测时的通信开销,提出一种阈值自适应的梯度压缩机制(ALAG),通过对本地模型梯度参数压缩,减少设备端与边缘服务器之间的冗余通信。实验结果表明,所提算法能够在大规模物联网设备场景下,在保障深度学习任务完成准确率的同时,通过降低梯度交互通信次数,有效地提升了模型整体通信效率。 相似文献