期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

燕锋林晓薇李正浩徐霞夏玮玮沈连丰《通信学报》2023,(9):12-24

针对智能电网中利用5G网络承载多样化电力终端的业务需求,提出了一种基于多智能体强化学习的频谱分配算法。首先,基于智能电网中部署的集成接入回程系统,考虑智能电网中轻量化和非轻量化终端业务的不同通信需求,将频谱分配问题建模为最大化系统总能效的非凸混合整数规划。其次,将前述问题构建为一个部分可观测的马尔可夫决策过程并转换为完全协作的多智能体问题,进而提出了一种集中训练分布执行框架下基于多智能体近端策略优化的频谱分配算法。最后,通过仿真验证了所提算法的性能。仿真结果表明,所提算法具有更快的收敛速度,通过有效减少层内与层间干扰、平衡接入与回程链路速率,可以将系统总速率提高25.2%。相似文献

2.

多智能体强化学习驱动的无人机动态信道分配

翟云逸《电讯技术》2023,63(3)

针对无人机编队在进行远距离实时视频传输时频谱资源不足且利用效率低、吞吐量要求较高、传输任务难以完成等问题,提出了多智能体强化学习驱动的动态信道分配算法,使得无人机编队可以根据传输任务和信道环境动态地选择使用的信道,实现了频谱资源的高效利用。该算法使用了集中式训练分布式执行的架构,通过联合探索和联合学习的方式保证了无人机间的探索和合作能力,使得每架无人机均可以依据局部观测信息同时独立分配自身使用信道,提高了算法的灵活性和可行性,并减少了频谱分配用时。仿真结果表明,该算法训练过程性能更好,执行时相比于现有算法可以提高编队整体的平均任务传输成功率。相似文献

3.

多智能体强化学习方法综述

下载免费PDF全文

陈人龙陈嘉礼李善琦谭营《信息对抗技术》2024,(1):18-32

在自动驾驶、团队配合游戏等现实场景的序列决策问题中，多智能体强化学习表现出了优秀的潜力。然而，多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此，概述了多智能体强化学习的概念与方法，并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些研究方向将推动多智能体强化学习在实际应用中取得更大的突破。相似文献

4.

基于强化学习的动态频谱分配研究

杜江刘毅《数字通信》2012,39(4):34-38

首先介绍了认知无线电技术产生的背景,以及强化学习的发展和应用于认知领域的优势;接着对强化学习的基本原理及其2个常见的模型Q-Learning和POMDP作了介绍,并对其模型定义、思想、所要描述的问题和使用的场景都做了较详细的阐述;然后针对这个方向最近几年的顶级会议和期刊论文,分析了其主要内容;通过最近几年的学术、会议论文中所述的研究现状及成果,说明强化学习的主要特点是能够准确、快速学习到最优策略,能够模拟真实环境,自适应性强,提高频谱感知、分配效率,从而最大化系统吞吐量,这些优势充分证明了强化学习将是认知领域里一种很有前景的技术。相似文献

5.

基于多智能体强化学习的边缘网络视频调度

《信息技术与信息化》2022,(4)

相似文献

6.

基于SAC的多智能体深度强化学习算法

肖硕黄珍珍张国鹏杨树松江海峰李天旭《电子学报》2021,49(9):1675-1681

由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralized Execution(CTDE),对单智能体深度强化学习算法Soft Actor-Critic(SAC)进行了改进,引入智能体通信机制,构建Multi-Agent Soft Actor-Critic(MASAC)算法.MASAC中智能体共享观察信息和历史经验,有效减少了环境不稳定性对算法造成的影响.最后,本文在协同以及协同竞争混合的任务中,对MASAC算法性能进行了实验分析,结果表明MASAC相对于SAC在多智能体环境中具有更好的稳定性. 相似文献

7.

基于多智能体深度强化学习的无人机动态预部署策略

唐伦李质萱蒲昊汪智平陈前斌《电子与信息学报》2023,45(6):2007-2015

针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。相似文献

8.

基于多智能体强化学习的空地网络抗干扰传输方法研究

廖程建刘思懿赵晨羽张果侯宏伟朱瀚然夏晓晨许魁《移动通信》2024,(1):71-78

提出了一种基于多智能体强化学习的抗干扰传输算法,旨在抵御空地一体化网络中的功率干扰,使所有用户的可达速率之和最大化。将优化问题转化为部分可观察马尔可夫决策过程问题,采用了集中式训练和分布式执行框架。在集中式训练过程中,每个智能体与环境交互获得的经验存储在经验回放池中,用于训练演员-评论员网络。在分布式执行过程中,每架无人机使用经过训练的演员网络根据观测结果输出动作,并调整其飞行位置和传输功率以提供联合服务。采用基于剪切和计数的改进近端策略优化算法来更新演员-评论员网络参数,使其在复杂的多智能体环境中更加有效。仿真结果表明,所提算法相较于对比算法具有更快的收敛速度,且在相同干扰条件下,所提算法比对比算法获取的用户可达和速率提升约68.9%。相似文献

9.

基于多智能体深度强化学习的分布式协同干扰功率分配算法

《电子学报》2022,50(6)

相似文献

10.

基于深度强化学习的智能频谱分配策略研究

杨洁祎金光朱家骅《数据通信》2020,(3):46-49+52

随着无线网络被广泛使用,频谱资源变得越来越稀缺,高效的频谱分配策略对无线通信至关重要。动态频谱接入是一个动态时变优化问题,基于固定编码的算法无法自适应复杂的网络环境。本文将深度强化学习算法引入到认知无线电系统中,使智能体在未知频谱环境下不断与环境进行交互,学习到最佳频谱选择策略,提高频谱资源利用效率。实验结果表明:该算法在复杂的网络环境下能有效学习到最佳策略,且当网络环境发生变化时,算法能自动调整,实现二次收敛。相似文献

11.

基于强化学习的合作频谱分配算法

下载免费PDF全文

李冠雄李桂林《电波科学学报》2022,37(1):8-14

为了解决认知无线电网络中的频谱分配问题,提出了一种基于用户体验质量的合作强化学习频谱分配算法,将认知网络中的次用户模拟为强化学习中的智能体,并在次用户间引入合作机制,新加入用户可以吸收借鉴其他用户的强化学习经验,能够以更快的速度获得最佳的频谱分配方案;并且在频谱分配过程中引入了主用户和次用户之间的价格博弈因素,允许主用... 相似文献

12.

Distributed interference coordination based on multi-agent deep reinforcement learning

Tingting LIU Yi’nan LUO Chenyang YANG 《通信学报》2020,41(7):38-48

A distributed interference coordination strategy based on multi-agent deep reinforcement learning was investigated to meet the requirements of file downloading traffic in interference networks.By the proposed strategy transmission scheme could be adjusted adaptively based on the interference environment and traffic requirements with limited amount of information exchanged among nodes.Simulation results show that the user satisfaction loss of the proposed strategy from the optimal strategy with perfect future information does not exceed 11% for arbitrary number of users and traffic requirements. 相似文献

13.

基于改进云量子遗传算法的动态频谱分配

下载免费PDF全文

焦传海杜奕航《太赫兹科学与电子信息学报》2021,19(3):465-470

针对无线频谱资源利用率低的问题,提出一种基于改进云量子遗传算法(MCQGA)的动态频谱分配方法.该方法可动态调整量子门旋转角,基于云理论进行交叉和变异操作,以图论着色模型为基础,综合考虑最大化平均系统收益、最大化最小带宽和最大化比例公平性度量进行频谱分配.选取粒子群算法、传统遗传算法和基本量子遗传算法进行对比仿真实验,... 相似文献

14.

基于深度强化学习的工业物联网多用户频谱分配

邵瑞宇黎智雄任瑾璇《电讯技术》2021,61(6):666-673

随着5G时代的来临,工业物联网将迎来蓬勃发展.然而,联网设备数量的不断增加,加剧了有限的频谱资源与大量的通信需求之间的矛盾.针对以上问题,提出了一种基于聚类分组和深度强化学习的合作式动态频谱分配算法,使用户可以获得较低的信息传输中断概率以及较少的多跳转发次数,快速找到信息传输的最优路径.在动态频谱分配中,该算法可以有效... 相似文献

15.

基于单频段多赢家拍卖的动态频谱分配 总被引：1，自引：0，他引：1

张文柱王凌云《通信学报》2012,(2):1-6

针对传统拍卖方法在认知无线网络动态频谱分配中的低效问题,提出了一种基于单频段多赢家拍卖的动态频谱分配算法。该算法在原始贪婪算法的基础上增加了多重贪婪策略,以较低的计算复杂度获得了较优的解;改进了VCG(vickery-clarke-groves)机制,在保留占优策略激励兼容特性的基础上,提高了卖家的收益,有效抑制共谋的发生。仿真结果表明,该算法的频谱分配效率接近最优分配效率,同时提高了拍卖的经济收益。相似文献

16.

基于深度强化学习的反向散射网络资源分配机制

江巍朱江《电讯技术》2022,62(10)

为了提升反向散射网络中物联网设备的平均吞吐量,提出了一种资源分配机制,构建了用户配对和时隙分配联合优化资源分配模型。由于该模型直接利用深度强化学习(Deep Reinforcement Learning,DRL )算法求解导致动作空间维度较高且神经网络复杂,故将其分解为两层子问题以降低动作空间维度：首先,基于深度强化学习算法,利用历史信道信息推断当前的信道信息以进行最优的用户配对;然后,在用户固定配对的情况下,基于凸优化算法,以最大化物联网设备总吞吐量为目标进行最优的时隙分配。仿真结果表明,与其他资源分配方法相比,所提资源分配方法能有效提升系统吞吐量,且有较好的信道适应性和收敛性。相似文献

17.

Avoiding collaborative paradox in multi-agent reinforcement learning

Hyunseok Kim Seonghyun Kim Donghun Lee Ingook Jang 《ETRI Journal》2021,43(6):1004-1012

The collaboration productively interacting between multi-agents has become an emerging issue in real-world applications. In reinforcement learning, multi-agent environments present challenges beyond tractable issues in single-agent settings. This collaborative environment has the following highly complex attributes: sparse rewards for task completion, limited communications between each other, and only partial observations. In particular, adjustments in an agent's action policy result in a nonstationary environment from the other agent's perspective, which causes high variance in the learned policies and prevents the direct use of reinforcement learning approaches. Unexpected social loafing caused by high dispersion makes it difficult for all agents to succeed in collaborative tasks. Therefore, we address a paradox caused by the social loafing to significantly reduce total returns after a certain timestep of multi-agent reinforcement learning. We further demonstrate that the collaborative paradox in multi-agent environments can be avoided by our proposed effective early stop method leveraging a metric for social loafing. 相似文献