共查询到20条相似文献,搜索用时 8 毫秒
1.
针对风、光等可再生能源发电不断并入电力系统,使配电网由被动逐渐转变为主动,由此需要主电网、主动配电网和微电网统一调度的问题,基于深度分布式强化学习方法,提出了电力系统分散协调的一体化调度方法。首先,基于传统经济调度模型,提出了主电网、主动配电网和微电网分散协调的调度模型;其次,对传统强化学习方法进行改进,提出了深度分布式强化学习协调模型;第三,将分散协调的深度强化学习方法应用至经济调度中,推导得到分散协调的经济调度方法;最后,以实际电网为例进行验证,表明了所提方法的有效性。 相似文献
2.
针对鲸鱼群算法求解多配送中心带时间窗的物资应急调度问题时存在的易陷入局部极值等缺点,该文提出一种改进离散鲸鱼群算法(IDWSA)。首先采用混合初始化策略提高初始种群的质量;然后构建以相似配送顺序和相同配送中心为比较项的两种移动规则,并设计自适应柯西变异算子和路径选择策略对个体进行移动;最后构造全局评价函数用于选择个体以维持种群多样性。在Solomon标准测试集上,IDWSA所求最好解的距离与MAPSO, GA, HACO, ABC相比分别减少了2.25%, 13.4%, 6%, 1.46%,有效缩短了车辆的行驶距离。 相似文献
3.
4.
目标跟踪是无线传感器网络(Wireless Sensor Networks, WSNs)中一项应用广泛的技术,旨在估计目标在监控区域内移动时的位置。为了探索网络在跟踪精度和能量效率之间的最佳权衡,结合目标的动态特性,提出了一种基于强化学习(Reinforcement Learning, RL)中Q学习框架的传感器调度算法。通过设计与能量效率和跟踪性能相关的奖励函数,网络中的传感器节点能用最小的能量开销实现对目标的高精度跟踪。仿真结果表明,所提算法相较于传统算法不仅在跟踪精度上实现至少1.1%的增益,并降低同时刻下至少34.1%的节点平均剩余能量值,对于提升目标跟踪的性能有一定指导意义。 相似文献
5.
为了在无线网络中进行高效的链路资源调度、减小网络干扰、提高网络容量,提出了一种利用回溯天线并考虑干扰环境的链路资源分布式智能调度算法.首先,结合通信的路径损耗模型设计卷积核,对节点密度矩阵进行卷积来衡量干扰链路强度,从而避免对所有干扰链路进行信道估计产生巨大的计算代价;然后,结合强化学习的思想设计了与通信环境交互的链路调度学习模型,每个链路利用神经网络进行独立的训练,将训练所得的决策结果反馈到环境中进行状态更新,模型在不断更新的环境中迭代来学习最优的调度策略.该方法能分布式的运行,可有效衡量无线网络中的链路干扰强度,结合衡量结果进行高效的链路资源分布式调度,从而最大化网络容量.仿真结果验证了该调度算法无论是在算法迭代收敛还是网络容量性能上都能很好地逼近全局的调度算法,达到全局算法最优结果的92%~100%. 相似文献
6.
针对大型医用设备人工管理效率低、无法满足应急调度需求的问题,文中提出了基于深度强化学习算法的医用设备应急调度优化技术。使用物联网技术采集大型医用设备日常使用的各类参数,作为后续调度优化算法的样本数据。通过对医用设备调度问题的分析,采用马尔可夫决策过程作为调度优化算法的基础模型,并给出了状态空间、动作空间以及奖惩函数的定义。同时,以贪婪策略作为强化学习的动作探索策略,使用Tanh函数作为激活函数,从而提高了对非线性复杂数据的学习能力;使用DDPG算法在经验数据中获得价值估计和行为估计。经测试,文中所提出的医用设备应急调度优化算法可合理安排医用设备的使用,提高其综合利用率,与未使用应急调度算法的情况对比,检查耗时平均缩短了31.2%。 相似文献
7.
合理高效地优化调度救灾物资对提升地震应急救援效果具有重要意义。地震应急需要同时兼顾时效性、公平性和经济性等相互冲突的多个调度目标。该文对地震应急物资调度问题建立了带约束的3目标优化模型,并设计了基于进化状态评估的自适应多目标粒子群优化算法(AMOPSO/ESE)来求解Pareto最优解集。然后根据“先粗后精”的决策行为模式提出了由兴趣最优解集和邻域最优解集构成的Pareto前沿来辅助决策过程。仿真表明该算法能有效地获得优化调度方案,与其他算法相比,所得Pareto解集在收敛性和多样性上具有性能优势。
相似文献8.
9.
近年来,强化学习路径规划技术在各个领域逐渐凸显出技术优势,在与信息技术、GPS技术等高新技术的结合下,成为林业领域、工业领域甚至是军事领域的重要技术组合。为进一步了解强化学习路径规划技术的应用优势,文章将其与无人机技术结合,分析无人机在复杂工作环境下受到诸多外界因素干扰,在无法抓取准确定位信息时学习路径规划状态。通过具体应用案例研究方式,探究无人机飞行过程中强化学习算法对无人机路径规划的影响。在获取具体应用案例实验数据情况下,了解到改进强化学习算法可以调整无人机路径规划方案,帮助无人机在复杂环境下快速完成任务。 相似文献
10.
11.
12.
13.
电梯群控调度是一类开放、动态、复杂系统的多目标优化问题.目前应用于群控电梯调度的算法主要有分区算法、基于搜索的算法、基于规则的算法和其他一些自适应的学习算法.但已有方法在顾客平均等待时间等目标上并不能够达到较好的优化性能.本文采用强化学习技术应用到电梯群控调度系统中,使用CMAC神经网络函数估计模块逼近强化学习的值函数,通过Q-学习算法来优化值函数,从而获得优化的电梯群控调度策略.通过仿真实验表明在下行高峰模式下,本文所提出的基于CMAC网络强化学习的群控电梯调度算法,能够有效地减少平均等待时间,提高电梯运行效率. 相似文献
14.
15.
16.
17.
18.
针对箱式仓储环境下的多自主移动机器人(AMR)调度问题,传统动态路径规划算法(TDP)有解算可行路径效率低、系统实时性较差的缺点。针对这一问题,文中以时间最优为目标建立强化学习算法(RL)模型,用于提高多AMR同时调度的路径规划求解速度。此外,结合深度学习(DL)算法的优点,采用深度强化学习算法(DRL)有效缩短高维度、复杂工况下RL算法模型训练的收敛时间。仿真对比了TDP、RL和DRL三种算法模型,验证了DRL方法的有效性。 相似文献
19.
强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。迁移学习可从源任务中获得与目标任务相关的知识,利用这些知识去提高学习效率与效果。本文提出Agent地图迁移算法,实现了Agent在不同状态空间下的经验迁移。实现将Agent在简单环境中的学习经验迁移到复杂环境中,实验中验证了算法可加快Agent路径规划速度。 相似文献
20.
近年来,随着各类紧急任务数量的不断增长,如何在控制对常规任务影响的同时保障系统的收益已成为中继卫星网络任务动态调度的巨大挑战。针对这一问题,以最大化紧急任务总收益和最小化常规任务破坏程度为目标,提出了一种基于分层强化学习的中继卫星网络任务动态调度方法。具体而言,为了兼顾系统的长期与短期性能,设计了由上、下级DQN实现的双层调度框架,上级DQN从长期性能出发决定临时优化目标,下级DQN根据优化目标决定当前任务的调度策略。仿真结果表明,与传统的深度学习方法以及部分处理动态调度问题的启发式方法相比,所提方法能够在降低常规任务破坏程度的同时提升紧急任务总收益。 相似文献