期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于Markov对策和强化学习的多智能体协作研究 总被引：4，自引：0，他引：4

李晓萌杨煜普许晓鸣《上海交通大学学报》2001,35(2):288-292

MAS的协作机制研究,当前比较适用的研究框架是非零和Markov对策及基于Q－算法的强化学习。但实际上在这种框架下的Agent强调独立学习而不考虑其他Agent的行为,故MAS缺乏协作机制。并且,Q－算法要求Agent与环境的交互时具有完备的观察信息,这种情况过于理想化。文中针对以上两个不足,提出了在联合行动和不完备信息下的协调学习。理论分析和仿真实验表明,协调学习算法具有收敛性。相似文献

2.

AODE中基于强化学习的Agent协商模型 总被引：8，自引：2，他引：8

王立春高阳等《南京大学学报(自然科学版)》2001,37(2):135-141

AODE是我们研制的一个面向Agent的智能系统开发环境。AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续过程分别描述系统状态变化和特定系统状态的Agent协商过程,并将强化学习技术应用于Agnet协商过程。该协商模型能够描述动态环境下的多Agent协商,模型中所有Agent都采用元对策Q-学习算法时,系统能获得动态协商环境下的最优协商解。相似文献

3.

基于双边协商的一对多协商协议

姜丽刘大有欧阳继红王鑫禄《吉林大学学报(理学版)》2008,46(1):101-104

提出一个基于双边协商的一对多协商协议(OMN). 该协议采用显现协调机制协调动态增加的多个协商线程, 解决了已有协商协议中的中心节点问题和同步协商问题, 提高了协商系统的分布性和动态可扩展性. 相似文献

4.

基于多级决策的多智能体自动导航车调度系统 总被引：2，自引：1，他引：2

李晓萌杨煜普许晓鸣《上海交通大学学报》2002,36(8):1146-1149

提出基于多级决策和协作学习的方法来建立自动导航车 ( AGV)调度系统中每个 AGV所需要的动态分布式调度策略 .系统中的每一个 AGV都由一个具有两级决策能力的智能体控制 :在选择级 ,智能体采用 Markov对策框架下的强化学习方法 ,以根据其他 AGV当前的子任务建立自己的最有反应子任务 ;在行动级 ,智能体通过强化学习建立优化的动作策略来完成由选择级确定的子任务 .AGV调度仿真结果证明 ,该方法能提高系统的产量 ,并在零件到达比变化时保持输出产量的稳定相似文献

5.

一种基于团队马尔可夫博弈的多agent协同强化学习算法

王长缨陈文伟姚莉《复旦学报(自然科学版)》2004,43(5):842-844

研究多agent系统的学习行为对于智能系统的适应性是至关重要的．针对一类追求系统得益最大化的协作团队的学习问题,基于马尔可夫博弈的思想,提出了一种新的多agent协同强化学习算法．协作团队中的每个agent通过观察协作相识者的历史行为,依照马尔可夫博弈模型预测其行为策略,采用适合的行为探索策略,进而得出最优的联合行为策略．实验对该算法进行了验证,结果表明该算法是有效的．相似文献

6.

基于多级决策的多智能化自动导航车调度系统

李晓萌杨煜普等《上海交通大学学报》2002,36(8):1146-1149

提出基于多级决策和协作学习的方法来建立自动导航车（AGV）调度系统中每个AGV所需要的动态分布式调度策略。系统中的第一个AGV都由一个具有两级决策能力的智能体控制：在选择级，智能体采用Markov对策框架下的强化学习方法，以根据其他AGV当前的子任务建立自已的最有反应子任务；在行动级，智能体通过强化学习建立优化的动作策略来完成由级选择级确定的子任务。AGV调度仿真结果证明，该方法能提高系统的产量，并在零件到达比变化时保持输出产量的稳定。相似文献

7.

增量式双边多属性自动协商策略

姜丽刘大有欧阳继红王鑫禄王新华《吉林大学学报(理学版)》2007,45(6):966-970

提出一种双边多属性自动协商策略. 在该策略下, 协商议程由外生议程与内生议程相结合, 外生议程采用n步议程方法, 内生议程采用部分接受策略, 由部分接受策略产生局部交易, 当局部交易变成全局交易时, 协商过程结束; 当某个属性无法达成一致时, 协商失败. 利用该策略, 协商过程能获得平衡解和帕累托最优解, 且时间复杂性较低. 相似文献

8.

基于贝叶斯方法的多Agent强化学习

郑顾平曹锦纲《河北理工学院学报》2005,27(4):65-68

在多agentss强化学习（MARL）的研究中，很多都是强调MARL算法收敛于期望平衡解。然而，对于标准的强化学习，该过程需要对策略空间的充分探测，而且探测还经常受到惩罚或错失了良机。在多agents系统中，由于agents之间的协作使该问题更加复杂。为此，提出了在MARL用贝叶斯模型来进行最优探测，该模型与标准的RL模型不同，它将对agent的动作是如何影响其它agents的行为进行推理。同时，还给出了如何对最优贝叶斯探测进行处理以获得理想的结果，并通过与其它算法的比较来说明用贝叶斯方法的可行性. 相似文献

9.

基于贝叶斯方法的多Agent强化学习

郑顾平曹锦纲《河北理工大学学报(自然科学版)》2005,27(4)

在多agentss强化学习(MARL)的研究中,很多都是强调MARL算法收敛于期望平衡解.然而,对于标准的强化学习,该过程需要对策略空间的充分探测,而且探测还经常受到惩罚或错失了良机.在多agents系统中,由于agents之间的协作使该问题更加复杂.为此,提出了在MARL用贝叶斯模型来进行最优探测,该模型与标准的RL模型不同,它将对agent的动作是如何影响其它agents的行为进行推理.同时,还给出了如何对最优贝叶斯探测进行处理以获得理想的结果,并通过与其它算法的比较来说明用贝叶斯方法的可行性. 相似文献

10.

多agent协同强化学习算法SE-MACOL及其应用 总被引：4，自引：4，他引：0

王长缨陈文伟《广西师范大学学报(自然科学版)》2006,24(4):167-170

针对多agent团队中各成员之间是协作关系且自主决策的学习模型,在此对Q学习算法进行了适当扩充,提出了适合于多agent团队的一种共享经验元组的多agent协同强化学习算法。其中采用新的状态行为的知识表示方法,采用相似性变换和经验元组的共享,能够提高多agent团队协同工作的效率。最后将该算法应用于猎人捕物问题域,实验结果表明该算法能够明显加快多个猎人合作抓捕猎物的进程。相似文献

11.

基于Stackelberg策略的多Agent强化学习警力巡逻路径规划

解易顾益军《北京理工大学学报》2017,37(1):93-99

为解决现有的巡逻路径规划算法仅仅能够处理双人博弈和忽略攻击者存在的问题,提出一种新的基于多agent的强化学习算法.在给定攻击目标分布的情况下,规划任意多防御者和攻击者条件下的最优巡逻路径.考虑到防御者与攻击者选择策略的非同时性,采用了Stackelberg强均衡策略作为每个agent选择策略的依据.为了验证算法,在多个巡逻任务中进行了测试.定量和定性的实验结果证明了算法的收敛性和有效性. 相似文献

12.

Optimal Response Learning and Its Convergence in Multiagent Domains

张化祥黄上腾乐嘉锦《东华大学学报(英文版)》2005,22(3):116-119

In multiagent reinforcement learning, with different assumptions of the opponents＇ policies, an agent adopts quite different learning rules, and gets different learning performances. We prove that, in multiagent domains, convergence of the Q values is guaranteed only when an agent behaves optimally and its opponents＇ strategies satisfy certain conditions, and an agent can get best learning performances when it adopts the same learning algorithm as that of its opponents. 相似文献

13.

基于信度分配函数的Agent强化学习算法

吴继伟萧蕴诗许维胜《同济大学学报(自然科学版)》2003,31(8):947-950

基于智能体 (Agent)系统强化学习原理和基于动态规划的Q -学习算法的基础上 ,提出了一种新的Agent强化学习算法 .该算法在Agent学习过程中不断调整Agent知识库的加权值 ,在强化学习的每个阶段 ,通过选取合适的信度分配函数来修正Agent强化学习动作的选取策略 .与标准的Q -学习方法相比 ,具有更加合理的物理结构 ,并且能保证算法收敛 .仿真实验说明该方法加快了标准Q -学习算法的收敛速度 ,具有较好的学习性能相似文献

14.

基于并发Options 的双边多议题协商模型优化

彭志平彭宏《华南理工大学学报(自然科学版)》2007,35(9):95-100

针对双边多议题协商中的僵局问题,提出利用并发Options优化协商模型的方法.这种方法可在不降低双边协商效用的前提下,并行动态优化与僵局议题相关的多个议题的保留值.电子商务的实验结果表明:基于并发Options的协商模型优化方法是有效的;无论是学习速度,还是最佳策略的优化程度和泛化能力,该方法均明显优于基于标准Options和Q-学习的优化方法. 相似文献

15.

多Agent系统中的一种互助学习模型MSLM

翟玉庆邢汉承《东南大学学报(自然科学版)》1998,28(5):21-25

Ａｇｅｎｔ在与其他Ａｇｅｎｔ合作工作时，可以相互学习，以增强解决问题的能力。本文提出一种互助学习模型ＭＳＬＭ，在该模型中，每个Ａｇｅｎｔ均可作为其伙伴的教师，通过互帮互学，可以减少Ａｇｅｎｔ在解决相似问题时的重复协商时间，从而提高系统效率。相似文献