首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
机票动态定价旨在构建机票售价策略以最大化航班座位收益.现有机票定价算法都建立在提前预测各票价等级的需求量基础之上,会因票价等级需求量的预测偏差而降低模型性能.为此,提出基于策略学习的机票动态定价算法,其核心是不再预测各票价等级的需求量,而是将机票动态定价问题建模为离线强化学习问题.通过设计定价策略评估和策略更新的方式,从历史购票数据上学习具有最大期望收益的机票动态定价策略.同时设计了与现行定价策略和需求量预测方法的对比方法及评价指标.在两趟航班的多组定价结果表明:相比于现行机票销售策略,策略学习算法在座位收益上的提升率分别为30.94%和39.96%,且比基于需求量预测方法提升了6.04%和3.36%.  相似文献   

2.
文章分析了一种基于粒子滤波和强化学习的算法。该算法通过结合粒子滤波和Q-学习算法,得到一种基于粒子滤波和强化学习的机会频谱接入算法(RLPF)。实验结果表明,RLPF算法能够在策略空间直接进行全局搜索,这是对传统的基于局部搜索策略的强化学习算法的明显改善。  相似文献   

3.
机票动态定价旨在构建机票售价策略以最大化航班座位收益。现有机票定价算法都建立在提前预测各票价等级的需求量基础之上,会因票价等级需求量的预测偏差而降低模型性能。为此,提出基于策略学习的机票动态定价算法,其核心是不再预测各票价等级的需求量,而是将机票动态定价问题建模为离线强化学习问题。通过设计定价策略评估和策略更新的方式,...  相似文献   

4.
近几年来,随着HTTP自适应流媒体(HAS)视频数据集和网络轨迹数据集的不断推出,强化学习、深度学习等机器学习方法被不断应用到码率自适应(ABR)算法中,通过交互学习来确定码率控制的最优策略,取得了远超过传统启发式方法的性能.在分析ABR算法研究难点的基础上,重点阐述了基于强化学习(包括深度强化学习)的ABR算法研究进...  相似文献   

5.
强化学习通过与环境的交互学得任务的决策策略,具有自学习与在线学习的特点。但交互试错的机制也往往导致了算法的运行效率较低、收敛速度较慢。知识包含了人类经验和对事物的认知规律,利用知识引导智能体(agent)的学习,是解决上述问题的一种有效方法。该文尝试将定性规则知识引入到强化学习中,通过云推理模型对定性规则进行表示,将其作为探索策略引导智能体的动作选择,以减少智能体在状态-动作空间探索的盲目性。该文选用OpenAI Gym作为测试环境,通过在自定义的CartPole-v2中的实验,验证了提出的基于云推理模型探索策略的有效性,可以提高强化学习的学习效率,加快收敛速度。  相似文献   

6.
强化学习的模型、算法及应用   总被引:2,自引:1,他引:2  
强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一.文中首先综述了强化学习模型和基本原理,然后介绍了强化学习的主要算法,包括Sarsa 算法、TD算法、Q-学习算法及函数估计算法,最后介绍了强化学习的应用情况及未来研究方向.  相似文献   

7.
投资组合策略问题是金融领域经久不衰的一个课题,将人工智能技术用于金融市场是信息技术时代一个重要的研究方向。目前的研究较多集中在股票的价格预测上,对于投资组合及自动化交易这类决策性问题的研究较少。文中基于深度强化学习算法,利用深度学习的BiLSTM来预测股价的涨跌,以强化学习的智能体进行观测,更好地判断当期情况,从而确定自己的交易动作;同时,利用传统的投资组合策略来建立交易的预权重,使智能体可以在自动化交易的过程中进行对比,从而不断优化自己的策略选择,生成当期时间点内最优的投资组合策略。文章选取美股的10支股票进行实验,在真实的市场模拟下表明,基于深度强化学习算法的模型累计收益率达到了86.5%,与其他基准策略相比,收益最高,风险最小,具有一定的实用价值。  相似文献   

8.
强化学习是Agent学习中广泛使用的方法,在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用,但学习速度慢是强化学习的主要不足。迁移学习可从源任务中获得与目标任务相关的知识,利用这些知识去提高学习效率与效果。本文提出Agent地图迁移算法,实现了Agent在不同状态空间下的经验迁移。实现将Agent在简单环境中的学习经验迁移到复杂环境中,实验中验证了算法可加快Agent路径规划速度。  相似文献   

9.
10.
很多深度强化学习算法在应用时的数据利用率都很低,这限制了模型的泛化能力与适用性.本文通过实现多个任务间的策略共享来实现对数据学习效率的提升.在联合训练多个任务的过程中,通过蒸馏和迁移学习实现不同任务中策略的传输与筛选,并加以精炼.通过建立一个共享的核心蒸馏策略,来捕捉不同任务中产生的共同行为,并针对不同任务设定目标...  相似文献   

11.
汪浩  王峰 《现代雷达》2020,(3):40-44,48
雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强化学习方法,提出一种基于强化学习模型的智能抗干扰方法。分别利用Q学习与Sarsa两种典型的强化学习算法对反干扰模型中的值函数进行了计算并迭代,使得反干扰策略具备了自主更新与优化功能。仿真结果表明,强化学习算法在训练过程中能够收敛并实现反干扰策略的优化。相比于传统的反干扰设计手段,雷达反干扰的智能化程度得到了有效提升。  相似文献   

12.
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Er l ang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。  相似文献   

13.
传统天线选择算法过于依赖信道状态信息(CSI),然而以用户为中心的大规模多输入多输出(UC-MMIMO)系统难以获得足够CSI。针对以上矛盾,将强化学习方法引入到天线选择的问题中,提出了一种基于强化学习的天线选择算法。通过仿真说明所提算法相对于传统的天线选择方法对CSI依赖程度大大降低,并且有着更低的算法复杂度。  相似文献   

14.
由于包括毫米波频率,导致5G网络中的切换更具挑战性,基站(BS)部署更加密集.由于毫米波BS的占用空间较小,进一步增加了切换的数量,从而使切换管理成为一项更关键的任务.因为随着切换数量的增加,降低了服务质量(QoS)和体验质量(QoE),以及更高的信令开销.文章讨论了一种基于双深度强化学习(DDRL)的离线方案,以最小...  相似文献   

15.
近年来,强化学习路径规划技术在各个领域逐渐凸显出技术优势,在与信息技术、GPS技术等高新技术的结合下,成为林业领域、工业领域甚至是军事领域的重要技术组合。为进一步了解强化学习路径规划技术的应用优势,文章将其与无人机技术结合,分析无人机在复杂工作环境下受到诸多外界因素干扰,在无法抓取准确定位信息时学习路径规划状态。通过具体应用案例研究方式,探究无人机飞行过程中强化学习算法对无人机路径规划的影响。在获取具体应用案例实验数据情况下,了解到改进强化学习算法可以调整无人机路径规划方案,帮助无人机在复杂环境下快速完成任务。  相似文献   

16.
李鑫  刘杨  刘立业 《无线电工程》2023,(5):1221-1227
目标跟踪是无线传感器网络(Wireless Sensor Networks, WSNs)中一项应用广泛的技术,旨在估计目标在监控区域内移动时的位置。为了探索网络在跟踪精度和能量效率之间的最佳权衡,结合目标的动态特性,提出了一种基于强化学习(Reinforcement Learning, RL)中Q学习框架的传感器调度算法。通过设计与能量效率和跟踪性能相关的奖励函数,网络中的传感器节点能用最小的能量开销实现对目标的高精度跟踪。仿真结果表明,所提算法相较于传统算法不仅在跟踪精度上实现至少1.1%的增益,并降低同时刻下至少34.1%的节点平均剩余能量值,对于提升目标跟踪的性能有一定指导意义。  相似文献   

17.
针对网络拥塞控制问题,结合机器学习算法,提出了基于强化学习的拥塞窗口调整(CWARL)策略。首先定义了部分网络知识来表示所感知到的网络拥塞程度,设计了动作集合以确定调整拥塞窗口的幅度,设计了兼顾吞吐量和丢包率的奖励函数。其次提出了基于Q学习的窗口调整策略,通过学习网络特征合理地调整拥塞窗口。最后使用实验评估CWARL策略,实验结果表明,提出的CWARL策略的综合性能优于所对比的拥塞控制策略。  相似文献   

18.
近些年来,以视频流媒体为首的新兴技术已经逐步占据网络总流量的重要部分.其中,视频流媒体中的网络视频服务互联网产业的推动作用下,已经逐步成为当代视频流媒体不可或缺的服务内容.在这样的发展态势下,传统流媒体服务系统已经难以适用于当前互联网发展规模当中.为及时解决这一问题,本文主要对基于深度强化学习的流媒体边缘云会话调度问题...  相似文献   

19.
对话策略是任务型对话系统构建的核心组件,通常被定义为强化学习,通过代理和环境的交互,提升对话策略效率.针对当前任务型的对话系统缺少高质量的标注数据集及模型难于收敛等问题,提出了结合规划的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient)算法,用以优...  相似文献   

20.
段勇  陈腾峰 《信息技术》2012,(6):100-103
采用强化学习解决多机器人避碰问题。然后针对表格式Q学习算法只能用于离散的状态并且学习时间过长,难以收敛的不足,提出了神经网络和Q学习相结合的算法。最后将该算法应用到多机器人避碰问题中,仿真实验表明该算法有效,能较好地解决多机器人避碰问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号