山地环境下基于深度强化学习的多智能体协同搜索节能算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:seracn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着智能体需要解决的问题越来越复杂,学者们从研究单智能体系统逐渐转为研究多智能体系统。多智能体系统常常被用于搜索遍历,无人监控等场景。使用多智能体系统去搜索一个感兴趣区域已经有很多成熟的算法,但这些算法基本都是针对平坦地形设计的,而实际应用中被搜索遍历的环境往往是不平坦的山地地形等。在针对平坦地形设计的搜索算法中,智能体通常是采用最短路径的方式在导航目标之间移动,在平坦地形下这样的运动即省时又节能,但在不平坦地形上这样的运动往往会导致过度的能量消耗。然而,现有的智能体基本都是采用便携式能源提供电力,因此应该尽量减少智能体的能量消耗,避免还没遍历完感兴趣区域智能体就出现能源不足的情况。为了解决上述不足,本文提出了两种针对山地环境的多智能体搜索节能算法。本文的主要工作和创新如下:1.将深度强化学习引入到了多智能体系统中。通过设计合理的深度强化学习奖惩函数,提前规划出每个智能体下一个要遍历的最优目标位置,尽量避免发生重复覆盖的问题,提升了覆盖效率,降低了系统的总能耗。2.针对多智能体系统去搜索山地环境设计了两种神经网络模型,这两种模型使得智能体能够实时的选择下一个要遍历的最优位置。对于其他的复杂环境,也可以参考这两个网络模型,去构造出更适合的网络模型。3.结合山地地形的梯度特征,引入了地形适应力,地形适应力可以引导智能体尽量走最优能耗路径。将地形适应力加入到运动学模型中,设计出了基于地形适应力的节能覆盖算法。4.将智能体能耗模型加入到深度强化学习的奖惩函数中,以全局总能耗最低为目标去选择下一个要遍历的目标点,进而设计出了基于奖惩函数改进的节能算法。仿真结果表明,本文提出的两种算法在不平坦的山地环境下相比于传统的搜索遍历算法有更好的节能性。并且本文提出的两种算法在系统中某些智能体出现故障断开连接时,不会影响其他智能体继续工作,有很好的鲁棒性。
其他文献
下一代通信网络的蓬勃发展对于高质量通信服务提出了前所未有的要求。凭借着灵活部署和视距传输等诸多优势,无人机通信有望在未来的无线通信系统中扮演关键角色。总结以往文献,空地一体化网络中的无人机应用研究,可根据无人机在网络中的地位大致分为两种场景:无人机辅助的无线网络通信场景,其中无人机作为部署在空中的基础设施;以及蜂窝网络辅助的无人机通信场景,其中无人机作为获得服务的空中用户。本文考虑将两种主流研究思
针对协同电子战中跳频通信干扰协同决策难题,通过构建“整体优化、逐站决策”的协同决策模型,基于深度强化学习技术,设计了在Actor-Critic算法架构下融合优势函数的决策算法,并在奖励函数中嵌入专家激励机制以提高算法的探索能力,采用集中式训练方法优化决策网络,使算法能够输出资源利用率最高的干扰方案,并大幅提高决策效率.仿真结果表明,相比于现有智能决策算法,本文算法给出的干扰方案能够节约8%干扰资源
随着人工智能技术的发展,智能终端已经可以通过频谱感知、通信效果检测分析等方式智能地改变通信手段,进而实现高效率抗干扰,这给传统干扰带来了巨大挑战。而深度强化学习在复杂场景中的探索效率高,面对高难度任务的能力强大,在军事干扰领域应用前景广阔。基于此,介绍深度强化学习、智能干扰方法这两个基本问题的研究现状和存在的难点问题,总结并提出未来基于深度强化学习的智能干扰方法的研究前景和技术展望。
深度强化学习是一种兼具深度学习特征提取能力和强化学习序列决策能力的智能体建模方法,能够弥补传统对手建模方法存在的非平稳性适应差、特征选取复杂、状态空间表示能力不足等问题。本文首先将基于深度强化学习的对手建模方法分为显式建模和隐式建模两类,按照类别梳理相应的理论、模型、算法以及适用场景。随后介绍基于深度强化学习的对手建模技术在不同领域的应用情况,最后总结亟需解决的关键问题以及发展方向,旨在为基于深度
青年是一个充满生机、富有活力的群体,实现中华民族伟大复兴需要青年发挥中流砥柱的作用。青年理想信念的培育与坚定,不仅关乎青年个人成长成才,也关涉国家富强、民族振兴和人民幸福。青年理想信念教育常态化制度化是新时代条件下理想信念教育面临的重要课题。当前高校应从教育引导同实践养成共发力、健全制度与加强治理同步、统筹谋划与分类引导相结合、守正与创新相融合四个方面形成青年理想信念教育的强大合力,不断提高青年理
针对高速飞行器与拦截器的攻防博弈问题,研究了一种基于双深度Q网络(DDQN)的改进算法。该算法针对经典DDQN样本利用效率低的问题,设置多个经验池,并将一轮对抗中Q值的累积时序差分误差(TD-error)与累积奖励值相结合,通过模糊推理计算样本存储至不同经验池中的概率。再根据累积奖励的时序差分误差设计积分抽样器,从不同经验池中抽取样本进行训练。模型的奖励函数设计原则为在成功突防的基础上减少自身机械
镁合金具有密度低、抗震性能好、比强度高、比刚度高、可回收性好等诸多优异性能,在航空航天、汽车零部件和国防军工等领域有很大的应用前景。但是传统铸造工艺制备的镁合金存在因技术特点导致的固有铸造缺陷,难以生产不同功用的结构件。挤压铸造是一种近净成形技术,用于制备镁合金产品可以减少宏观缺陷并获得良好的力学性能。挤压铸造技术按照成形工艺的不同分为直接挤压铸造和间接挤压铸造,间接挤压铸造工艺的基本原理是通过冲
<正>习近平总书记在中央和国家机关党的建设工作会议上明确提出,中央和国家机关必须牢固树立政治机关的意识,要带头做到"两个维护",着力推进中央和国家机关党的政治建设。近期召开的中央和国家机关党的工作暨纪检工作会议再次强调要始终把"两个维护"作为党的政治建设的首要任务,扎实开展强化政治机关意识教育。近年来,国家卫健委规划司党支部认真贯彻落实全面从严治党的要求,牢固树立政治机关意识,坚持以党的政治建设为
期刊
近年来,随着移动互联网的迅速发展,移动用户的规模持续高速增长,传统的移动网络架构已经难以为移动用户提供高质量的网络服务。在此背景下,一种新型的网络架构—移动边缘计算被提出,以期提升网络的服务品质,从而满足移动用户的服务需求。移动边缘计算通过在网络边缘部署服务器来就近处理终端用户的服务需求,借此降低网络延迟与提升移动网络的服务品质。移动边缘计算面临的一个重要问题是:如何对计算任务进行高效地卸载。现有
初中数学教师引导学生有意识地挖掘、分析生活和校园情境中的数学问题,将其引入课堂中,创设数学问题的生活化教学情境,从而激起学生努力学习数学的欲望。采用猜想、检验的学习方式,调动学生学习和运用相关数学知识解决生活问题的积极性,体会“用中学、思中学”的教学过程,发展数学素养,最终达成应用性的教学目标。