面向多智能体深度强化学习的协同技术研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:qqzlei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着科学技术的不断发展,在单智能体领域,深度强化学习取得了很多令人瞩目的成果。然而在多智能体领域,由于智能体数量的增多及环境复杂性的增长,导致智能体交互时无法处理爆炸式增长的信息量。因此,如何让智能体在学习过程中进行有效的通信和学习信息的选取,从而促进智能体之间协同能力,是一个重要的研究课题。针对智能体间的有效通信和通信过程中产生的冲突问题,本文进行了研究,主要研究内容如下:(1)针对目前多智能体通信方式不合理,对于信息选取的方式不够全面的问题。提出了一种基于符号注意力机制的多智能体信息处理方法。该方法融合了传统的多头注意力机制并将其符号化,避免像传统的信息处理方式一样无差别地学习其余所有智能体的信息。该方法关键在于综合考虑智能体之间的相似度,包括正向相似度和负向相似度,从而更全面地学习与自身相关性最大的智能体信息。该方法不仅能减少多智能体系统中各个智能体所需处理的信息量,去除大量的与自身不相关的冗余信息,还能提高智能体的样本效率。对两个经典场景进行实验验证结果表明,该方法能取得较好的学习效果,能在相同步长的实验环境下,获得更高的回报率,让智能体做出更好的决策。(2)针对现有智能体冲突消解方法建模复杂、效率低下的问题。提出了一种基于双深度Q强化学习算法(DDQN)的多智能体冲突处理方法。该方法首先通过DDQN算法计算智能体的累计回报收益,根据累积回报收益赋予智能体优先级,利用该顺序进行决策,然后通过自主决策选取动作,从而达到避免冲突的效果。这种方法并不像传统的处理冲突的方式一样,需要对环境和智能体进行复杂的建模,因为对于一些复杂场景,人为设定变得不太可能。这种方法,不仅能让智能体自主地进行冲突消解,还不需要进行复杂的环境建模。针对现实世界的智能车冲突场景进行了仿真实验,实验结果表明,该方法能较好的处理冲突问题,帮助智能体更好的做出决策。
其他文献
我国自古以来就是农业大国,随着我国经济的不断发展,各行各业都取得了显著的成绩,种植业也不例外。在我国的果树中,梨树种植有悠久的历史。因为梨树对外界环境条件的要求较高,所以想要实现梨树的高产,则需要加强栽培管理技术的应用。基于此,探究了高效的梨树栽培管理技术,旨在保障梨树的健康生长,实现梨树的高产、高质。
现代图书馆的馆藏文献资源越来越丰富,馆舍空间需求越来越大,但是对于图书馆馆藏文献资源的精准定位以及读者的定位导航还缺乏有效的解决方案。笔者分析了当前主流的室内定位技术及其定位方式,并从文献定位、读者定位、定位数据分析等方面提出室内定位技术在智慧图书馆中的应用方案。
奶牛生产后身体机能减弱,抵抗力下降,容易发生各种疾病,对母牛的健康与繁殖性能造成严重影响,影响其经济效益。因感染导致的乳房炎或者其他继发性感染疾病还会影响奶牛的产奶量与乳品质,给奶牛养殖带来严重的经济损失,因此,做好奶牛的科学饲养、管理与产后的护理工作至关重要。本文从产后母牛的饲喂、保证饲养环境卫生清洁、减少应激的发生、产后母牛的饲养分区与监护等方面介绍了泌乳期奶牛的饲养管理要点;从产后疾病预防与
随着市场经济的快速发展,人民的生活质量不断提升,消费能力也日益提升。为抓住机遇,开拓市场,鼓励消费者进行消费,获得更高的效益,各个行业的营销手段也越发多样。保险行业同样面临挑战,保险公司以“人海战术”为主的传统营销模式在通讯手段多样、互联网技术日益发达的当下已然跟不上时代的步伐,简单粗暴的传统营销方式和人员管理模式也无法满足快速发展的市场经济需求,因此各家保险公司也踏上转型之路,探索新的营销方式。
大国竞争背景下,面对日益复杂、对抗性更加激烈的作战环境以及所谓对等对手带来的新兴威胁,外军正从政策、装备、技术等多个层面推动军用通信与网络的发展,不断提高其韧性、敏捷性、互操作性和抗毁性。文中以最具代表性的美军为主要研究对象,从空间通信系统、地面网络、军用5G以及支持新兴作战概念的创新型通信网络等方面,对2021年军用通信网络领域的最新进展进行综述和分析,为了解相关领域装备与技术的发展现状和未来趋
目的 描述我国多地区老年人骨折现状及流行病学特征,阐明老年人骨折相关危险因素。方法 选择2013年3月至2015年2月在广西壮族自治区江滨医院、北京老年医院、宁夏医科大学附属医院就诊的老年患者4419例作为研究对象,分析其骨折发生率及流行病学特点,分析运动,晕厥,平衡功能,糖尿病等疾病因素,降压药、降糖药等药物因素与骨折的关系。结果 (1)我国老年人发生骨折的流行特征如下:(1)一般状况:在性别、
目的 了解曲靖市二级以上医疗机构儿科资源配置现状及发展趋势,挖掘其存在的问题,为优化曲靖市儿科服务能力建设提供意见和建议。方法 对曲靖市二级以上开展儿科医疗机构采用普查法,运用自制问卷调查其儿科资源配置,包括儿科开设科室、人力资源、经济效益、卫生资源利用等情况,运用GM(1,1)模型进行分析预测。结果 曲靖市二级以上医疗机构儿科服务基本情况:床位数、门急诊人次、住院人次、住院总费用、人均费用及日均
目的 探究辣椒粉添加量对鲜湿面品质特性的影响。方法 以辣椒粉和小麦粉为主要原料,对不同辣椒粉添加量的混合面团的粉质特性及鲜湿面的糊化特性、色泽特性、蒸煮特性、质构特性、感官评价进行分别测定,最后结合主成分分析方法进行综合评价。结果 随着辣椒粉添加量(1%~5%)的上升,面团稳定时间逐渐降低,公差指数先降低后增加,带宽先增加后降低;鲜湿面的糊化黏度降低,糊化时间缩短;鲜湿面的L*逐渐下降, a*和b
近年,主题性电视剧中的单元化叙事,成为一种新的创作现象。此种方式通过对重大主题的真实还原与纪录式呈现,展现出别样的叙事风格、形成独特的叙事特征,并使作品的思想价值得到较好的表达和传递,进而得以实现记录时代、讴歌英雄的精神诉求。