基于强化学习的多智能体围捕策略研究

来源 :沈阳理工大学 | 被引量 : 0次 | 上传用户:caesarsarahluckgirl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网时代的到来,人工智能发展趋势逐渐从单智能体决策转向多智能体决策。生活中有很多多智能体系统,比如驾驶车辆在车流中行驶、足球队比赛,甚至是蜜蜂建造蜂巢。这些系统都是多智能体之间通过协作或竞争以达到某个目的。相对于单智能体学习来说,多智能体的学习挑战在于它有更大的搜索空间、对于其它智能体的感知以及系统的鲁棒性。在多智能体系统中,随着智能体数量的增多,问题也随之而来,那就是智能体很难从全局共享信息中区分出有助于协作的信息,因为很多无用信息可能会影响团队协作。如果共享全体智能体信息,动作空间则会过大,并且接收大量信息,会需要很高的带宽和长时间的延迟以及高计算复杂性。智能体根据自身观察到的信息根据全队策略输出动作时,也会产生歧义。所以找到一种方式,可以让智能体在需要的情况下选择对协作有用的信息尤为重要。针对上述多智能体强化学习存在的问题,本课题构建一个多智能体围捕环境对多智能体强化学习进行研究,主要研究内容如下:(1)对多智能体强化学习目前国内外研究现状进行概述,从单智能体和多智能体两个角度对算法进行分类,介绍了经典算法和模型结构,并且对多智能体强化学习协作或竞争技术的应用前景和发展趋势进行了总结与展望。(2)针对多智能体系统在进行协作时,会面临随着联合信息空间扩大,智能体信息提取困难的问题,提出基于过滤机制筛选信息(FMAC)的多智能体强化学习策略。首先对智能体信息进行编码,其后通过计算智能体之间的关联程度,将无关智能体信息进行过滤,从而实现在合作环境下智能体间进行有效的沟通。另外,采用集中训练分散执行方式解决环境的非平稳性。为了对比算法证明改进算法的优势,以Open AI的multiagent particle envs作为测试平台,在其中的‘追捕’和‘围捕’环境中进行对比实验,发现改进算法提高了策略迭代效率以及泛化能力,在智能体数量增多情况下仍保持稳定效果,有助于多智能体强化学习应用到更广泛的领域。(3)为了提高智能体协作策略的能力,本文设置多智能体围捕单智能体实验环境,该环境是在‘围捕’基础上进行改进,提高环境复杂程度。采用围捕网络和逃跑网络对抗训练的思路,通过提高逃跑者的能力来提高围捕难度,进而提高围捕策略。实验证明了对抗训练确实可提高围捕策略并且提高了泛化能力。
其他文献
学位
学位
学位
学位
随着计算机视觉领域的发展,学者们对目标跟踪的研究也越来越关注,尤其是多目标跟踪。多目标跟踪在自动驾驶、交通管理等多方面有着广泛的应用。现阶段的多目标跟踪研究有不错成果,但是在目标遮挡、交互或者感兴趣目标众多等复杂环境情况下,多目标跟踪算法的应用和速度就会受到制约。因此,本文采用基于检测策略的多目标跟踪算法进行研究,实现高效、准确的跟踪任务。主要研究内容如下:(1)研究Faster RCNN和YOL
随着信息技术的快速发展和硬件成本日益下降,传感器技术得到快速发展,已经在军事安防、农业、工业、智能交通等多个领域有着广泛的应用。多传感器网络相对于单一传感器具有种类多、适应性强、容错率高等优点,因此它适用于更多的场景同时也具有更重大的研究意义,近年来已逐渐成为热门的研究方向。而在多传感器网络的软件开发方面,目前大多数都处于理论仿真阶段,缺少实际的硬件环境约束。本文针对现有的多传感器网络硬件体系,设
无人水下航行器(UUV)是一种无驾驶员的类潜艇机器人装置,用于水下任务,如搜救、测量、监视、检查、维修和维护。水下航行器运行期间,其运动轨迹会呈现高度非线性。此外,航行器动力性能还会随着周围环境的变化和外部干扰(如风速和海流)而发生显著变化。这些因素都使得我们难以对水下航行器空间运动进行准确建模。模糊控制具有很强的鲁棒性,能够适应流体动力学的不确定性。不仅可以对多种线性系统进行控制,在非线性系统控
随着手机等移动端图像获取设备的不断升级与普及,图像数据逐渐成为人们日常获取信息的最主要来源。但是随着图像数据规模的日渐庞大,冗余信息也逐渐的充斥在人们的身边,导致人们搜索有用信息的难度越来越大,所以针对的图像的识别与自动分类具有越来越重要的意义。随着近些年来深度学习在图像分类中的应用越来越深入,越来越多优秀的基于深度卷积神经网络的图像分类结构取得了令人瞩目的成果,但是基于深度学习的图像分类方法,对
磁控形状记忆合金(MSMA)是一种发现较晚的新型材料,基于磁控形状记忆合金变形率高、响应快等特点,本文研究是在材料逆特性的基础上,主要是对传感器的结构进行优化设计,运用ANSYS电磁仿真软件进行验证,最后通过搭建实验系统,在不同的输入条件下分析输出的感应电压波形。主要研究内容如下:对MSMA材料特性进行阐述,在此基础上根据MSMA传感器的工作原理、法拉第电磁感应定律以及磁路欧姆定律的相关知识,得到
随着国家工业实力的飞速发展,机器人抓取技术在工业生产中发挥着不可或缺的作用。目前,工业中的抓取技术是根据设定好的流程再加上传统机械手爪的配合来实现物体或工件的抓取。这种抓取技术只是固定的、重复的对单一零件进行抓取,不具有广泛使用的特性。因此,基于深度学习的抓取技术受到国内外研究者的广泛关注。为了解决工业生产领域中多个不同类别的物体识别与抓取问题,本文对基于深度学习的柔性夹爪抓取技术来展开研究,本论