【摘 要】
:
多智能体系统(MAS)由多个智能体构成,对于单智能体无法解决的问题,即规模较大或较复杂的问题,可以通过系统中各智能体之间进行协作完成。现如今随着问题的复杂化,多智能体系统受到广泛关注。任务分配是多智能体系统中的一个关键问题,其解决的是将复杂的任务分配给各智能体的问题,目的是使得任务整体的效用或收益最大化。如何高效的将复杂任务合理的分配给智能体成为了多智能体系统的热点问题之一。由于神经网络可以挖掘数
论文部分内容阅读
多智能体系统(MAS)由多个智能体构成,对于单智能体无法解决的问题,即规模较大或较复杂的问题,可以通过系统中各智能体之间进行协作完成。现如今随着问题的复杂化,多智能体系统受到广泛关注。任务分配是多智能体系统中的一个关键问题,其解决的是将复杂的任务分配给各智能体的问题,目的是使得任务整体的效用或收益最大化。如何高效的将复杂任务合理的分配给智能体成为了多智能体系统的热点问题之一。由于神经网络可以挖掘数据的潜藏信息,强化学习可以使得智能体通过与环境的交互自主进行学习,迁移学习可以使得模型不重头开始训练,加快任务分配的过程,故本文通过神经网络和深度强化学习进行多智能体系统的任务分配,通过迁移学习减少任务分配的时间。在复杂任务中,可以通过神经网络和深度强化学习来学习数据的抽象表征,实现任务分配。本文主要研究的是通过强化学习和神经网络完成多智能体系统的任务分配,主要工作如下:(1)为了加快任务分配的速度,本文提出了一种基于强化学习及迁移学习的多任务分配算法。经典的任务分配算法在新任务到来时,需要重新计算来对任务进行分配,消耗大量计算资源。本文提出的算法在进行新任务分配时,通过迁移学习,利用过往经验加快任务分配的速度,提高任务分配的效率。其主要思想是将目标任务与源任务库中的任务进行相似度比较,找到与目标任务最相似的源任务,将策略库中对应任务的分配方案迁移到目标任务中。该算法还利用迁移学习加快智能体利用强化学习学习最优路径的速度,即将智能体之前处理过的子任务的策略迁移到目标子任务的完成上。最终,通过实验表明使用迁移学习加快了任务分配策略和最优路径的学习,减少了计算开销和时间损耗。(2)为了在保证任务可以完成的情况下,减少系统的资源损耗,本文提出了一种基于深度学习的多智能体系统任务分配算法。第一种是使用神经网络进行任务分配,网络的输入是待分配任务所需要的资源,网络的输出是任务分配策略的类型,目标是最大化系统的总收益。实验表明,该算法得到的任务分配策略准确率较高,实时性较好。第二种是搭建深度强化学习模型进行任务分配。由于任务分配是一个复杂的优化问题,传统的分布式算法很难得到最优策略,导致收益不高,或求解时间过长。该算法使用深度强化学习思想来解决这一问题,通过与环境的交互,不断的试错得到可以获得较大的累积回报的行动,即分配策略。主要思路是利用重放缓存存储状态,并对其进行抽样得到训练样本,经过不断迭代得到最终的任务分配策略。该算法适用于解决大规模且复杂的任务分配问题。仿真实验表明,该算法有效地减少了系统的资源损耗,增加了系统的总收益。
其他文献
工业机器人在实现制造过程自动化、提高劳动生产率中占有重要的地位。由于工业机器人轨迹规划的好坏直接影响能耗的高低,因此,如何合理规划工业机器人能耗最优的轨迹问题受到了许多学者和机器人生产商的重点关注。本文以LR4-R560型六自由度机械臂为研究对象,首先建立运动学与动力学模型,为轨迹规划的研究和优化能耗的问题提供基础。其次在各关节角度、角速度、角加速度的约束条件下,将能耗最少作为机械臂的运动轨迹的优
教育可以使一个人从愚昧走向睿智,是社会发展的命脉之一,也是一个国家和民族的重中之重。在我们中国的教育中,语文的重要性更为显著,学好语文是学好其他科目的基础。除了中国的中小学生,国外友人来中国留学时,也需要认真学习中文。而作文是中文极为重要的一部分,中文的初学者极容易在写作时出现错误,及时发现错误并更正也显得尤为重要。因此本文实现了作文句子错误识别系统,目的是帮助中文初学者发现自己写作中的错误,也可
排序,也称为调度,是组合优化理论中的一个重要分支。对于传统的排序问题,给定工件集和机器集,为了达到某个目标值,决策者们通常考虑如何将工件最好的安排到机器上进行加工。
近年来,随着我国科技水平的提高,承载重大石化项目的能力进一步增强,越来越多石化项目落户全国各地,然而由于石化项目的特殊性,尤其是政府在项目建设过程缺乏有效的舆论引导,
随着视频质量的提升和交互式应用的普及,用户对网络服务质量需求日益增长的同时也急剧加重了网络流量压力。动态缓存技术通过在网络边缘缓存热点内容,减少向核心网络的请求,能够有效地减轻网络流量压力。以用户为中心的超密集网络通过基站的密集部署和基站组的协同服务,在网络边缘增强流量处理能力,提升用户服务质量。但是,由于用户运动具有随机性,为了保证运动过程中的用户通信连续性,基站协作缓存策略和基站组成员动态更新
合成孔径雷达(Synthetic Aperture Radar,SAR)主要用于对观测场景进行二维高分辨成像,由于其在航空、航天等众多领域的应用,SAR图像解译技术成为目前研究的热点,SAR图像目标特征提取及识别也是其中重要的研究方向之一。SAR图像目标特征提取主要是从SAR图像中获取目标的几何特征、属性特征,可用于对目标的分类识别等。本文主要围绕SAR图像目标特征提取展开研究,主要包括地面车辆目
当前分布在互联网上的APK网站数目众多,质量参差不齐,恶意APK泛滥,容易造成用户误下载后遭受隐私泄露、恶意扣费、电信诈骗等威胁,对这些网站的APK进行实时爬取并监控是降低危害的必行之举。但现有常用的识别页码链接的算法,如GL&CSL、BERyL、XPath最长路径探测等,存在识别时间长、准确率低等缺点,目前常见的提取搜索结果算法,如ViPER、CTVS和STEM算法等,也存在提取时间长、
当前国家产业结构的转型升级、实体经济的发展都需要“融资租赁”。融资租赁融合了融资功能与融物功能,可以降低购买力门槛,因而对实体经济的发展能起到杠杆作用,从而有助于
肽核酸是一种脱氧核糖核酸类似物,具有许多优异的特性,包括与结构化核酸靶点结合的能力、优异的生物和化学稳定性、强特异性的识别能力等。此外,肽核酸的不带电主链可进行独特的实验设计,这些实验设计不能用寡核苷酸或带负电荷的主链类似物来完成。近年来,肽核酸在纳米技术中的应用受到了广泛的关注,已逐渐成为脱氧核糖核酸的重要替代物。碳点是一类尺寸小于10 nm的新型荧光碳纳米材料,由于其强发光特性和良好的溶解性受
随着生物科技的发展,越来越多的人类蛋白质被研究者们发现。但是,已知的蛋白质中,可以作为靶标的蛋白质数量稀少,只占所有已知蛋白质数量的很小一部分,导致了大部分药物的靶标蛋白质数量只有两三种。如果可以发现更多潜在的药物靶标相互作用,就可以治疗更多的复杂疾病,从而减少新药物研发的时间、成本和风险,为人类发展提供安全的保障。在探索一个未知的药物靶标相互作用时,传统思想选择使用实验的方法。虽然实验的结果可靠