多Agent系统中强化学习的研究与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户：syris

【摘要】

：

本文研究的重点是在多Agent技术环境下探讨强化学习技术的原理以及如何改进其学习效率并提高其算法的合理性,在此研究基础上构建基于矢量势能场的区域合作的强化学习算法和基

【作者】

：

刘亮

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2009年期

【关键词】

：

多Agent系统强化学习人工智能 Q-学习算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文研究的重点是在多Agent技术环境下探讨强化学习技术的原理以及如何改进其学习效率并提高其算法的合理性,在此研究基础上构建基于矢量势能场的区域合作的强化学习算法和基于任务与过程的分层强化学习算法,这些算法在RoboCup(机器人足球世界杯)仿真机器人系统这一标准测试床的子任务中进行了应用与研究,同时与现有算法的效能进行了比较并分析了新算法提高学习效能的原因。　　在目前的计算机科技发展领域,Agent和多Agent系统(Multi-Agent Systems,简称MAS)技术已成为分布式计算环境中软件智能化和人工智能研究实用化的关键支撑技术,与其相关的理论与技术研究已成为分布式系统的设计、分析与实现的重要途径。以至于斯坦福大学的Hayes-Roth在IJCAI’95的特邀报告中谈到:“智能的计算机Agent既是人工智能研究的最初目标,也是人工智能研究的最终目标。”这一断言来自于Agent技术的特点,即能够模拟人类的行为,具有自治性、社会性、适应性、智能性等人类的特性。然而随着多Agent系统及其运行环境日益趋于大型、开放、动态和不确定,迫切需要采用各种智能技术来构建具有自学习能力的Agent以适应这些特点。但是目前在面对由复杂实时环境带来的海量数据、复杂数据、噪声数据、缺损数据、错误数据以及极少的学习样本数据时,传统的机器学习算法面临巨大的挑战。现有算法中基于MDP(Markov Decision Processes,马尔可夫决策过程)的强化学习算法由于无需历史状态和建模的特性开始成为构建Agent的核心技术,其各种改进算法在机器人系统、飞行控制系统、网络数据通信、并行计算、机械与工程制造等领域的应用中取得了良好的效果。但在多Agent系统中传统强化学习技术也面临许多挑战,因此对于提高强化学习在多Agent系统中的学习效能已成为当前的热点问题。本文的研究工作和创新包括:　　1.对现有的Agent技术与多Agent技术进行了深入的研究并对各种技术的内涵进行分析。在此基础上对强化学习技术的发展和研究现状进行了深入的探讨,对现有的各种强化学习方法的效能进行了考察并提出其不足之处。　　2.在Q-学习算法的基础上提出了局部合作的多Agent强化学习算法,在当多Agent系统的整个学习过程中合作状态较少时,使用此算法可以极大的提高算法收敛速度,减少算法的时间复杂度。这种算法的核心思想是,只有在明确知道Agent之间有协作或关联时(由先验知识或其他方法确定)才通过其联合动作进行学习,而在其他情况下使用其独立的强化学习机制,并给出了在这两种状态以及状态转化时的确定Q值的方法与环境奖励的分配方法。算法通过避免在全部状态下都考虑联合行动,从而加快了学习过程。　　3.从MAS研究中的知识表现多样性出发,联系Agent之间与Agent内部状态及属性的特点,结合对MAS运行时环境与系统的相关性,提出了势能场模型,对Agent效能模型进行了重构,并以此对工作于多Agent系统中的Agent效能进行评价。在进行机器人足球标准任务实验时,对上述势能场模型进行了进一步优化,通过引入矢量概念,构建出基于矢量的势能场模型。　　4.结合矢量势能场模型,对局部合作的强化学习算法进行优化。通过势能场模型建立对Agent效能及Agent之间联系的评判标准,由此对算法中联合动作Q值表中Q值更新时的分配给出依据,并提供区分联合状态的评判标准。　　5.从研究分层强化学习入手,提出由MAS中任务结构分析产生的分层合作研究方法,通过区分子任务并以此建立更大粒度层面上的基于任务场景的状态空间,并结合以联合动作为基础的任务动作,从而解决强化学习中的状态空间的维数灾难。文中给出了基于机器人足球的子任务的算法应用,其效能得到实验的验证。　　6.通过对强化学习中合作MAS的研究,在基于系统工作逻辑的研究基础上,提出了基于学习过程分层的局部合作强化学习,通过对独立Agent强化学习的知识考察,改进多Agent系统学习的效率,进一步提高了局部合作强化学习的效能。

其他文献

基于.NET平台的机房管理系统的设计与实现

计算中心计算机实验教学机房担负着为全校学生提供计算机教学、实验、课程设计和实践教学环境的重要任务,每年要完成实验教学任务近100万机时。同时,没有教学任务的机房还要

学位

网络设计机房管理网络打印学生服务系统

基于WSRF的网格资源监控与发现研究

网格中如何实时准确地监控与发现网格中资源的状态和配置情况是网格的一个关键技术。目前的网格资源监控与发现系统难以适应网格的分布性、可缩放性、异构性等特点。本文首先

学位

网格计算资源监控资源发现移动Agent蚁群算法

电缆沟井在线综合测控平台下位机系统的设计与实现

电缆沟井测控系统在保障电缆沟井电力安全生产方面起着至关重要的作用,社会各界给予了极大的关注,并在多方面展开了研究。加强电缆沟井在线综合测控系统下位机的实时性和可靠

学位

电缆沟井测控系统下位机ARM920TDM642设备驱动

机场防入侵系统的综合应用平台开发研究

在强调快速、高效的今天,越来越多的人将飞机作为出行首选交通工具。同时出行安全也是人们普遍关心的问题,因此人们对机场安全防御能力提出了越来越高的要求。浦东机场防入侵

学位

机场防入侵系统综合应用平台跨语言特性软件系统

CPU-GPU异构体系任务调度框架的研究

近年来随着互联网的迅猛发展，信息技术和信息数据开始深入地影响人的生活，创造了庞大的价值，标志着我们进入了“大数据时代”。　　处理“大数据”必然地对高性能产生了需求，在过

学位

任务调度异构体系多核处理器编程框架

基于散焦图像的深度恢复算法研究

对图像进行三维重构时最重要的一环是恢复景物的深度,在目前计算机视觉研究领域中,大多数深度恢复算法都是利用聚焦图像来恢复景物深度的,如基于立体视觉的深度恢复算法和基

学位

散焦图像深度恢复算法三维重构立体视觉最小化代价函数法

基于超图的恶意程序检测方法研究

恶意程序伴随着计算机技术和互联网的发展而发展，对计算机信息安全构成了严重的威胁。恶意程序通过加密、加壳、变形等多态技术实现了代码的演变，这使得传统的基于反汇编技术的

学位

恶意程序检测方法信息安全特征提取动态分析

结合机器学习与单向保留前缀加密算法的分支混淆方法

代码混淆技术是对软件进行保护的一种常用手段，它通过隐藏关键行为或对代码进行复杂化处理，使得程序更加难以理解，从而增加了攻击者逆向分析的难度。程序中包含了大量的分支控制

学位

机器学习加密算法前缀加密混淆方法

基于Java的移动校园网网关研究与实现

短消息服务(SMS)与国际互联网技术的结合以及GSM调制解调器的出现和应用将给目前以提供话音服务为主的GSM移动通信网络带来新的生机。在GSM网络和计算机互联网络之间建立一个

学位

SMS网关通信规约任务调度

强化学习在RoboCup Agent智能策略中的研究与应用

机器人世界杯足球赛(The Robot World Cup,简称RoboCup),是典型的MAS问题,可以用来评价各种不同的人工智能理论、算法和体系结构。　　强化学习是一种以环境反馈作为输入的、

学位

强化学习智能策略机器人世界杯足球赛人工智能

多Agent系统中强化学习的研究与应用

其他学术论文