强化学习在RoboCup Agent智能策略中的研究与应用

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zhanggh20060363
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人世界杯足球赛(The Robot World Cup,简称RoboCup),是典型的MAS问题,可以用来评价各种不同的人工智能理论、算法和体系结构。  强化学习是一种以环境反馈作为输入的、特殊的、适应环境的、从环境状态到行为映射以使系统行为从环境中获得的累积奖赏值最大的机器学习方法。该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为,而是通过试错的方法来发现最优行为策略,因此广泛应用于Agent的智能决策。强化学习可以分为两类。一类是基于模型的强化学习。另一类是模型无关的。环境模型用形象化的描述就是环境的行为方式。本文针对RoboCup中的Keepaway子任务,从模型无关与基于模型的强化学习两个方面分别阐述其在RoboCup中的Agent智能决策学习中的应用。本文的研究内容主要包括以下两个方面:  首先,针对RoboCup中的Keepaway子问题,传统的Q表已经不能有效的表示连续的状态和动作空间,我们使用神经网络来代替Q表来表示Q值。同时使用批学习的方法来提高训练数据的利用率和收速度敛。在实验结果中比较了其与传统Q学习的学习结果,验证了基于神经网络的批Q学习算法在Keepaway决策学习问题上的有效性和高效性。  然后,从基于模型的强化学习方法入手,尝试给Keepaway问题建立模型,将基于模型的强化学习方法和批学习相结合,不但提高了训练数据的利用率而且由于环境模型的使用使得产生的经验能够更加有效的覆盖状态空间,使训练的结果优于模型无关的方法。
其他文献
随着Web的快速发展,如何从Web网站中获得需要的信息成为急需解决的问题,因此Web信息抽取成为必要,Web信息抽取技术也成为当今的一个研究热点。Web信息抽取需要解决的问题是:
计算中心计算机实验教学机房担负着为全校学生提供计算机教学、实验、课程设计和实践教学环境的重要任务,每年要完成实验教学任务近100万机时。同时,没有教学任务的机房还要
网格中如何实时准确地监控与发现网格中资源的状态和配置情况是网格的一个关键技术。目前的网格资源监控与发现系统难以适应网格的分布性、可缩放性、异构性等特点。本文首先
电缆沟井测控系统在保障电缆沟井电力安全生产方面起着至关重要的作用,社会各界给予了极大的关注,并在多方面展开了研究。加强电缆沟井在线综合测控系统下位机的实时性和可靠
在强调快速、高效的今天,越来越多的人将飞机作为出行首选交通工具。同时出行安全也是人们普遍关心的问题,因此人们对机场安全防御能力提出了越来越高的要求。浦东机场防入侵
近年来随着互联网的迅猛发展,信息技术和信息数据开始深入地影响人的生活,创造了庞大的价值,标志着我们进入了“大数据时代”。  处理“大数据”必然地对高性能产生了需求,在过
对图像进行三维重构时最重要的一环是恢复景物的深度,在目前计算机视觉研究领域中,大多数深度恢复算法都是利用聚焦图像来恢复景物深度的,如基于立体视觉的深度恢复算法和基
恶意程序伴随着计算机技术和互联网的发展而发展,对计算机信息安全构成了严重的威胁。恶意程序通过加密、加壳、变形等多态技术实现了代码的演变,这使得传统的基于反汇编技术的
代码混淆技术是对软件进行保护的一种常用手段,它通过隐藏关键行为或对代码进行复杂化处理,使得程序更加难以理解,从而增加了攻击者逆向分析的难度。程序中包含了大量的分支控制
短消息服务(SMS)与国际互联网技术的结合以及GSM调制解调器的出现和应用将给目前以提供话音服务为主的GSM移动通信网络带来新的生机。在GSM网络和计算机互联网络之间建立一个