基于强化学习的游戏环境中智能体决策模型的设计研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qqqq398705749
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前大多数都是使用以值为基础的Q函数如DQN强化学习算法进行研究,减少了对更加直观的以策略方法为基础的强化学习算法的研究。且在游戏领域中,连续高维的状态动作分布是决策问题应用强化学习所面临的一个巨大困难,为解决这一问题,本文将通过基础方法策略搜索方法——确定性策略梯度算法作出研究,并分析确定性策略梯度算法的优缺点,对于其缺陷进行改进,提出双剪切策略梯度算法改进模型,并探讨不同的改进部分对实验结果的影响。最后在游戏平台上选择四个连续高维的任务进行训练,以证明改进算法在解决此问题的性能提升水平。本文主要进行了五个部分的阐述。(1)首先对强化学习的本质问题与发展应用领域进行了简明介绍,接着介绍了基础的方法——深度学习,阐述了其发展历史与现状,最后对深度强化学习DRL的发展进行了简述;(2)分析了强化学习的数学模型架构——马尔科夫决策过程,和贝尔曼最优解,并引出了强化学习的基础方法,值迭代方法和策略迭代方法,然后分析了无模型环境中基于值迭代法和策略迭代法的两种强化学习策略求解方法——蒙特卡洛方法与时序差分法。(3)根据前一章的策略迭代和时序差分方法,提出需要改进的基础方法确定性策略梯度算法,结合其优缺点提出本文的改进算法——双剪切策略梯度算法。分析Q估值网络所带来的的偏差问题以及更新累积误差问题,并提出双剪切Q学习、目标网络和延迟策略更新、以及目标策略平滑正则化三个改进措施。(4)在以GYM接口MuJoCo中的游戏作为环境平台,采用相同环境和网络结构,与同为策略迭代的算法进行性能比较,并对改进算法的不同部分进行一系列消融试验,对比算法的性能,最后对实验结果影响做出了探讨。(5)对本文内容进行了总结,并对确定性策略梯度算法出现的未解决问题进一步阐述,并提出对未来此算法改进与应用的展望。
其他文献
研究背景骨肉瘤是青少年较常见的恶性肿瘤,大部分发生于四肢,少见于其他部位例如颌面部,肋骨等。该病在手术结合化疗后5年生存率上升到70%。但已经转移或者治疗复发的骨肉瘤
以灭活的检测用抗原为材料,抽提灭活小反刍兽疫病毒的基因组RNA作为模板,根据参考文献及GenBank下载的序列,设计3对位于F基因的引物(2对为套式引物),进行RT-PCR扩增及扩增片段的T载
在瞬息万变的“泛媒体”时代。网络已成为信息资讯的集散地和社会舆论的放大器,其信息传播之快、范围之广、影响之深前所未有。工商机关网络舆情也被纳入了“泛媒体”评判的话
《普通高等学校商务英语专业本科教学质量国家标准》和《全国商务英语专业四级考试大纲》《全国商务英语专业八级考试大纲》的出台,为商务英语写作教材编写提供了指导和规范
随着近年来爆炸/冲击恐怖袭击以及意外事故的增多,建筑结构的防护安全成为研究的热点,其中以钢板混凝土组合结构形成的防爆墙受到工程界的重点关注。为此,本文针对拱形双钢板混凝土组合墙板在静力局部荷载下的破坏机理及其在爆炸荷载下的抗爆性能进行了试验与有限元数值仿真分析,具体研究内容如下:(1)设计制作了3个钢板厚度不同的拱形双钢板混凝土组合墙板结构,钢板间采用钢筋连接件进行拉结。采用半球型锤头,对拱形双钢
<正>1案例资料1.1简要案情王某,男,74岁,某日在路上行走时不慎被三轮车撞伤左髋部,伤后左髋部疼痛,活动受限,急送医院诊治,X线片示:左股骨粗隆间骨折。入院3d后行左粗隆间骨
隋代职官制度在中国政治制度史上具有重要地位,隋文帝、隋炀帝分别进行了一次官制改革,建立了三省六部制,改革武官制度、地方职官制度,又制定勋官、散官之号等,这一套完整的