【摘 要】
:
强化学习是机器学习领域中主要的研究方向之一,研究的是如何使智能体通过和环境交互以改善自身的行为。随着监督学习和优化技术的发展,如何使用监督学习算法或优化方法在强化
论文部分内容阅读
强化学习是机器学习领域中主要的研究方向之一,研究的是如何使智能体通过和环境交互以改善自身的行为。随着监督学习和优化技术的发展,如何使用监督学习算法或优化方法在强化学习问题中直接搜索到一个最优策略,近年来得到了越来越多的研究者的关注。本文尝试对此类方法进行研究,主要取得了以下创新成果:第一,提出了基于弱策略自学习的强化学习方法LEWE,通过让智能体从自主探索获取的示范数据中学习以提高弱策略。实验结果表明LEWE显著提高了弱策略的性能。第二,提出了针对泛函策略方法的快速强化学习方法Napping,通过随机森林二次学习,在模型复杂度相当甚至更小的情况下,提升策略的性能。实验结果表明该方法不仅显著提升了泛函策略方法的性能,而且还降低了其训练和测试阶段的时间开销。第三,提出了元策略学习方法MAPLE,通过在策略建模时考虑环境参数对策略的影响以提升策略对不同环境的适应能力。实验结果表明该方法学习到的策略可以很好地适应同分布下的环境变化。第四,在浇花小车演示系统中,对上述方法进行了验证。
其他文献
宋代深鉴唐末、五代之弊,形成了独具特色的军事刑罚制度。宋代军事刑罚不仅包括宋代一般性的刑罚种类,而且有其特殊的小杖制。宋代在实施军法的过程中,还存在法外之刑,以及缘坐之
近十几年以来,复杂网络理论的异军突起和强力发展给人们提供了观察世界、理解世界的新视角和新工具。而事实上,绝大多数现实世界的复杂性系统,包括社会系统、信息系统、生物
视频中人的动作分析是通过图像处理和模式识别对视频中人进行检测、跟踪、识别,人的动作识别是判定视频中人正在做那个动作。视频监控为人的动作识别最为重要的应用且已经广泛
库切是一位享有国际声誉的作家,在南非乃至世界文坛均占有特殊地位。库切自荣获2003年诺贝尔文学奖以来,一直受到国内学者的持续关注。通过梳理我国十多年来的库切研究成果,
组合导航系统作为导航系统的发展方向之一,在航空、航海、武器等领域受到越来越大的重视。两种或多种导航系统的组合以及相同系统不同方式之间的组合成为国内外的研究热点。
近年来,以股票,房地产为代表的资产价格波动已经成为影响全球经济金融稳定的重要因素。在我国,随着金融体系不断完善,中央银行动用货币政策工具调控宏观经济愈加频繁,操作力
在社会越来越重视防范信用风险的今天,信用评级成为投资领域提高信用风险管理能力的重要技术手段。为了提高信用评级的准确性,信用评级应结合企业所处行业的经营特点来进行,
<正>根式型柯西不等式:设ai,bi∈R(i=1,2,3,…,n),则|a1b1+a2b2+…+abbb|≤a12+a22+…+an21/2b12+b22+…+bn21/2(★),当且仅当ai=λbi时等号成立.柯西不等式是高中数学中新引入的
尽管环境视觉感知领域有深厚科研积累,但由于系统性理论及实证缺乏、感受信息采集失真、缺乏实景信息互动等问题,景观视觉规划设计实践仍然相对薄弱。本文以美国景观视觉资源
竞争性的科技领先导致现代性危机频繁爆发。现代社会危机表现形式更加复杂和多样化,危机研究日益成为当前学术研究一个主要的领域。在风险社会及信息高速传播的媒介社会背景下