针对异策略强化学习的优化算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：zwj54255

【摘要】

：

【作者】

：

贲松

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2021年01期

【关键词】

：

异策略强化学习采样策略稀疏回报环境路径积分

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习作为机器学习领域的重要分支之一,是一种通过在环境中不断试错从而得到最优策略的方法。而得益于深度学习近年来的发展,结合强化学习与深度学习所形成的深度强化学习成为了一个热门的研究领域,并在许多问题上取得了突破性的进展。在深度强化学习算法中,异策略强化学习算法凭借其对样本数据极高的利用率在部分问题上具有显著优势。但是由于真实环境中的控制问题往往极其复杂,获得经验样本的成本非常昂贵,而且现有强化学习算法往往具有收敛速度较慢、在稀疏回报环境中收敛效果较差等缺点,因此如何对异策略强化学习算法进行优化使其更加高效地学习到最优策略仍然是当下研究者们关注的重点问题。为了探索并优化异策略强化学习算法,使其更加高效地完成各种决策任务,本文结合已有的异策略强化学习算法,针对其在经验回放机制以及稀疏回报环境中所存在的问题进行研究,主要完成了以下工作:（1）一种针对异策略强化学习的样本采样策略。本文提出的针对异策略强化学习算法的样本采样策略着重于提高近端交互数据的采样频率,通过对近端交互数据和其余交互数据使用不同的采样策略代替了传统异策略强化学习使用的随机采样策略,并将优化后的算法用于多种仿真环境验证其有效性。（2）一种基于路径积分的回报重塑方法。本文提出一种利用路径积分对强化学习的回报值进行重新分配的方法,该方法以强化学习算法与环境交互的顺序作为积分路径,将积分路径上的回报进行重新分配,使得重新分配后的回报相较于原回报更加易于学习最优策略。并将该方法与已有的异策略强化学习算法结合,在多种仿真环境中进行实验后验证其有效性。本文针对异策略强化学习算法设计了两种优化算法,分别针对样本采样策略和在稀疏回报环境下的收敛能力进行优化,并在相应仿真环境中验证了算法的有效性。

其他文献

基于生成对抗网络的零样本学习

传统的图像分类任务在很大程度上取决于大规模的数据集,该数据集可为所有类别提供经过标记的样本。但是,在现实世界中,图像的类别遵循长尾分布,其中大多数类别很少出现,因此很难为这些类别收集大量标记的样本。另一个挑战是新定义类别的爆炸式增长,为这些新类别找到足够多的范例是非常困难的。近年来,为了解决这些类别的分类问题,零样本学习得到了广泛的研究。人类可以通过现有的知识动态地创建新的类,而不需要视觉数据。例

学位

零样本学习深度学习生成对抗网络图像分类语义迁移

基于特征激活的对抗攻击

随着基于深度学习的算法出现,各种计算机视觉应用都取得了令人瞩目的进步。但是,大量现有工作已经清楚地证明了深度神经网络（DNN）容易受到对抗样本的攻击。而对抗样本攻击就是在输入数据中添加细微的、人眼不易察觉的噪声,从而误导深度网络模型的预测。这些对抗攻击的存在有利于研究人员了解深度网络模型的脆弱性。目标攻击是指攻击方想要将模型预测结果改变为某些提前指定的目标类别中。而目标攻击又可以根据攻击者对于所攻

学位

深度学习计算机视觉对抗样本特征空间黑盒攻击可迁移性

基于语言描述的目标检测方法研究

自2012年深度卷积神经网络在分类任务上的成功以来,计算机视觉领域便迎来了蓬勃的发展。但是,随着研究的深入,计算机在关于视觉单一模态的众多任务中均已超过人类认知的能力。考虑到未来人机交互,联合传统计算机视觉和自然语言的一系列基本挑战逐渐受到研究者们的关注。在计算机视觉三大任务之一的目标检测的基础下,基于语言描述的目标检测在2014年被提出。基于语言描述的目标检测旨在通过物体的自然语言描述在对应图像

学位

跨模态检索基于语言描述的目标检测方法增量学习记忆力机制模块化

基于通道特征学习的生成对抗网络图像生成研究

生成对抗网络依靠其非监督的学习方式和强大的生成能力,自2014年提出以来就受到了人们的重点关注。GAN在不断提出新模型的同时也遇到了许多新的问题,其中远距离依赖关系拟合能力差,图像全局特征不一致及因此导致的生成图片质量差等问题不断出现,限制了GAN的进一步应用。本文围绕基于通道特征学习的生成对抗网络图像生成方法展开研究,提出了一种有效利用通道特征提高生成图片质量的方法。通过跟踪国内外相关领域的最新

学位

深度学习生成对抗网络图像生成注意力机制

基于神经网络的知识图谱推理关键技术研究

自2012年Google正式提出知识图谱概念以来,知识图谱已经在智能问答系统、推荐系统、垂直搜索服务、辅助决策系统等多个领域展现出丰富的实际应用价值,受到工业界和学术界的广泛关注。但目前知识图谱依旧面临着人工构建成本高、数据稀疏、信息不完善等缺陷,极大限制了知识图谱的应用能力。目前,如何对知识图谱进行高效的表示与推理依旧是研究工作的重点和难点。本论文针对现有研究方法对知识图谱图结构信息利用效率低、

学位

知识图谱神经网络链接预测注意力机制

基于深度学习的实体统一算法研究

数据集成是信息检索领域的一个关键性任务。其中,实体统一任务是数据集成的一个关键步骤,也称为实体匹配或重复记录检测。实体统一任务指的是,在不同来源的数据中,找出指向同一现实世界中的实体的数据记录。早期的研究主要是基于字符串距离的算法。这种无监督的方法缺乏有效性和泛化性,因为预定义的匹配阈值通常随着数据集的变化而变化,需要人工为不同的数据集设定阈值,缺乏泛化性。另一条研究分支是基于众包的实体统一算法。

学位

实体统一深度学习注意力机制自然语言处理

基于深度学习的自动文本摘要研究

随着大数据时代的到来,指数级增长的数据量使得人们淹没在数据文海之中,如何能在浩如烟海的文本之中提炼所需要的信息变得格外重要。自动文本摘要是指利用概率统计、机器学习、深度学习、神经网络等,从文本中提取主旨信息,挖掘关键信息,将文本的主要信息凝缩成简洁表示的摘要。目前在新闻标题生成、文本检索、知识问答等方面得到广泛应用。序列到序列模型是自然语言处理中用途最广泛的模型,一般由编码器和解码器两大部分构成。

学位

文本摘要深度学习注意力机制非似然训练吉布斯采样

基于张量网络的机器学习模型研究

近些年来,许多高维数据在不同的领域中产生。这些高维数据不易用传统方法处理,但迫切需要从这些数据中分析潜在的信息和模式。但是现在的机器学习模型更多地采用矩阵形式,这样会使得我们处理数据需要对数据特征进行向量化处理。对于多元之间的的信息融合和共享,采用矩阵运算表示会很复杂,而张量多线性表示其本身是更加自然的描述。描述张量多线性操作的图示,即张量网络由于其表达的便捷性,现在越来越流行。因为很多低秩的张量

学位

张量网络张量环分解神经网络多任务学习受限玻尔兹曼机

基于强化学习的交互式任务规划算法研究

任务规划技术在现实生活中应用十分广泛。任务规划算法通常在给定有限的子任务空间下进行子任务安排,进而得到一条可以满足业务需求的任务流程。目前,基于开放性空间的任务规划求解问题成为研究热点。但这类方法因开放性解空间的原因,对于交互性和动态调整性提出了需求,用户需要在任务规划阶段交互式参与解决方案的调整。为此,论文以代码模块组合任务规划为典型场景,将代码模块组合任务规划分解为代码搜索与代码组合两部分,解

学位

任务规划代码搜索代码模块组合强化学习

基于图神经网络的多标签图像分类研究

随着信息科学技术的发展,图像已经深入人们生活的方方面面,图像中的内容也越来越复杂。多标签分类比单标签分类更能准确的描述图像中的内容,因而得到广大研究者的关注,并成功应用在智能管理相册、自动驾驶、广告推荐和视频监控等领域中。为了进一步提高多标签图像分类的效果,本文提出了基于语义空间注意力机制的多标签图像分类模型和基于语义通道注意力机制的高分辨率分类模型,具体的研究内容如下:（1）提出了基于语义空间注

学位

标签相关性矩阵的构建注意力机制多标签图像分类高分辨网络

针对异策略强化学习的优化算法研究

与本文相关的学术论文