基于抽象的强化学习算法及其量子化

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:bruce_8_8_8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习定义了仅通过行动和观察学会做出良好决策的智能体所面临的问题。为了成为有效的问题解决者,此类智能体必须有效地利用有限的数据、计算资源和感知带宽来探索广阔的世界,从延迟的反馈中获得贡献度(credit),并归纳出新的经验。对于这些任务来说,抽象(abstraction)是必不可少的。通过抽象,智能体可以形成环境的简洁模型,以满足一个合理的、自适应的决策者的许多实践需求。最近,量子计算技术成功应用于强化学习领域。基于量子叠加和量子纠缠特性,与传统强化学习相比,量子强化学习在更大的搜索空间上表现更好,学习速度更快,并且在探索和利用之间达到了更好的平衡。本文提出了新的基于抽象的经典强化学习算法和量子强化学习算法。通过学习抽象,算法能够帮助智能体更快的探索环境,更准确的学习策略以及将学习到的策略更好的泛化到新的任务。本文的主要内容和创新点如下:一、提出了一种新的动作抽象生成方法,即最小度数和最大距离(MDMD)选项,通过减少环境的期望覆盖时间来加速智能体在稀疏奖励域中的探索。具体地,本文提出的方法启发式地选择状态转移矩阵的两个不相邻的具有最小度数和最大距离的顶点作为动作抽象。与其他动作抽象生成方法生成的动作抽象相比,MDMD选项方法生成的动作抽象可以实现更低的环境期望覆盖时间,从而更好地加速智能体在稀疏奖励域中的探索。在几个稀疏奖励环境上的实验结果表明,该方法显著地加速了智能体在稀疏奖励域中的探索并且获得了比其他动作抽象生成方法更高的总累积奖励。二、提出了Wasserstein确定性信息瓶颈状态抽象(WDIBS)方法,该方法学习一种状态抽象来实现状态压缩和决策性能之间的最佳权衡。具体来说,通过使用Wasserstein距离来计算状态压缩后的策略与专家策略之间的分布差异。即使两个分布没有精确重叠的支持集,Wasserstein距离仍然可以反映它们的实际差异,确保WDIBS在低信息率下具有良好的决策性能。理论分析和实验表明,该方法实现了比先前的方法更好的状态压缩和决策表现之间的均衡。三、提出了一种基于情景记忆的量子深度强化学习模型,称为量子情景记忆深度Q网络,该模型在使用状态抽象对原始状态空间的状态进行压缩的同时利用情景记忆来加速量子智能体的训练过程。具体来说,该模型将历史上出现的拥有高奖励值的经验记录到情景记忆中,使得在当前环境的状态与情景记忆中的某状态相似时,量子智能体可以根据该历史状态快速地获得想要的动作,从而减少了算法优化的迭代次数。在五个经典的雅达利游戏上的数值模拟表明,该方法获得了比其他量子深度强化学习方法更高的分数和更低的算法运行时间。四、提出了基于梯度惩罚的Wasserstein对抗近端策略优化(GPWAPPO)方法,该方法使用近端策略优化算法(PPO)算法学习匹配原始域和目标域之间的状态抽象来实现强化学习中的视觉迁移。关键地,为了强化利普西茨约束,该方法引入了一个源任务和目标任务的相对输入的梯度范数,增强了算法的稳定性。通过在Visual Cartpole和16个Open AI Procgen环境中进行实验验证,本文提出的方法比先前的基于强化学习的视觉迁移方法获得了更好的性能。五、提出了一种基于具有回卷功能的可信赖近端策略优化的量子结构搜索算法(QAS-TR-PPO-RB),该方法在仅使用少量物理知识的情况下就可以自动构建量子电路结构。具体来说,该方法采用改进的裁剪函数来实现回卷行为,以限制新策略和旧策略之间的概率比。此外,该方法使用基于可信赖域的裁剪触发条件,通过将策略限制在可信赖域内来优化策略,从而保证单调改进。在几个多量子比特电路上的实验表明,本文提出的方法比原来的基于强化学习量子的结构搜索方法实现了更好的策略性能和更低的算法运行时间。
其他文献
山杜英种子易脱水、萌发困难,严重阻碍了种群更新繁殖。基于此,以赤霉素、氯化钙、硼酸、多效唑、硫酸为催芽药剂,通过正交试验设计设置了18个不同药剂组分催芽处理,分析了不同催芽处理对山杜英种子发芽率、发芽势、发芽率时间动态及幼苗高径生长的影响。结果表明:不同药剂处理下,山杜英种子发芽与幼苗生长差异显著。其中,硼酸对山杜英种子发芽率影响最大,赤霉素能有效提升山杜英种子发芽势。初步认为,以50 mg/L赤
ZnO是第三代半导体的代表之一,可作为紫外光致发光与多共振模式激光的载体,尤其以光学气化过饱和析出法(OVSP)制备的ZnO微米晶近年来在光催化、高效多彩光源、高效电致发光等方面显示出重要优势,但其制备成本较高、生产效率低下,阻碍了其大规模器件化的发展。针对上述问题,基于有限元分析的结果,设计并搭建了一套工作波长在1 080nm,功率18%(@2500W)激光加热的微米晶生长装置。以ZnO为原料验
期刊
冯玉祥因善“以乐治军”而闻名,中国共产党在协同国民党左派争取、联络和改造冯玉祥部的过程中,曾效仿南方国民革命军的政治宣传工作,有效利用音乐在国民军中开展反帝、反封建、反军阀的政治宣传,鼓动冯玉祥部官兵参与工农运动,并增强其爱国意识与革命意识。五原誓师后,在中国共产党的积极影响下,冯玉祥部对旧军歌进行了改造,并创作了一批新军歌,在官兵和驻地群众中组织革命音乐活动,宣传爱国、宣传革命,支持北伐战争。大
<正>组织或器官纤维化是多种疾病的基本病理改变,临床中较为常见的包括肺纤维化、肝纤维化、肾纤维化和心肌纤维化等。白细胞介素6(interleukin-6,IL-6)/Janus激酶(Janus kinase,JAK)/信号传导及转录激活蛋白3(signal transducer and activator of transcription 3,STAT3)信号通路是参与调控细胞分化和增殖等生物学功
随着我国经济的飞速发展,我国高速公路企业取得了显著的经济效益和社会效益,但债务负担加重、产业结构单一、市场化竞争不强等问题也日渐凸显出来,部分企业面临发展困境和转型升级的挑战。文章通过分析行业政策变化和发展态势,制定实现转型升级的思路和目标,提出了加速发展路域经济、盘活存量土地资产和加快发展数值化交通等推进措施。
目的分析育龄期女性卵巢储备功能下降(DOR)的影响因素,为预防DOR提供参考。方法选择2021年1月—2022年6月宁波市妇女儿童医院妇科门诊就诊的患有DOR的18~40岁女性纳入DOR组,同期体检正常的18~40岁女性纳入正常组。通过问卷调查收集2组对象基本信息、运动、饮食、既往病史、生育情况和月经状况等;实验室检测卵泡刺激素(FSH)、黄体生成素(LH)、抗米勒管激素(AMH)和雌二醇(E2)
当前的能源冗余能耗数据监测方法存在资源消耗高、准确率低、响应时间慢的问题。为此研究新的建筑再生能源冗余能耗数据监测方法。采用Zig-Bee无线网络技术,采集建筑再生能源冗余能耗数据,通过改进的肖维涅算法,剔除误差数据。并利用分布图法填补剔除数据。经传感器数据融合方法融合、压缩数据中正常部分,提高数据传输速度;结合滑动窗口局部事件监测算法,实现融合、压缩后的建筑再生能源冗余能耗数据监测。实验结果表明
在实际生产过程中,带钢打卷后在端部往往会出现一系列缺陷,对缺陷进行人工检测已不能适应发展需求。基于机器视觉检测原理,开发了钢卷端面三维缺陷自动检测系统。介绍了这一自动检测系统的硬件平台、检测算法和软件功能。这一自动检测系统可以实现钢卷端面形貌的自动扫描,进行缺陷检测与分类,能够有效提高检测效率。
园艺花卉是城市景观中的重要组成部分,花卉的后续养护管理决定着花卉观赏价值的体现,尤其是病虫害防治工作更应当做好。文章通过分析园艺花卉病虫害发生的特点,进一步分析其常见病虫害与对应的防治技术。