基于情景记忆的量子深度强化学习

来源 :电子科技大学学报 | 被引量 : 0次 | 上传用户:pingerk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为量子机器学习的一个新兴子领域,量子深度强化学习旨在利用量子神经网络构建一个量子智能体,使其通过与环境进行不断交互习得一个最优策略,以达到期望累积回报最大化.然而,现有量子深度强化学习方法在训练过程中需要与经典环境进行大量交互,从而导致大量多次调用量子线路.为此,该文提出了一种基于情景记忆的量子深度强化学习模型,称为量子情景记忆深度Q网络,该模型利用情景记忆来加速量子智能体的训练过程.具体来说,该模型将历史上出现的拥有高奖励值的经验记录到情景记忆中,使得在当前环境的状态与情景记忆中的某状态相似时,量子智能体可以根据该历史状态快速地获得想要的动作,从而减少了算法优化的迭代次数.在5个经典的雅达利游戏上的数值模拟表明,该文提出的方法可以显著地减少训练量子智能体的迭代次数,进而可以获得比其他量子深度强化学习方法更高的分数.
其他文献
为保障农民宅基地和集体建设用地的使用权及房屋所有权,国内许多城市已开展农村房地一体权籍调查确权登记发证工作.但是当前农村宅基地管理工作不规范,权籍调查成果质量较差,成为制约房地一体确权登记工作的瓶颈.本文基于GIS、倾斜摄影、移动互联等先进技术,在深入了解实际需求的基础上,提出了搭建农村房地一体权籍管理平台的解决方案,并阐述了平台实现的关键技术,实现了农村宅基地和集体建设用地数据录入、编辑、展示、查询和统计等功能,为农村房地一体信息化管理提供支持.
零中频架构近年来得到广泛应用,但是该架构中的同相/正交(I/Q)失衡问题严重影响接收信号的质量.通过后端补偿算法消除I/Q失衡是最为有效的手段之一,然而现有文献对宽带系统I/Q失衡中时间失配(TM)误差的研究不够全面.该文建立了一种包含TM误差的宽带I/Q失衡增广误差模型,首先基于数据辅助型方法对失衡误差进行估计,采用多项式拟合的方法将相位失衡误差进行分解,基于分解后的失衡误差设计了一种基于非线性相位的实数有限脉冲响应(FIR)滤波器的补偿结构对各项失衡误差进行补偿.根据最小二乘(LS)的思想选择最优的延