改进的DDPG对话策略优化算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:show_me_the_money
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法来优化对话策略。在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其适用于离散动作空间任务;在环境方面,引入一个环境模型(又称世界模型)来模拟真实用户提问;在整个训练过程中,代理分别与用户模拟器和世界模型交互,结合规划交替使用真实用户经验和模拟用户经验,改进对话策略。实验结果表明,该方法能够加快模型的收敛速度
其他文献
针对整路监控视频采用传统无差别加密方式带来的密钥存储开销大、安全性低以及用户间操作管理复杂问题,提出一种基于等级树的多级密钥管理方案。根据根密钥与等级树结构进行
以刨花板为研究对象,分析不同刨花板素板供方、素板环保等级、压贴时晾板时间和压贴后板材养生时间对刨花板气味等性能的影响。分别选用2家刨花板素板供方的E0级(甲醛释放量
针对复杂场景下GPS信号失锁导致的INS/GPS组合导航系统定位精度严重下降问题,提出基于GRU (门控循环单元)循环神经网络辅助的方法。在GPS信号锁定的情况下,使用GRU循环神经网络对IMU传感器数据、组合导航信息、GPS信息进行训练;GPS信号失锁后,利用训练好的模型进行预测,继续补偿INS结果。通过实际跑车采得的数据进行验证,在GPS信号失锁时,使用GRU循环神经网络辅助相较于纯惯导系统精
针对聚丙烯腈高易燃性且产生大量有毒气体的缺点,利用植酸铜阻燃改性聚丙烯腈。首先选取植酸与乙酸铜制备植酸铜螯合物,并利用共混法制备植酸铜/聚丙烯腈改性膜;采用燃烧测试
患者女性,48岁。主因反复眩晕发作3天,于2020年3月11日入院。患者入院前3天劳累后出现眩晕、视物旋转,伴恶心、呕吐。眩晕反复发作,转头及起立后明显,休息后逐渐缓解,每次发
针对有向拓扑图下一类控制方向未知的非仿射非线性多智能体系统的输出一致性问题,综合运用中值定理、RBF神经网络及其特性、Nussbaum增益函数方法和动态面控制技巧,提出一种
介绍了以低密度聚乙烯和木纤维为主要原料制造木塑复合纤维板的生产工艺,研究了木塑比例、偶联剂加入量、热压温度及热压时间对木塑复合纤维板力学及防水性能的影响。
为了提高二硫化钼催化水电解析氢的性能,采用钼酸铵和还原性磷钼酸铵(rPOM)两种不同的钼源,以硫代乙酰胺为硫源,制备片状和花球状两种形貌的MoS2电催化剂,并通过物理表征与电
为了改善SnO2-MoO3-x纳米复合材料在锂离子电池负极中的性能,通过水热法制得SnO2-MoO3-x/CNTs纳米复合材料,并研究CNTs的含量对纳米复合材料性能的影响;通过XRD与SEM对所得纳
就板坯制备工艺对采用木质素胶黏剂制备刨花板进行试验研究,通过设计正交试验,获取和分析所制备刨花板的物理力学性能,探讨制板工艺过程对木质素胶黏剂刨花板性能的影响。试