改进的DDPG对话策略优化算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户：show_me_the_money

【摘要】

：

针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法来优化对话策略。在代理方面,

【作者】

：

赵崟江李艳玲林民

【机构】

：

内蒙古师范大学计算机科学技术学院

【出处】

：

计算机工程与设计

【发表日期】

：

2021年2期

【关键词】

：

对话策略优化代理 DDPG算法世界模型用户模拟器规划 dialogue strategy optimization agent DDPG algorit

【基金项目】

：

国家自然科学基金项目(61562068、61806103),内蒙古自然科学基金项目(2017MS0607),内蒙古民委蒙古文信息化专项扶持子基金项目(MW-2014-MGYWXXH-01)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对任务型对话系统缺少大规模真实训练数据的问题,提出一种结合规划的离散深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法来优化对话策略。在代理方面,改进经典DDPG训练算法中actor网络的输出结构和损失函数,使其适用于离散动作空间任务;在环境方面,引入一个环境模型(又称世界模型)来模拟真实用户提问;在整个训练过程中,代理分别与用户模拟器和世界模型交互,结合规划交替使用真实用户经验和模拟用户经验,改进对话策略。实验结果表明,该方法能够加快模型的收敛速度

其他文献

监控视频中多级密钥派生研究与实现

针对整路监控视频采用传统无差别加密方式带来的密钥存储开销大、安全性低以及用户间操作管理复杂问题,提出一种基于等级树的多级密钥管理方案。根据根密钥与等级树结构进行

期刊

监控视频无差别加密等级树多级密钥管理等级密钥派生surveillance videono difference encryptionhierarc

压贴工序对刨花板家具气味优化研究

以刨花板为研究对象,分析不同刨花板素板供方、素板环保等级、压贴时晾板时间和压贴后板材养生时间对刨花板气味等性能的影响。分别选用2家刨花板素板供方的E0级(甲醛释放量

期刊

刨花板素板气味压贴particleboardplain boardodorpress

基于GRU循环神经网络辅助的组合导航算法

针对复杂场景下GPS信号失锁导致的INS/GPS组合导航系统定位精度严重下降问题,提出基于GRU (门控循环单元)循环神经网络辅助的方法。在GPS信号锁定的情况下,使用GRU循环神经网络对IMU传感器数据、组合导航信息、GPS信息进行训练;GPS信号失锁后,利用训练好的模型进行预测,继续补偿INS结果。通过实际跑车采得的数据进行验证,在GPS信号失锁时,使用GRU循环神经网络辅助相较于纯惯导系统精

期刊

组合导航全球定位系统/惯性导航系统卡尔曼滤波GPS失锁GRU循环神经网络integrated navigation systemGPS/INSKa

植酸铜/聚丙烯腈改性膜的制备及阻燃性能

针对聚丙烯腈高易燃性且产生大量有毒气体的缺点,利用植酸铜阻燃改性聚丙烯腈。首先选取植酸与乙酸铜制备植酸铜螯合物,并利用共混法制备植酸铜/聚丙烯腈改性膜;采用燃烧测试

期刊

聚丙烯腈膜植酸铜抑烟热稳定性阻燃机理polyacrylonitrile membranecopper phytatesmoke suppressi

前庭性偏头痛一例

患者女性,48岁。主因反复眩晕发作3天,于2020年3月11日入院。患者入院前3天劳累后出现眩晕、视物旋转,伴恶心、呕吐。眩晕反复发作,转头及起立后明显,休息后逐渐缓解,每次发

期刊

偏头痛前庭迷路眩晕病例报告Migraine disordersVestibulelabyrinthVertigoCase reports

非仿射多智能体系统的自适应神经网络控制

针对有向拓扑图下一类控制方向未知的非仿射非线性多智能体系统的输出一致性问题,综合运用中值定理、RBF神经网络及其特性、Nussbaum增益函数方法和动态面控制技巧,提出一种

期刊

非线性系统多智能体系统未知控制方向神经网络自适应控制nonlinear systemsmulti-agent systemsunknown con

木塑复合纤维板生产工艺研究

介绍了以低密度聚乙烯和木纤维为主要原料制造木塑复合纤维板的生产工艺,研究了木塑比例、偶联剂加入量、热压温度及热压时间对木塑复合纤维板力学及防水性能的影响。

期刊

木塑复合纤维板低密度聚乙烯界面复合防水性能wood-plastic composite fiberboardlow density polyethyl

不同形貌MoS2电催化剂的制备及其析氢性能

为了提高二硫化钼催化水电解析氢的性能,采用钼酸铵和还原性磷钼酸铵(rPOM)两种不同的钼源,以硫代乙酰胺为硫源,制备片状和花球状两种形貌的MoS2电催化剂,并通过物理表征与电

期刊

二硫化钼还原性磷钼酸铵硫边缘位点尺寸小析氢反应molybdenum disulfidereduced polyoxometalatesS-edge

SnO2-MoO3-x/CNTs纳米复合材料在锂离子电池负极中的性能

为了改善SnO2-MoO3-x纳米复合材料在锂离子电池负极中的性能,通过水热法制得SnO2-MoO3-x/CNTs纳米复合材料,并研究CNTs的含量对纳米复合材料性能的影响;通过XRD与SEM对所得纳

期刊

锂离子电池负极材料SNO2MoO3-x碳纳米管纳米复合材料lithium ion batteryanode materialSnO2MoO3-

喷水工艺对木质素胶黏剂刨花板性能影响的研究

就板坯制备工艺对采用木质素胶黏剂制备刨花板进行试验研究,通过设计正交试验,获取和分析所制备刨花板的物理力学性能,探讨制板工艺过程对木质素胶黏剂刨花板性能的影响。试

期刊

刨花板制板工艺物理力学性能particleboardmanufacturing technologyphysical and mechanical p

改进的DDPG对话策略优化算法

其他学术论文