基于强化学习的开放领域聊天机器人对话生成算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sdcwsjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大规模深度学习算法的发展使得聊天机器人不再仅仅依靠模板匹配与检索等方式,生成式对话算法逐步成为可能。与检索式聊天机器人相比,生成式的聊天机器人的迁移性与泛化性更佳,拥有着更广阔的应用场景。本文主要关注开放领域的聊天机器人,区别于特定任务的聊天机器人,开放领域下的聊天机器人其目标不是为了尽快完成用户指定的任务,而是吸引并留住用户令其有兴趣与机器人继续交谈。本文首先对生成式聊天机器人领域主流的基于RNN的Encoder-Decoder算法模型进行实验,同时对比了LSTM和GRU等不同的神经网络单元对结果的影响,随后加入attention注意力模型机制提高了生成效果,而后又采用了beam search方法提升生成效果的多样性。由于目前seq2seq的生成式算法在输出时采用最大似然估计方法,极易产生大量无实际意义的安全回复。为解决这个问题,本文采用强化学习的方法评估对话的未来奖励,不再是针对当前输入选择对应的最大可能回复,而是评估其对未来对话的奖励,以促进聊天持续发展。同时本文认为一个更为智能的机器人应具有情感色彩,故本文在强化学习的奖励函数上,除对生成的语句流畅性等方面进行检测并将其作为奖励外,还加入了对候选句的情感检测,以期令聊天机器人尽可能选择对未来对话情感指数有提升的候选句,有效地延续对话。本文还将情感信息作为监督信号加入到生成过程中,从语料中学习聊天过程的情感转移分布,并将该分布作为监督信号指导聊天机器人回复,使其产生蕴含情感的语句。最后,通过自动评价结合人工评价的方式,本文就上述几种方法进行了对比,验证了所提出模型方法的有效性。
其他文献
运用依托芬那酯凝胶外用加局部艾灸治疗难治性肱骨外上髁炎,10 d 1疗程,3个疗程后30例患者优良率为83.33%,随访3个月总有效率66.67%.
管理会计有别于一般的财务会计,其作用不仅在于加强企业基础性会计工作质量,更在于借助管理会计协调企业内部各管理部门良性运作,实现对企业发展的全面促进作用。饲料加工企
为能够从理论上建立起具有尺度独立性的机械结合面法向接触刚度的理论模型 ,从而解决以往研究工作存在的缺陷与不足 ,在一定的假设下 ,基于球体与平面的赫兹接触理论和接触分
城镇化是历史发展的必然阶段,积极稳妥的新型城镇化是扩内需的最大潜力,也是稳增长的最大动力。党的十八大报告提出,坚持走中国特色新型工业化、信息化、城镇化、农业现代化道路
报纸
植物作为地球生态环境的重要组成部分和天然的有机物质合成工厂,不仅为人类和动物们提供栖息地、抵御自然侵害的屏障以及食物,而且还与周围生物和非生物保持有物质甚至是非物
为了对某型号机床床身主轨直线度的加工一致性进行研究,采用过程能力指数对床身过程能力现状进行评价,并采用多元线性回归和方差分析的方法对夹紧力矩、温度以及导轨面硬度等
<正> 1996年6月-2002年10月,我们用加减麻黄附子细辛汤治疗病态窦房结综合征(简称病窦综合征)60例,并与用心宝治疗的30例作对照,现报道如下。
<正>【本刊讯】近日,记者从苏州教育系统平安建设调研座谈会上获悉,去年以来,苏州市平安校园建设和学校周边综合治理等工作取得了显着成效,"平安学校"创建已做到了全覆盖,全