基于近端策略优化与对抗学习的对话生成方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:pentagon888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对话生成是自然语言处理的重点研究方向。随着深度学习的兴起,对话生成得到了较快的发展。但是还存在一定的挑战,首先,生成回复的文法结构可能不正确,不符合人类的语法;其次,容易产生无聊并且没有信息量的回复;最后,会面临对话没有上下文相关性的问题,得到与语境不符的回复。本文提出一种基于近端策略优化PPO的对话生成方法PPO_GAN。该方法采用对抗生成网络GAN的框架,其中生成模型用于生成对话,判别模型用于区分生成的对话与真实的对话。并采用近端策略优化的方法训练对抗生成网络,能处理对抗生成网络在对话生成时导致的反向传播不可微分的情况,在保证生成模型单调非减训练的同时,通过限制生成模型迭代的梯度使判别模型得到的奖励可以重复利用。本文的主要工作有:1)训练了一个带有注意力机制的序列到序列模型,作为对抗生成网络的生成模型,用于生成对话;2)训练了一个层次神经网络,作为对抗生成网络的判别模型,用于区分真实的对话和生成模型生成的对话;3)利用近端策略优化算法迭代训练对抗生成网络,并在对抗训练的过程中,利用蒙特卡洛算法计算每个单词的奖励。本论文的创新之处是:在模型训练方式上进行了改进,利用对抗生成网络的架构,结合强化学习方向的进展,提出的对话生成方法PPO_GAN。该方法对比于开放领域对话生成的经典算法极大似然估计,其拥有判别模型可以更好地指导对话生成的训练;对比于最近提出的对抗训练方法AdverREGS,其不仅通过优化带有惩罚项的代理目标函数来得到生成模型参数更新的方向和步长,保证了生成模型的训练是单调非减的,而且通过生成模型自适应的多次迭代,提高了判别模型返回奖励的利用率。本文使用了开放领域对话生成模型训练的通用数据集,通过训练时损失的收敛速度评估了训练的效率,并且通过困惑度、无聊响应出现的频率以及对话生成的示例评估了对话生成的质量。对比于开放领域对话生成训练的极大似然估计算法与Adver-REGS算法,PPO_GAN算法提高了对话训练的效率并且改善了对话生成的质量。
其他文献
目的:探讨转染金属蛋白酶抑制剂-1(Tissue inhibitor of metalloproteinase-1,TIMP-1)si RNA的成纤维细胞(fibroblasts,FB)在组织工程尿道中的应用效果。材料与方法:制备小肠
随着互联网的普及,信息系统与它们所支持的运作流程越来越紧密的结合在一起,越来越多的公司和组织使用流程模型进行流程的结构化和文档化。因为流程模型拥有复杂的语义、多样
随着计算机视觉的发展,物体检测已经成为很多视觉任务的研究基础。在物体检测的范畴中,因为动物头像种类繁杂、同一种动物可变形特征多的特点,动物头像的检测一直是较复杂的一类任务。主动基础模型是一个在少样本学习条件下,检测能力依旧表现良好的模型,但针对动物头像的检测还需进行一些改进。该模型在Gabor特征提取时对于Gabor滤波器的参数设置不能保证对每个类别都是最优状态,若更换检测内容,Gabor滤波器的
目的:BAP1是一个去泛素化酶,可通过去泛素化作用调控蛋白稳定性。文献报道BAP1在透明细胞肾癌中发生高频突变(约15%),并且BAP1突变的肿瘤患者更容易出现侵袭性病变和不良预后
随着长春市新中考改革的政策实施,初高中地理教学的衔接问题日益受到地理教师的重视。初中教师在讲授地理教材过程中,不但要针对新中考要求进行系统讲授,同时要考虑到高中教学衔接问题,便于日后学生升入高中对高中地理知识的吸收。初高中地理教学之间的有效衔接直接影响到高中地理教学的效果。本论文紧密结合中学地理教学实际,以长春市A中学为研究样本,通过问卷调查法、文献法、比较分析法、定性和定量相结合等方法,对初高中
背景:精索静脉曲张(VC)是导致男性不育最常见的原因,其中35%的男性患者表现为原发不育而80%表现为继发不育。导致VC常见的原因有:缺氧、热刺激、增强的氧化应激反应、自身免
随着国际油价低位运行的常态化,油田企业纷纷调整发展战略,优化业务结构。考核模式从以产量为中心向以效益为中心转变。为适应油田企业转型发展,本文以效益配产为抓手,探讨一
近年来随着传感器成像技术的快速发展,成像质量不断提高。不同成像传感器对目标特征的兴趣点有所不同,为了得到目标特征更加全面的表达,多传感器图像融合得到了快速发展。多传感器图像融合可以克服单个传感器提供信息不足的缺点,通过将单传感器的优势信息进行互补,融合得到一幅信息更丰富、内容更全面的高质量图像。多尺度变换能够较好地提取源图像中的结构信息,稀疏表示可以获得源图像的稀疏降维表示。基于此,本文结合多尺度
本翻译项目由原文、译文和翻译报告三部分构成。翻译材料选自印度作家萨曼斯·苏布拉曼的《以鱼窥海:我的印度美食和文化之旅》。该书基于作者在印度旅行期间对于印度社会的观察写成,是一部纪实作品,通过此书,读者可以真切地了解印度的社会和文化。本翻译项目选取第五章和第七章进行翻译,这两章分别描述了印度鱼类美食和印度海岸严重的生态污染问题。本翻译项目大体采用纽马克的交际翻译理论作为翻译过程的指导理论和翻译成果的
随着我国市场经济的愈发活跃,以及政府职能的转变,行业协会也逐渐在我国一些行业的发展过程中扮演着重要的角色。其中,官办行业协会是基于我国国情所形成的一种特殊的类型,在实践中展现了不同于普通行业协会的鲜明特点。它们往往具有“二政府性”且占据了行业中的垄断地位。而这些行业协会为了维护行业协会利益和行业纪律,一般也会规定对会员的处罚措施,这在实践中也产生了一些行业协会成员因不服行业协会所作处罚而引发的纠纷