融合翻译记忆的神经网络机器翻译方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yuyuxinmi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近几年,神经网络机器翻译的研究十分火热,经过几年的发展,其性能就大大超过统计机器翻译,在通用领域特别是某些特定领域,神经网络机器翻译已有许多应用场景。基于翻译记忆的神经网络机器翻译研究也取得了一定的成果,且还有不少提升空间,因此,研究如何结合神经网络机器翻译和翻译记忆,使我们的机器翻译吸收翻译记忆的优势,这对于提升机器翻译的翻译质量,具有重要的理论意义。借助于翻译记忆,这对提高机器翻译的线上服务能力,从而推动机器翻译在各特定领域的应用,具有重要的应用价值。本文首先介绍神经网络机器翻译和翻译记忆的特征,探讨融合二者的重要性。经过分析前人的融合方法之后,我们提出了两种融合方法和一种融合模型。我们的研究工作是以神经网络机器翻译为基础,除了在基于翻译片段的融合方法上进行了探索,我们还提出了一种新的融合翻译记忆到神经网络机器翻译的模型,以及一种新的训练方式来解决模型训练中的鲁棒性问题。论文的主要贡献如下:1.提出了一种位置敏感的翻译记忆融合方法。该方法完善了以翻译片段为单位的融合方法。已有的以翻译片段为单位的融合方法,只捕获了翻译记忆中局部的上下文信息。当测试句子与其翻译记忆非常相似时,已有的融合方法也不能生成高质量的翻译结果;特别地,即使测试句子的参考译文包含在翻译记忆中,这些方法也不能得到完美的翻译质量。为此,本文提出了一种位置敏感的翻译记忆融合方法。该方法从翻译记忆中捕获了更多上下文信息,同时保持以翻译片段为单位的融合方法的高效性。我们在基于Transformer的神经网络机器翻译系统上对我们提出的方法进行验证。在7个翻译任务上的实验表明,该方法在翻译质量(BLEU)上优于同类基线系统,同时该方法的运行速度保持高效性。2.提出了一种基于双链图的翻译记忆融合方法。以翻译片段为单位的融合方法有两个关键问题,一是哪个单词应该在解码阶段被奖励输出,二是应该给这个匹配的单词多少的奖励值。因此我们提出了一种新颖有效的包含单词链和位置链的双链图结构,来利用翻译记忆中知识,用以在翻译记忆中捕获更多的上下文信息,同时实现更高的解码效率。我们将该方法应用于Transformer来证明它的有效性,且该方法优于基线系统。3.提出了一种新的基于翻译记忆的神经网络机器翻译模型,该模型在翻译准确性和效率上都显著优于已有实用模型。在实际机器翻译应用中,对模型响应速度要求较高,而目前已有的基于翻译记忆的神经网络机器翻译系统,有的训练和解码时间比较长,有的过程特别复杂,这些都阻碍着将翻译记忆应用到实际线上系统中;又由于神经网络具备超强的拟合能力,为了让模型自动地学习翻译记忆中的信息,因此我们从模型融合角度出发,设计了一种轻量级的将翻译记忆融合到神经网络机器翻译中的模型,并探索了三种由粗到细的编码翻译记忆句子的方法,在针对翻译记忆融合任务的特定数据集上(提高4.7个BLEU值)和机器翻译公开数据集上证明了该模型的有效性和高效性。4.在上述基于翻译记忆的神经网络机器翻译模型中,指出了在模型训练时的鲁棒性问题,并提供了一种新的训练方式来解决该问题。我们在训练好的模型中发现鲁棒性问题,即模型面对翻译记忆相似度较低时,翻译效果出现了严重下降。产生这种现象的原因是:在模型训练时出现了过拟合。针对这种现象,受到数据增强和多任务学习的启发,我们提出了一种新的训练方式。
其他文献
公约形成,是多智能体系统(MAS)中普遍存在的一种通过去中心化方式而形成一致性行为的过程,是一种通过智能体自主决策达到MAS协调的有效方式。MAS的协调有助于减少各种资源和时间的冲突,并促进智能体之间的互利共赢。形成的一致性行为也称为公约,其通过离散的方式对智能体的预期行为进行约束,极大的促进了智能体之间的协调,实现智能体自身以及MAS的利益最大化。因此在MAS中,研究如何快速有效的形成公约是一直
学位
在农村现代化进程加快的背景下,作为信息社会弱势群体的少数民族村民,参与到网络社会的信息互动中,现代媒介逐渐渗入少数民族村民的日常生活。笔者研究的中里屯是广西偏远山区的一个毛南族村落,属于环江毛南族自治县,是广西众多偏远少数民族山区农村的其中之一。本文运用线上线下民族志的研究方法,通过田野调查和访谈,从村民的微信社交、生活方式以及情感体验三个方面对微信与中里屯毛南族村民日常生活进行研究。第一章“线上
本文主要研究了基于Kp=L2D2S2分解的多变量系统的模型参考自适应控制(MRAC),分为以下两个部分: 一.基于高频增益矩阵Kp=L2D2S2分解的多变量系统的模型参考自适应控制(MRAC) 考虑下面理想的多输入多输出系统 y=G(s)u,(2.2.1)其中G(s)∈Rm×m[s]是传递函数矩阵,u,y∈Rm。 控制目标是设计控制律使得闭环系统的所有信号均一致有界,且使得
近年来,随着网络和信息技术的飞速发展,在线教育得到了快速普及,如今的在线教育行业正在从数字时代、移动时代向以人工智能、教育大数据挖掘为基础的智慧教育过渡。智能教育系统中包含了数以百万计的学生,每个学生的兴趣爱好、个人潜质和学习能力都是有差别的。智慧教育旨在为学生提供更多的个性化学习指导,针对学生的薄弱知识点进行科学性和有效性的分析,为学生制定自适应的学习方案。因此,如何利用数据挖掘相关技术对学生的
在农业生产中,磷(Phosphorus)能提高作物的抗旱、抗寒能力,对作物的高产、优质等方面具有非常重要的作用。近年来,由于磷的过量投入,造成磷素大量在土壤中累积,成为土壤面源污染的潜在危险源。如何提高肥料磷和土壤累积态磷的利用效率,实现“减磷增效”目标,具有重要的理论意义与应用价值。磷肥在土壤转化同时受菌根、解磷菌和根瘤菌等微生物的影响,菌根被证明是植物获取磷的另一重要途径,长期以来,微生物增强
子群对群的结构有着重要的影响,通过对他们性质的研究往往可以获得大量关于原群结构的重要信息。因此子群在群论研究中占有非常重要的地位。特别是在研究有限群时,利用一些特殊子群例如:Sylow子群、Sylow子群的极大子群、极大子群、2-极大子群、Hall子群等的性质来刻画有限群的结构更具有实际意义。国内外许多群论学者都做过这方面的工作,如文献[1],[4],[8],[9]等。本文在文[1]和[8]的基础
随着移动互联网的普及和迅猛发展,互联网用户数量增势显著,随之而来的海量数据给用户和服务平台造成了巨大的影响。服务平台所面临的挑战是如何利用这些数据为用户和自身创造价值,而解决此问题最有效的途径就是推荐算法。推荐算法是通过建模用户的画像、用户的行为数据、项目本身的特征以及相关的上下文信息来预测用户的偏好,并为用户提供推荐服务。在学术界有众多研究人员致力于推荐算法的研究,并提出了丰富的推荐算法预测框架
冬水田作为一种人工湿地,其有机物质的含量和种类非常丰富,而冬水田的碳循环过程中会产生很多的甲烷,加剧温室效应。硝酸盐的厌氧甲烷氧化反应是由厌氧甲烷氧化微生物驱动的一种促进碳循环的反应,该反应可以显著减缓温室气体的排放。潴育和潜育冬水田水稻土由于水分状况不同,土壤理化性质等环境因子也存在差异。不同类型冬水田的环境因子会对参与厌氧甲烷氧化微生物ANME-2d古菌群的空间分异特征有何影响,有待进一步研究
纵观西方艺术史的发展脉络,艺术创作中的隐喻早在旧石器时代的洞窟壁画中就已经形成,一直持续至今。从20世纪70年代开始,人们开始对视觉隐喻这一概念进行定义。通常对视觉隐喻的研究大致分为:一、语言范畴,通过对文学语言的联想与解读,经过文学语言建构的视觉画面具有隐喻的修辞作用;二、艺术范畴,通过绘画语言建构的意象,具有直观感受的视觉隐喻情感,可与观众产生精神共鸣。塞西莉·布朗通过对诗歌文本的解读,联想,