端到端神经网络机器翻译技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:g2gstock
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前人工智能热潮下,机器翻译是自然语言处理的一个研究方向,具有重要的科学研究价值和实用价值。在实际应用中,语言的多变性、语义信息的表示能力的有限性、平行语料资源匮乏等方面都制约着机器翻译走向实用化和普及化。本文针对端到端神经网络机器翻译模型仍存在的具体问题,首先,对源语言文本数据进行深度的挖掘,利用恰当的文本数据表示模型,表达复杂的、高层次的和抽象的语义信息;然后,针对有大量平行语料的机器翻译任务,则利用标注数据集的能力,在有监督算法上建立更为有效的的基于强化学习的端到端神经网络机器翻译模型;接着,针对平行语料数据资源匮乏的语种机器翻译任务,利用迁移学习技术,防止神经网络在训练过程中过拟合问题,提高在低资源条件下,端到端神经网络机器翻译模型的泛化能力。最后,针对平行语料极度匮乏但是单语语料充足的语种翻译任务,着眼于无监督机器翻译技术的研究,这将是未来的研究趋势。本文主要研究成果如下:一、基于位置信息的词向量模型。在端到端神经网络机器翻译模型中,使用词向量(Word Embedding)模型描述源语言。词向量作为神经网络模型的初始值,在神经网络模型训练时,它是随机生成的。词向量对源语言数据的表示能力则直接影响整个端到端神经网络机器翻译的性能。并且,词向量模型的精度非常依赖语料的选择,并且在训练词向量模型时,模型参数的设置,语料规模都会影响词向量模型的效果。针对该问题,本文提出了一种基于位置信息的词向量模型(Position Weight CBOW,PW-CBOW)。该方法在CBOW模型的基础上,对CBOW的输入层进行改造,加入了源语言的词-词之间的位置信息。通过实验验证发现,基于PW-CBOW词向量模型的端到端神经网络机器翻译系统,在IWSLT2014德语-英语、WMT 14英语-德语、WMT 14英语-法语机器翻译任务中,相比其它的词向量模型,PW-CBOW词向量模型能够携带更多的语义信息,使神经网络机器翻译模型收敛到更好的最优解,进一步提升机器翻译任务的性能。二、基于深度强化学习的机器翻译技术。端到端的神经网络机器翻译模型,在训练期间,解码器的输入来自于真实分布,但在测试期间,解码器完全依赖于模型生成的输出,作为下一时刻的输入,由此而产生误差累积的问题。针对该问题,本文重点研究了强化学习的思想,以及基于策略梯度(Policy Gradients)和Actor-Critic(AC)的强化学习算法在训练神经网络生成序列中的应用。本文将深度学习和强化学习结合的深度强化学习DQN(Deep Q-learning)算法以及改进的深度双Q网络(DDQN)算法和基于竞争构架Q网络(Dueling-DQN)算法,应用于端到端神经网络机器翻译系统。最后,实验验证了在IWSLT 2014德语-英语、WMT 14英语-德语、WMT 14英语-法语三个机器翻译任务中,基于深度强化学习的端到端神经网络机器翻译系统的可行性与有效性,并分别分析了基于不同的强化学习算法的端到端神经网络翻译系统(PG-NMT、AC-NMT、DQN-NMT、DDQN-NMT和Dueling-DQN-NMT)的性能。三、基于知识蒸馏的机器翻译迁移学习技术。端到端的神经网络机器翻译模型需要使用大量的平行语料对神经网络模型进行训练,但是全球有大量的小语种及方言,使用小语种及方言的人数少和分布广,能够为机器翻译提供的平行语料数据资源非常少。在低资源情况下,训练数据的不足,神经网络很难训练出易收敛,稳定性高和泛化能力强的模型。迁移学习的领域自适应方法则可以利用高资源的平行语料数据,提取低资源平行语料学习时可能用到的有用信息。基于迁移学习的端到端神经网络机器翻译系统只需要少量标注样本就能显著的提升系统的泛化能力。但是这种领域自适应的迁移学习方法容易导致神经网络机器翻译模型训练时出现过拟合问题,在训练的时候难以收敛。针对该问题,本文首次将知识蒸馏作为一种约束神经网络模型的正则化方法,应用于基于迁移学习的端到端神经网络机器翻译系统中,防止模型在训练过程中过拟合问题,提高低资源端到端神经网络机器翻译模型的泛化能力。实验结果表明,在低资源条件下,基于知识蒸馏的迁移学习端到端神经网络机器翻译系统(Knowledge Distillation Transformer Model Translation,KDTT),在IWSLT16英语-捷克语和IWSLT11英语-阿拉伯语机器翻译任务中,性能更优。四、基于NER-MLM语言模型预训练的无监督机器翻译技术。端到端神经网络机器翻译系统最大的问题就是对平行语料数据集的依赖,对于单语语料充足的语种,端到端的神经网络机器翻译任务可以转换成无监督式任务。无监督的机器翻译系统首先需要从单语语料充足的、未标注的,小语种或方言中,无监督地学习出语言模型参数,即语言模型预训练(Pre-training)。语言模型预训练后,当成特征直接加到无监督机器翻译系统上。针对该问题,本文提出了基于屏蔽命名实体(NER-MLM)语言模型预训练方法。该方法是在BERT模型随机屏蔽单词(MLM)方法的基础上,加入了屏蔽更有指向性的命名实体的思想。实验部分,首先验证了在WMT14英语-法语、英语-德语机器翻译任务中,基于屏蔽命名实体(NER-MLM)语言模型预训练无监督机器翻译系统性能优于基于MLM语言模型预训练的无监督机器翻译系统;接着证明了对于缺乏大规模平行语料的机器翻译任务,无监督机器翻译技术是一种很好的提升低资源条件下端到端神经网机器翻译性能的方案;最后,基于相同单语语料数据集规模和无监督机器翻译模型的条件下,不同语种(英语-法语、英语-德语)的翻译性能产生较大差异的原因进行了语言学本身的分析。
其他文献
国外制药企业环保制度建设中的制药企业投入生产前和生产过程中的环境保护政策、对制药企业环境污染的公众监督措施等经验,对我国的借鉴意义极大。我国应立足本国国情,完善制
羊草是欧亚大陆东部草原区的重要建群种之一,在我国占有重要地位,同时也是优良的饲用资源,在生态安全保障和畜牧业生产中发挥着重要作用。然而大范围野生羊草种质资源的农艺
摘要:目的:探讨无痛人流术前含化米索前列醇终止早孕的临床效果。方法:将孕6~10周需终止妊娠并要求无痛人工流产的100例孕妇随机分为观察组和对照组。观察组在用异丙酚及芬太尼行无痛人工流产前半小时舌下含化米索前列醇0.4mg,观察两组术中宫颈松弛扩张情况、宫缩幅度、术中出血量及术后阴道流血时间。结果:观察组宫颈松弛扩张情况明显好于对照组(P<0.01),子宫收缩幅度明显大于对照组(P<0.05),术
近年来,欧盟和美国对于监测上市后药品的安全性愈加重视,在加强各自的药品上市后安全性监测体系方面采取了不少新举措。本文分析了欧美药品上市后安全性监测体系的发展趋势,
逆行性牙髓炎是牙体牙髓病中常见的一种疾病,是原发于牙周继发牙髓感染的.本病发病情况复杂多样,常因掌握不好而不能做出明确诊断,以至延误治疗.现对116例逆行性牙髓炎的确诊
The extraction of zinc by di-(2-ethylhexyl)-dithiophosphoric acid(D2EHDTPA)-trioctylamine(TOA) was investigated.Conductance titration and interfacial pressure m
为减轻先天心脏畸形的继发影响以及家庭和社会负担,先天性心脏病的外科治疗趋于幼龄化.随着认识和技术的提高以及各学科协同配合的优化,先天性心脏病在婴幼儿乃至新生儿期手
目的探讨地塞米松对卵蛋白(OVA)诱导的小鼠骨髓细胞体外扩增的影响作用.方法以OVA及生理盐水致敏并激发BALB/c小鼠,建立各哮喘及对照组模型.分别于OVA激发后2、12、24、48和7
在社会转型的新时期,大学校园发生了巨大的变化,大学生在人生观、就业观、婚恋观、等方面表现出了与过去的大学生不同的内容.