论文部分内容阅读
在当前人工智能热潮下,机器翻译是自然语言处理的一个研究方向,具有重要的科学研究价值和实用价值。在实际应用中,语言的多变性、语义信息的表示能力的有限性、平行语料资源匮乏等方面都制约着机器翻译走向实用化和普及化。本文针对端到端神经网络机器翻译模型仍存在的具体问题,首先,对源语言文本数据进行深度的挖掘,利用恰当的文本数据表示模型,表达复杂的、高层次的和抽象的语义信息;然后,针对有大量平行语料的机器翻译任务,则利用标注数据集的能力,在有监督算法上建立更为有效的的基于强化学习的端到端神经网络机器翻译模型;接着,针对平行语料数据资源匮乏的语种机器翻译任务,利用迁移学习技术,防止神经网络在训练过程中过拟合问题,提高在低资源条件下,端到端神经网络机器翻译模型的泛化能力。最后,针对平行语料极度匮乏但是单语语料充足的语种翻译任务,着眼于无监督机器翻译技术的研究,这将是未来的研究趋势。本文主要研究成果如下:一、基于位置信息的词向量模型。在端到端神经网络机器翻译模型中,使用词向量(Word Embedding)模型描述源语言。词向量作为神经网络模型的初始值,在神经网络模型训练时,它是随机生成的。词向量对源语言数据的表示能力则直接影响整个端到端神经网络机器翻译的性能。并且,词向量模型的精度非常依赖语料的选择,并且在训练词向量模型时,模型参数的设置,语料规模都会影响词向量模型的效果。针对该问题,本文提出了一种基于位置信息的词向量模型(Position Weight CBOW,PW-CBOW)。该方法在CBOW模型的基础上,对CBOW的输入层进行改造,加入了源语言的词-词之间的位置信息。通过实验验证发现,基于PW-CBOW词向量模型的端到端神经网络机器翻译系统,在IWSLT2014德语-英语、WMT 14英语-德语、WMT 14英语-法语机器翻译任务中,相比其它的词向量模型,PW-CBOW词向量模型能够携带更多的语义信息,使神经网络机器翻译模型收敛到更好的最优解,进一步提升机器翻译任务的性能。二、基于深度强化学习的机器翻译技术。端到端的神经网络机器翻译模型,在训练期间,解码器的输入来自于真实分布,但在测试期间,解码器完全依赖于模型生成的输出,作为下一时刻的输入,由此而产生误差累积的问题。针对该问题,本文重点研究了强化学习的思想,以及基于策略梯度(Policy Gradients)和Actor-Critic(AC)的强化学习算法在训练神经网络生成序列中的应用。本文将深度学习和强化学习结合的深度强化学习DQN(Deep Q-learning)算法以及改进的深度双Q网络(DDQN)算法和基于竞争构架Q网络(Dueling-DQN)算法,应用于端到端神经网络机器翻译系统。最后,实验验证了在IWSLT 2014德语-英语、WMT 14英语-德语、WMT 14英语-法语三个机器翻译任务中,基于深度强化学习的端到端神经网络机器翻译系统的可行性与有效性,并分别分析了基于不同的强化学习算法的端到端神经网络翻译系统(PG-NMT、AC-NMT、DQN-NMT、DDQN-NMT和Dueling-DQN-NMT)的性能。三、基于知识蒸馏的机器翻译迁移学习技术。端到端的神经网络机器翻译模型需要使用大量的平行语料对神经网络模型进行训练,但是全球有大量的小语种及方言,使用小语种及方言的人数少和分布广,能够为机器翻译提供的平行语料数据资源非常少。在低资源情况下,训练数据的不足,神经网络很难训练出易收敛,稳定性高和泛化能力强的模型。迁移学习的领域自适应方法则可以利用高资源的平行语料数据,提取低资源平行语料学习时可能用到的有用信息。基于迁移学习的端到端神经网络机器翻译系统只需要少量标注样本就能显著的提升系统的泛化能力。但是这种领域自适应的迁移学习方法容易导致神经网络机器翻译模型训练时出现过拟合问题,在训练的时候难以收敛。针对该问题,本文首次将知识蒸馏作为一种约束神经网络模型的正则化方法,应用于基于迁移学习的端到端神经网络机器翻译系统中,防止模型在训练过程中过拟合问题,提高低资源端到端神经网络机器翻译模型的泛化能力。实验结果表明,在低资源条件下,基于知识蒸馏的迁移学习端到端神经网络机器翻译系统(Knowledge Distillation Transformer Model Translation,KDTT),在IWSLT16英语-捷克语和IWSLT11英语-阿拉伯语机器翻译任务中,性能更优。四、基于NER-MLM语言模型预训练的无监督机器翻译技术。端到端神经网络机器翻译系统最大的问题就是对平行语料数据集的依赖,对于单语语料充足的语种,端到端的神经网络机器翻译任务可以转换成无监督式任务。无监督的机器翻译系统首先需要从单语语料充足的、未标注的,小语种或方言中,无监督地学习出语言模型参数,即语言模型预训练(Pre-training)。语言模型预训练后,当成特征直接加到无监督机器翻译系统上。针对该问题,本文提出了基于屏蔽命名实体(NER-MLM)语言模型预训练方法。该方法是在BERT模型随机屏蔽单词(MLM)方法的基础上,加入了屏蔽更有指向性的命名实体的思想。实验部分,首先验证了在WMT14英语-法语、英语-德语机器翻译任务中,基于屏蔽命名实体(NER-MLM)语言模型预训练无监督机器翻译系统性能优于基于MLM语言模型预训练的无监督机器翻译系统;接着证明了对于缺乏大规模平行语料的机器翻译任务,无监督机器翻译技术是一种很好的提升低资源条件下端到端神经网机器翻译性能的方案;最后,基于相同单语语料数据集规模和无监督机器翻译模型的条件下,不同语种(英语-法语、英语-德语)的翻译性能产生较大差异的原因进行了语言学本身的分析。