论文部分内容阅读
机器翻译从出现到现在历经了几十年的发展,已经取得了令人瞩目的成果,期间各种方法不断被提出,目前主流的是基于统计的机器翻译以及最新的基于神经网络的机器翻译方法,各种机器翻译方法都有自己独特的优势,因此提出了系统融合方法来"取长补短",希望通过系统融合来优化翻译结果。目前,机器翻译在工业上的应用已经十分成熟,百度、有道和谷歌等都推出了在线互联网翻译系统,本次研究就是利用这些互联网翻译引擎以及利用Moses统计机器翻译模型训练出的系统来进行系统融合。系统融合按照操作基本操作单元的不同可以分为句子级、短语级和词汇级系统融合三种,本研究中进行了句子级和词汇级以及基于MEMT的三种融合方式,在汉英翻译任务上进行。句子级系统融合采用了最小贝叶斯风险解码的方法,在解码时使用了不同的损失函数,在使用TER作为损失函数时取得了最好的结果,比融合前的最好结果的BLEU得分提升了 0.24个点。在词汇级系统融合中需要构造混淆网络并解码来得到目标结果,研究中对构造混淆网络时采用的不同的词对齐方式以及解码时加入不同的特征进行了多组对比实验,结果表明基于TER并加入词干匹配的词对齐以及解码时加入多种有效特征可以提升系统融合的效果,这个实验也取得了本次研究的最好结果,比融合前最好结果的BLEU得分提升了 0.78个点,比融合前最差的系统提升了 3.01个点。基于MEMT的系统融合效果表现一般,比融合前最好结果的BLEU得分提升了 0.48个点。实验结果表明融合互联网引擎的机器翻译系统可以提升翻译的质量。研究最后实现了一个融合互联网翻译引擎的B/S模式的系统,采用的是词汇级的系统融合方式。