论文部分内容阅读
近年来,统计机器翻译的研究十分火热,翻译性能不断提高,在某些特定领域和环境下已经开始投入实际应用。但是,基于翻译记忆的计算机辅助翻译软件却仍然独霸专业翻译市场,统计机器翻译系统几乎难觅身影。这是因为在特定领域中,如果待翻译文本与记忆库中的文本匹配程度很高时,翻译记忆的译文质量明显优于统计机器翻译的译文。考虑到统计翻译系统能够对源语言文本中不匹配部分给出相对较好的翻译结果,而翻译记忆能够对匹配部分给出较好的译文,因此,研究如何结合统计机器翻译和翻译记忆各自的优势,使其优势互补,对于提升机器翻译的译文质量,推动机器翻译在专业领域的应用,具有重要的理论意义和应用价值。
本论文首先从考查统计机器翻译和翻译记忆的特点出发,探讨两者结合的必要性和重要性。在详细、深入分析现有结合方法的优缺点基础之上,提出了我们的方法。区别于以前的浅层结合方法,我们以基于短语的统计翻译模型为基础,在解码过程中将翻译记忆和短语翻译模型进行了深层次的整合。论文的主要工作和创新点归纳如下:
1、提出了一种在解码层面进行深层次融合翻译记忆的统计机器翻译框架,达到了充分发挥各自优势、提高翻译性能的目的。
统计机器翻译模型一般只考虑源语言的局部上下文信息,并不考虑长距离的依赖关系,但人在翻译时是考虑整个句子的。因此,对模糊匹配系数比较高的句子,统计机器翻译的结果明显不如翻译记忆给出的参考翻译。在这种情况下,如果将翻译记忆融入统计机器翻译模型,就可以利用翻译记忆的信息产生更可靠的翻译。但是,现有绝大多数翻译记忆与机器翻译的整合方法都是采用管道式的多步法,仅仅在输出结果上进行了浅层次的结合,对翻译性能的提升幅度有限。为了更有效地结合二者的优点,我们在基于短语的翻译模型基础上,提出了一种融合翻译记忆的统计机器翻译新框架。在这一框架下,我们对翻译记忆和短语翻译模型在解码层面上进行了深层次整合,从而避免了现有方法的固有缺陷,取得了更好的翻译性能。
2、在上述框架下,提出了三种由简到繁的整合式模型。
在上述新框架下,本文提出了三种由简到繁的整合式模型。在整合式模型中,我们引入了三种不同的特征集:模糊匹配区间索引、源语言短语链接状态特征和目标语言短语匹配状态特征。然后在每个模型中,我们还分别考虑了不同的新特征对性能的影响。同源数据实验表明,这三种整合式模型都取得了良好的翻译性能。特别是考虑了语序信息的整合式模型(三),当模糊匹配系数比较高时,无论是以翻译结果的BLEU值,还是以TER值作为评价标准,都统计显著地优于统计机器翻译系统和翻译记忆系统。这说明模型(三)不仅可以改善翻译系统的翻译质量,还具备应用于辅助翻译市场的条件。此外,整合式模型(三)还统计显著地优于现存的最好结合方法。
3、针对异源数据的翻译特点,通过在解码器中动态扩充短语表来进一步优化了上述翻译模型。
针对异源数据情况,本文为整合式模型提出了动态扩充短语表的方法。在同源数据情况下,由于机器翻译系统的短语表几乎已覆盖了所有翻译记忆可提供的连续短语对,因此不需要动态扩充短语表。但在异源数据情况下,仍有不少翻译记忆匹配的连续短语对不能够被统计翻译模型的短语表所覆盖。因此,我们在整合式模型的基础上提出了动态扩充短语表的方法。实验表明,这种动态扩充短语表的方法有效地改善了整合式模型的翻译性能。在同领域异源情况下,整合式模型(三)统计显著地优于统计机器翻译系统、翻译记忆系统、以及所有现存的最好结合方法。此外,在动态添加翻译记忆前N个相似句子的短语对后,在大多数模糊匹配区间,模型(三)的跨领域翻译质量,都优于统计机器翻译系统和翻译记忆系统。