论文部分内容阅读
机器翻译是指借助计算机将一种自然语言转变为另一种自然语言,该研究是自然语言处理领域的一个重要分支。统计机器翻译作为机器翻译的主流方法,具有坚实的理论基础和成熟的翻译模型,能够快速有效地构建机器翻译系统。但是,当统计机器翻译方法应用于语序差异性较大的语言对时,现有理论和模型难以有效地抽取和描述语言对之间在语序上的差异性,翻译系统性能由此受到严重影响。本论文的工作围绕源语言和目标语言语序存在差异性这一问题,针对统计机器翻译方法的应用,提出了基于句法结构的调序方法。该方法的主要思想是以句法信息为依据,对训练数据和待翻译的源语言句子进行预处理,使其语序更加接近目标语言的语序,以此缓解语序差异性对应用统计机器翻译方法的不良影响。本论文的主要工作包括以下三个方面:(1)本工作对已有的基于短语结构句法分析的调序方法,进行了实验重现和深入分析,提出了进一步的改良方法,并以中-英翻译为例,扩展了现有的基于短语结构的调序规则集。(2)本论文提出了基于依存结构句法分析的调序方法,其核心是设计了全新的、系统化的调序框架。基于该框架,本工作以中-英、中-日、日-中三个翻译任务为例,针对各语言对的特点,构建了三个调序规则集,实现了基于依存结构的调序方法。这三个规则集分别是针对中-英、中-日和日-中统计机器翻译的首个基于依存结构的调序规则集。(3)在基于句法结构的调序方法中,句法分析器的精度至关重要。本工作对公开的句法分析器首次进行了全面的比较实验,以量化的方式评价分析了句法分析器精度与调序方法性能的关系,以及对统计机器翻译系统性能的影响。该研究填补了这一领域的空白,同时为调序方法的应用给出了句法分析器的最佳选择。本工作以实际中-英、中-日和日-中统计机器翻译系统开发为例,对本论文所提出的各种调序方法进行了验证。在大规模数据集上的对比实验结果证明了各方法的有效性。同时通过Kendall’s τ的评测和人工评测,验证了各方法的有效性和准确性。此外,在对调序结果进行人工评测时,本文提出了一种全新的基于单词对齐交叉数的调序评测方法。