论文部分内容阅读
这篇论文的工作专注于提高基于层次短语的翻译模型的重排性能。主要包括三个方面:一是提出了一个新颖的方法来裁剪已有对齐模型中错误的功能词对齐。翻译模型是在词对齐的平行语料上学习的,所以词对齐质量对翻译质量起决定性作用。功能词在不同的语言中不像实词一样具有明确的对应关系,实词的错误对齐可以通过词对本身识别,但是功能词对齐的正误要依靠上下文来判断。所以功能词对齐质量通常比实词的对齐更差,并且错误的功能词对齐更多的会影响重排性能。我们的方法首先利用功能词的特殊性质包括各种单语和双语的频率统计数据来识别功能词。对于一个功能词的对齐,如果与这两个功能词句法相关的实词不存在对齐关系,此功能词对齐就会被裁掉。我们通过提高功能词对齐的精度来改善重排性能。二是引入了一个简单有效的翻译区间学习模型。在平行的句对上,根据词对齐结果如果在源语言句子某一区间上可以抽离短语翻译规则,那么这个区间就是翻译区间。换句话说,翻译区间就是在翻译过程中可以被应用翻译规则的区间。当把翻译规则应用到非翻译区间的源语言区间上时会引起不正确的重排。此模型从对齐的平行语料上训练获得然后用于解码时为输入的句子预测翻译区间。我们提出的模型是第一个用于直接学习翻译区间的统计模型。三是设计了一个高性能的词重排模型。我们用一系列的子模型为不同距离的源语言词对进行重排。实验和分析展示了只有对短距离词对重排的模型能够明确的提高翻译性能。对比之前的用一个统一模型来学习所有词对的重排,我们的模型学习过程会高效得多。所以我们能利用更多复杂高级的特征和机器学习算法来更好的学习词重排问题。此外,考虑到多重对齐的情况,我们的模型比之前的模型引入了更多的重排模式。方法二和方法三从不同的侧面对翻译中重排过程进行统计建模,能够很方便的作为新的特征被集合到基于层次短语的翻译模型的线性对数框架下来提高重排性能。在中译英和日译英中,三种方法都显著地提高了翻译质量。