论文部分内容阅读
在统计机器翻译领域,基于短语的翻译模型的性能优于基于词的翻译模型。目前在基于短语的所有机器翻译模型系统中,源语言都是以均匀分布的方式进行短语切分,然后将所有可能的短语切分结果送入解码器,最终得到翻译结果。遗憾的是,这种基于均匀分布模型对源语言进行短语切分的方式没有充分结合源语言的语言学知识,可能会误导翻译模型以致选择错误的候选目标短语。本文提出通过对源语言知识进行统计学习,获得短语切分概率模型,以指导对源语言进行合理的短语切分。短语切分概率模型可以独立成为一个新的特征,因此能够非常容易的嵌入以最大熵模型为框架的主流统计机器翻译系统中。通过对中英翻译和法英翻译的实验评测,证明了该方法可以明显改善统计机器翻译系统的性能。