论文部分内容阅读
机器翻译是自然语言处理中的一个极为重要的领域和试验田。自然语言的多种因素也阻碍了机器翻译的发展,比如一词多义,句法歧义,复杂的多重语法结构等等。在这些困难当中,歧义是最主要的因素。 本文集中讨论了英汉机器翻译中,对介词短语的句法歧义现象的消歧方法。在对主要机器翻译系统的分类进行了简要介绍之后,本文回顾了目前用于句法分析的最重要的一种形式语法:短语结构语法,并演示了使用短语结构语法分析句子结构从而导致介词短语歧义结构的过程。此后,本文主要分析了基于优选的介词短语消歧策略,并提出了一个实验性的介词短语消歧模型。针对模型中自动获取短语搭配的需要,结合Brill错误驱动算法,通过重复该算法的实验和数据,验证了运用该算法进行介词短语消歧的有效性。最后,针对处理介词短语歧义时遇到的数据稀疏这一所有统计语言模型都面临的难题,分析介绍了基于N-Gram的回退法介词短语消歧及平滑技术。