论文部分内容阅读
机器翻译是采用计算机技术来完成现实生活中各种语言间的互相翻译,是自然语言处理的一个重要方向。近年来,基于语料库的机器翻译方法受到了研究者的追捧。针对少数民族语言机器翻译的研究尚在起步阶段,特别是维吾尔语,属于黏着语的一种,有着丰富而复杂的形态变化,对它的研究有着重要的意义。本文将围绕维吾尔语的特点,主要从以下几个方面对影响汉语-维吾尔语统计机器翻译的因素进行了研究,具体的讲: 1.研究了维吾尔语以及汉语采用经典的IBM自动统计词对齐方法进行词对齐的过程中所存在的一些问题,同时提出了适用于汉维机器翻译的词对齐方案;并且进行了词对齐实验,详细分析了试验的结果,获得了良好的对齐效果和较大幅度的统计词对齐的提升。 2.研究了维吾尔语构形词缀对汉维统计翻译影响,在现有的统计机器翻译研究技术和资源的基础上,使用统计机器翻译工具,进行了不同粒度维吾尔语对汉维统计机器翻译质量的影响的实验,将维吾尔语词切分为词干词尾粒度很好的解决了汉维翻译过程中的数据稀疏问题。 3.针对维吾尔语的黏着语特性,提出了一种基于有向图的维吾尔语“词干-词缀”语言模型,并且将图状语言模型应用到形态分析和统计机器翻译这两个不同的自然语言处理任务中,基于开放语料的实验证明新型图状语言模型相比 n元语言模型效果有显著的提升。