论文部分内容阅读
近年来,少数民族信息化处理技术的研究越来越受到人们的重视;利用自然语言处理技术实现少数民族语言信息化处理过程不仅有助于提高少数民族信息化水平,还能加强多民族间信息交流与融合。机器翻译研究过程中,源语言与目标语言之间语言顺序的差异很大程度的影响了译文质量。彝语和汉语在语言顺序上呈现非单调对称性,这样的差异不仅影响彝汉翻译译文质量,同时也极大地增加了实现彝汉机器翻译过程的难度与复杂度。针对彝语和汉语在语言研究上的差异,本文对两者的语言结构差异进行了对比性研究,并提出彝汉调序模型实现对彝语语序的调整。为实现该模型,本文对彝语句法进行了系统性研究,总结了彝汉句法结构差异,并实现了彝语句法解析过程,得到了彝语短语结构树表示形式;该调序模型通过调整彝语短语结构树,从而调整彝语语序,使其更符合汉语语序。为实现该模型,本论文的主要研究工作如下:实现彝语句法解析;在研究彝汉句法结构差异之前,本文对彝语句法规则进行了系统性研究。在彝语语言学家彝语句法研究成果的基础上,本文结合上下文无关文法,总结出了一系列彝语句法规则,并结合CKY算法,实现了彝语句法解析过程,得到句法解析结果—短语结构树作为调序模型输入;提出彝语调序规则;本文在总结彝汉句法结构差异的基础上,提出了一系列彝语调序规则,用于指导调序操作;此外,本文通过实验方式对调序规则正确性进行验证,实验结果表明在调序规则指导下的调序结果在正确率上有良好表现;提出彝语预调序模型;在彝语调序规则指导下,本文定义并实现了彝语预调序模型,该模型通过调整彝语短语结构树,从而得到调序后的符合汉语句法结构的彝语语言序列;同时,本文还实现了基于词对齐表的彝汉直译过程,用于对比调序前和调序后译文质量的好坏。实验结果显示,本文提出的调序模型可以较为明显地改善译文质量。