论文部分内容阅读
面向奥运新闻机器翻译的中文分词研究与实现随着信息时代的到来,“信息爆炸”成为信息处理领域的瓶颈问题,不同语种之间大量的信息交流更加大了问题的严重性。不同语言之间的翻译工作越来越迫切,并且工作量也越来越大。如何利用计算机高效率的信息处理能力突破不同语种之间的语言障碍,成为全人类面临的共同问题。机器翻译便是解决这个问题的有力手段之一。
然而机器翻译中的中文分词技术是急待解决的问题。本文主要是对面向奥运新闻的机器翻译项目中的中文分词任务,结合实际的问题提出一套有效的解决方案。在本文自行开发的大规模中文分词标注语料和已有词典知识的基础上,构造了中文分词词典,在这个过程中提出了一种有效的解决歧义问题的方法,同时使用统计和规则相结合的词性标注技术为机器翻译系统提供了实用的中文分词标注结果。
本文使用了错误驱动的学习框架,针对项目中的汉语新闻语料,采用基于转换的错误驱动方法抽取的歧义片段转换规则库,自行设计和实现了学习中的转换工具。针对实际系统中的时效要求,采用了基于词典切分的分词算法,在词性标注的过程中本文使用了隐马尔可夫模型结合后处理规则的方法。实验结果证明该方法对项目中解决歧义切分问题是非常有效的。在此基础上设计实现的分词标注系统,成功应用于面向奥运新闻的汉日机器翻译的资源建设和翻译系统的预处理阶段。
本文构建了面向奥运新闻汉语真实语料的五万旬分词标注语料,该语料具有较好的一致性。成功构建了分词基本词典和专业词典,收集了上万条歧义片段转换规则,在资源建设和系统设计上满足了项目需求。
结合该项目实现的分词系统总结了实际应用中的中文语言现象,构建了个性规则。并且为该机器翻译系统中的翻译记忆层、词表层和模板层处理提供了相应的接口实现。