论文部分内容阅读
随着计算机技术、网络技术的发展、信息时代的到来,高性能的机器翻译的研究具有理论意义和极大的应用前景,已经成为当前国际上激烈竞争的研究领域之一。尤其是随着北京2008奥运会的临近,对多语种、多层次的机器翻译的需求越来越迫切。“面向奥运新闻的汉日机器翻译系统”是东北大学自然语言处理实验室和FUJI-XEROX公司未来技术研究所的合作项目,是面向特定领域的真实文本翻译系统。
本文以“面向奥运新闻的汉日机器翻译系统”为线索,研究了汉日双语资源建设以及一种基于实例的机器翻译系统实现的相关问题。
首先本文讨论了机器翻译的相关方法,探讨了汉日双语的语言差别,并在此基础上论证了汉日机器翻译的方法和系统结构。
本文介绍了汉日双语资源建设问题,讨论了包括汉日双语电子词典、双语句对齐语料库、双语词对齐语料库、双语Chunk对齐库、双语翻译模板库在内的百万级的汉日双语语料库的结构、语料库内容、语料库标注规范等相关问题,讨论了语料不同层次上的对齐技术。
本文提出了一种结构化Chunk的概念,并介绍了基于结构化Chunk的文本局部分析方法,以及在此基础上的双语模板抽取、模板对齐的技术。本方法对含有嵌套结构的较大粒度的Chunk进行分析、识别处理,比如,可以抽出较长的带有中心词标注的名词短语,提高了Chunk分析的覆盖度。同时,作为局部模板分析,增加了模板翻译中模板的匹配率。
本文也介绍了一种以Chunk结构为基础的翻译模板构造,讨论了基于Chunk分析的双语模板抽取、模板对齐的技术。
本文最后介绍了汉日机器翻译系统的引擎技术,讨论了一个以实例模板翻译为主,结合规则分析技术和统计分析技术的翻译方法,讨论了多引擎、多层次的汉日机器翻译系统的实现技术。
本系统已经经过汉日专家的机器翻译评测,翻译准确度和翻译流畅度均达到80%以上,通过了日本FUJI-XEROX公司验收。