面向奥运新闻的汉日机器翻译系统研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:snowshine1116131
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、网络技术的发展、信息时代的到来,高性能的机器翻译的研究具有理论意义和极大的应用前景,已经成为当前国际上激烈竞争的研究领域之一。尤其是随着北京2008奥运会的临近,对多语种、多层次的机器翻译的需求越来越迫切。“面向奥运新闻的汉日机器翻译系统”是东北大学自然语言处理实验室和FUJI-XEROX公司未来技术研究所的合作项目,是面向特定领域的真实文本翻译系统。 本文以“面向奥运新闻的汉日机器翻译系统”为线索,研究了汉日双语资源建设以及一种基于实例的机器翻译系统实现的相关问题。 首先本文讨论了机器翻译的相关方法,探讨了汉日双语的语言差别,并在此基础上论证了汉日机器翻译的方法和系统结构。 本文介绍了汉日双语资源建设问题,讨论了包括汉日双语电子词典、双语句对齐语料库、双语词对齐语料库、双语Chunk对齐库、双语翻译模板库在内的百万级的汉日双语语料库的结构、语料库内容、语料库标注规范等相关问题,讨论了语料不同层次上的对齐技术。 本文提出了一种结构化Chunk的概念,并介绍了基于结构化Chunk的文本局部分析方法,以及在此基础上的双语模板抽取、模板对齐的技术。本方法对含有嵌套结构的较大粒度的Chunk进行分析、识别处理,比如,可以抽出较长的带有中心词标注的名词短语,提高了Chunk分析的覆盖度。同时,作为局部模板分析,增加了模板翻译中模板的匹配率。 本文也介绍了一种以Chunk结构为基础的翻译模板构造,讨论了基于Chunk分析的双语模板抽取、模板对齐的技术。 本文最后介绍了汉日机器翻译系统的引擎技术,讨论了一个以实例模板翻译为主,结合规则分析技术和统计分析技术的翻译方法,讨论了多引擎、多层次的汉日机器翻译系统的实现技术。 本系统已经经过汉日专家的机器翻译评测,翻译准确度和翻译流畅度均达到80%以上,通过了日本FUJI-XEROX公司验收。
其他文献
受益于网络技术和移动通信技术的发展,基于移动计算设备的应用已经越来越普及化。人们广泛地使用个人数字助理(PDA)、智能电话等移动手持设备随时随地进行商务活动。用户将应
肺癌的死亡率远远高于世界上其他癌症,而且近些年来甚至还呈逐年增加的趋势。影像学检查是癌症的诊断检测和防治方面的重要技术之一。通常意义上的胸部影像学的主要研究对象
随着信息技术的快速发展,XML技术在网络中的应用愈加广泛,如何对XML数据进行高效的管理已经成为当前研究的热点。在XML数据管理的各项技术中,对XML的查询处理是关键技术之一,而大
社会和经济迅速发展,对科学技术的进步提出了更高的要求。科学技术进步与革新,也正在加速着社会进步,空前活跃的科技活动也对有限资源的高效配置,提出了更高的要求。国际上美国、
本篇论文首先概要地介绍了足迹检验理论与技术的现状、应用和未来的发展方向,讨论了赤足足迹的结构特征、测量方法及其在足迹检验中的重要作用;然后主要介绍数字图像处理和模式
近年来,计算机网络和多媒体技术发展的越来越快,数字水印成为一个重要的发展方向。针对音乐作品的版权保护问题,音频数字水印作为一种新兴的信息安全技术应运而生。它将具有特定
伴随着云时代的来临,互联网进入了海量数据的时代,科技的发展使得互联网上的信息由最初的非格式化或半格式化发展到现在的基于本体的信息定义与表达,由最初的HTML语言发展到现在
目前在教育领域,如何高效准确地对受测者的知识掌握情况进行测试评估是一个研究的热点问题。现在的测试系统主要采取从题库中随机抽取试题的方式,虽然有些系统也考虑了受测者
本文基于空中交通管制的226研发项目,介绍了空中交通管制系统的项目背景,以及网络监控的相关技术的研究现状。结合空管系统网络监控的需求和实际的系统架构提出了基于分布式
CNC电火花成型磨削装置是利用工作液中的两极间脉冲放电来蚀除导电材料的特种加工装置。脉冲电源是磨削装置的一个重要组成部分,它的性能直接影响到装置的加工品质。本课题来