面向奥运新闻的汉日机器翻译系统研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户：snowshine1116131

【摘要】

：

随着计算机技术、网络技术的发展、信息时代的到来，高性能的机器翻译的研究具有理论意义和极大的应用前景，已经成为当前国际上激烈竞争的研究领域之一。尤其是随着北京2008奥运

【作者】

：

张俐

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2006年期

【关键词】

：

机器翻译系统双语语料库汉日翻译

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术、网络技术的发展、信息时代的到来，高性能的机器翻译的研究具有理论意义和极大的应用前景，已经成为当前国际上激烈竞争的研究领域之一。尤其是随着北京2008奥运会的临近，对多语种、多层次的机器翻译的需求越来越迫切。“面向奥运新闻的汉日机器翻译系统”是东北大学自然语言处理实验室和FUJI-XEROX公司未来技术研究所的合作项目，是面向特定领域的真实文本翻译系统。本文以“面向奥运新闻的汉日机器翻译系统”为线索，研究了汉日双语资源建设以及一种基于实例的机器翻译系统实现的相关问题。首先本文讨论了机器翻译的相关方法，探讨了汉日双语的语言差别，并在此基础上论证了汉日机器翻译的方法和系统结构。本文介绍了汉日双语资源建设问题，讨论了包括汉日双语电子词典、双语句对齐语料库、双语词对齐语料库、双语Chunk对齐库、双语翻译模板库在内的百万级的汉日双语语料库的结构、语料库内容、语料库标注规范等相关问题，讨论了语料不同层次上的对齐技术。本文提出了一种结构化Chunk的概念，并介绍了基于结构化Chunk的文本局部分析方法，以及在此基础上的双语模板抽取、模板对齐的技术。本方法对含有嵌套结构的较大粒度的Chunk进行分析、识别处理，比如，可以抽出较长的带有中心词标注的名词短语，提高了Chunk分析的覆盖度。同时，作为局部模板分析，增加了模板翻译中模板的匹配率。本文也介绍了一种以Chunk结构为基础的翻译模板构造，讨论了基于Chunk分析的双语模板抽取、模板对齐的技术。本文最后介绍了汉日机器翻译系统的引擎技术，讨论了一个以实例模板翻译为主，结合规则分析技术和统计分析技术的翻译方法，讨论了多引擎、多层次的汉日机器翻译系统的实现技术。本系统已经经过汉日专家的机器翻译评测，翻译准确度和翻译流畅度均达到80％以上，通过了日本FUJI-XEROX公司验收。

其他文献

移动数据库同步复制模型的研究与实现

受益于网络技术和移动通信技术的发展,基于移动计算设备的应用已经越来越普及化。人们广泛地使用个人数字助理(PDA)、智能电话等移动手持设备随时随地进行商务活动。用户将应

学位

移动数据库同步复制SyncML冲突检测安全

基于CT图像的肺部周围型肿瘤特征提取与识别

肺癌的死亡率远远高于世界上其他癌症,而且近些年来甚至还呈逐年增加的趋势。影像学检查是癌症的诊断检测和防治方面的重要技术之一。通常意义上的胸部影像学的主要研究对象

学位

肺部CT影像自动检测系统分割技术模式识别

支持XML文档更新的节点编码方法研究

随着信息技术的快速发展，XML技术在网络中的应用愈加广泛，如何对XML数据进行高效的管理已经成为当前研究的热点。在XML数据管理的各项技术中，对XML的查询处理是关键技术之一，而大

学位

XML前缀编码动态向量编码方案XML数据库文档更新

科技评估中的贝叶斯网络方法研究及计算机实现

社会和经济迅速发展，对科学技术的进步提出了更高的要求。科学技术进步与革新，也正在加速着社会进步，空前活跃的科技活动也对有限资源的高效配置，提出了更高的要求。国际上美国、

学位

科技评估评估指标体系信息融合不确定性推理贝叶斯网络图搜索

应用模糊BP神经网络对足迹图像识别方法的研究

本篇论文首先概要地介绍了足迹检验理论与技术的现状、应用和未来的发展方向，讨论了赤足足迹的结构特征、测量方法及其在足迹检验中的重要作用；然后主要介绍数字图像处理和模式

学位

足迹识别图像处理模式识别边缘提取BP神经网络

基于小波域的自适应音频数字水印算法的研究

近年来，计算机网络和多媒体技术发展的越来越快，数字水印成为一个重要的发展方向。针对音乐作品的版权保护问题，音频数字水印作为一种新兴的信息安全技术应运而生。它将具有特定

学位

音频数字水印小波变换短时能量过零率同步信号自适应鲁棒性

基于变更历史日志扩展的本体映射进化研究

伴随着云时代的来临，互联网进入了海量数据的时代，科技的发展使得互联网上的信息由最初的非格式化或半格式化发展到现在的基于本体的信息定义与表达，由最初的HTML语言发展到现在

学位

大规模本体本体映射本体进化本体更新本体恢复

面向e-learning的个性化测试评估建模

目前在教育领域,如何高效准确地对受测者的知识掌握情况进行测试评估是一个研究的热点问题。现在的测试系统主要采取从题库中随机抽取试题的方式,虽然有些系统也考虑了受测者

学位

领域本体测试对象信息导航概念映射

基于面向对象技术的监控代理设计和实现

本文基于空中交通管制的226研发项目,介绍了空中交通管制系统的项目背景,以及网络监控的相关技术的研究现状。结合空管系统网络监控的需求和实际的系统架构提出了基于分布式

学位

空中交通管制监控代理伪文件系统进程组切换Unix系统

CNC电火花加工中脉冲电源控制系统的设计

CNC电火花成型磨削装置是利用工作液中的两极间脉冲放电来蚀除导电材料的特种加工装置。脉冲电源是磨削装置的一个重要组成部分，它的性能直接影响到装置的加工品质。本课题来

学位

计算机数控CNC电火花加工成型磨削单片机模糊控制复杂可编程逻辑器件脉冲电源控制

面向奥运新闻的汉日机器翻译系统研究与实现

其他学术论文