统计机器翻译中源语言语句调序方法的研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:moke707
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是指借助计算机将一种自然语言转变为另一种自然语言,该研究是自然语言处理领域的一个重要分支。统计机器翻译作为机器翻译的主流方法,具有坚实的理论基础和成熟的翻译模型,能够快速有效地构建机器翻译系统。但是,当统计机器翻译方法应用于语序差异性较大的语言对时,现有理论和模型难以有效地抽取和描述语言对之间在语序上的差异性,翻译系统性能由此受到严重影响。本论文的工作围绕源语言和目标语言语序存在差异性这一问题,针对统计机器翻译方法的应用,提出了基于句法结构的调序方法。该方法的主要思想是以句法信息为依据,对训练数据和待翻译的源语言句子进行预处理,使其语序更加接近目标语言的语序,以此缓解语序差异性对应用统计机器翻译方法的不良影响。本论文的主要工作包括以下三个方面:(1)本工作对已有的基于短语结构句法分析的调序方法,进行了实验重现和深入分析,提出了进一步的改良方法,并以中-英翻译为例,扩展了现有的基于短语结构的调序规则集。(2)本论文提出了基于依存结构句法分析的调序方法,其核心是设计了全新的、系统化的调序框架。基于该框架,本工作以中-英、中-日、日-中三个翻译任务为例,针对各语言对的特点,构建了三个调序规则集,实现了基于依存结构的调序方法。这三个规则集分别是针对中-英、中-日和日-中统计机器翻译的首个基于依存结构的调序规则集。(3)在基于句法结构的调序方法中,句法分析器的精度至关重要。本工作对公开的句法分析器首次进行了全面的比较实验,以量化的方式评价分析了句法分析器精度与调序方法性能的关系,以及对统计机器翻译系统性能的影响。该研究填补了这一领域的空白,同时为调序方法的应用给出了句法分析器的最佳选择。本工作以实际中-英、中-日和日-中统计机器翻译系统开发为例,对本论文所提出的各种调序方法进行了验证。在大规模数据集上的对比实验结果证明了各方法的有效性。同时通过Kendall’s τ的评测和人工评测,验证了各方法的有效性和准确性。此外,在对调序结果进行人工评测时,本文提出了一种全新的基于单词对齐交叉数的调序评测方法。
其他文献
随着信息技术特别是网络技术的迅猛发展,企业的全球化与信息化已成为必然趋势,现代经济中的各个单元(企业、组织和个人)之间的界限逐渐被打破,各企业之间的业务协作越来越复
无线传感器网络地理路由算法中每个节点都保存少量的地理位置信息,数据包可以通过这些地理位置信息被路由到目的节点。目前有很多地理路由算法,它们都共同面临网络平面化问题
工作流技术作为现代企业实现过程管理与过程控制的一项关键技术,为企业的经营过程提供了一个从模型分析、建立、管理、仿真到运行的完整框架。工作流的应用范围已经扩大到移
业务流程管理BPM(Business Process Management)综合集成了企业的任务、资源和数据,并通过对这些流程的管理帮助企业灵活、敏捷地应对外部环境的变化。业务流程建模是BPM中最
对于分段光滑的一维信号,小波提供了简单有效的表示方法,在高维情况下,小波变换并不是最优的函数表示方法。多尺度几何分析发展的目的和动力正是要致力于发展一种新的高维函
本文在研究和分析现有的无线传感器网络基于位置信息的路由算法的基础上,结合物理学上密度的概念,给每个节点定义了一个新的状态参数――能量密度。能量密度的取值大小是与节
随着科技的快速发展各个行业领域对数字图像的运用也日益增多,图像的数据由于各种各样的外因会造成缺失,图像修复技术作为图像处理领域中的重要组成部分,该技术通过填充缺失
数字水印技术作为新一代的信息安全技术,为实现版权保护或跟踪侵权行为提供了一种有效工具。但同时要求算法具有较强的抗攻击能力,特别是对各种形式的几何攻击。本文在小波分
心脏是人体的重要器官,心脏疾病严重威胁着人类的健康,因此,对心脏生理机能的研究越来越受到人们的关注。传统的研究手段通常是借助于动物实验的方法。但是这些方法不仅周期
日益普遍的移动生活和工作方式导致传统的商务管理模式正在转向以企业信息化和社会信息化为基础的移动电子商务管理模式,以实现企业实时、高效管理为目标的企业移动业务管理