融合翻译记忆的统计机器翻译方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:nmhnhjcf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,统计机器翻译的研究十分火热,翻译性能不断提高,在某些特定领域和环境下已经开始投入实际应用。但是,基于翻译记忆的计算机辅助翻译软件却仍然独霸专业翻译市场,统计机器翻译系统几乎难觅身影。这是因为在特定领域中,如果待翻译文本与记忆库中的文本匹配程度很高时,翻译记忆的译文质量明显优于统计机器翻译的译文。考虑到统计翻译系统能够对源语言文本中不匹配部分给出相对较好的翻译结果,而翻译记忆能够对匹配部分给出较好的译文,因此,研究如何结合统计机器翻译和翻译记忆各自的优势,使其优势互补,对于提升机器翻译的译文质量,推动机器翻译在专业领域的应用,具有重要的理论意义和应用价值。   本论文首先从考查统计机器翻译和翻译记忆的特点出发,探讨两者结合的必要性和重要性。在详细、深入分析现有结合方法的优缺点基础之上,提出了我们的方法。区别于以前的浅层结合方法,我们以基于短语的统计翻译模型为基础,在解码过程中将翻译记忆和短语翻译模型进行了深层次的整合。论文的主要工作和创新点归纳如下:   1、提出了一种在解码层面进行深层次融合翻译记忆的统计机器翻译框架,达到了充分发挥各自优势、提高翻译性能的目的。   统计机器翻译模型一般只考虑源语言的局部上下文信息,并不考虑长距离的依赖关系,但人在翻译时是考虑整个句子的。因此,对模糊匹配系数比较高的句子,统计机器翻译的结果明显不如翻译记忆给出的参考翻译。在这种情况下,如果将翻译记忆融入统计机器翻译模型,就可以利用翻译记忆的信息产生更可靠的翻译。但是,现有绝大多数翻译记忆与机器翻译的整合方法都是采用管道式的多步法,仅仅在输出结果上进行了浅层次的结合,对翻译性能的提升幅度有限。为了更有效地结合二者的优点,我们在基于短语的翻译模型基础上,提出了一种融合翻译记忆的统计机器翻译新框架。在这一框架下,我们对翻译记忆和短语翻译模型在解码层面上进行了深层次整合,从而避免了现有方法的固有缺陷,取得了更好的翻译性能。   2、在上述框架下,提出了三种由简到繁的整合式模型。   在上述新框架下,本文提出了三种由简到繁的整合式模型。在整合式模型中,我们引入了三种不同的特征集:模糊匹配区间索引、源语言短语链接状态特征和目标语言短语匹配状态特征。然后在每个模型中,我们还分别考虑了不同的新特征对性能的影响。同源数据实验表明,这三种整合式模型都取得了良好的翻译性能。特别是考虑了语序信息的整合式模型(三),当模糊匹配系数比较高时,无论是以翻译结果的BLEU值,还是以TER值作为评价标准,都统计显著地优于统计机器翻译系统和翻译记忆系统。这说明模型(三)不仅可以改善翻译系统的翻译质量,还具备应用于辅助翻译市场的条件。此外,整合式模型(三)还统计显著地优于现存的最好结合方法。   3、针对异源数据的翻译特点,通过在解码器中动态扩充短语表来进一步优化了上述翻译模型。   针对异源数据情况,本文为整合式模型提出了动态扩充短语表的方法。在同源数据情况下,由于机器翻译系统的短语表几乎已覆盖了所有翻译记忆可提供的连续短语对,因此不需要动态扩充短语表。但在异源数据情况下,仍有不少翻译记忆匹配的连续短语对不能够被统计翻译模型的短语表所覆盖。因此,我们在整合式模型的基础上提出了动态扩充短语表的方法。实验表明,这种动态扩充短语表的方法有效地改善了整合式模型的翻译性能。在同领域异源情况下,整合式模型(三)统计显著地优于统计机器翻译系统、翻译记忆系统、以及所有现存的最好结合方法。此外,在动态添加翻译记忆前N个相似句子的短语对后,在大多数模糊匹配区间,模型(三)的跨领域翻译质量,都优于统计机器翻译系统和翻译记忆系统。
其他文献
随着网络技术的快速发展与Web2.0的盛行,当前社会媒体呈现出新的特点:重视用户交互(如建立链接关系、添加标签等)、信息更新频繁、内容多样、拥有海量内容等。这些特点为用户获
本文设计并实现了以TMS320F2812DSP为数据处理核心的绝对式感应同步器测角系统,提出了实用和创新的方法对系统的误差进行了修正与补偿,取得了较为理想的效果。设计中注意使用性能出色、集成度高的元件,简化了系统结构,提高了稳定性和抗干扰性,实现了系统向一体化和小型化的迈进。感应同步器测角系统是一种精确测量角位移值、实时显示测量数据的数字化位置检测设备。本测角系统采用360对极绝对式圆感应同步器作
高速飞行器的发展是一个国家国防实力的重要体现,发达国家投入大量的人力和财力开展了高速飞行器的研究。飞行器进入大气层高速飞行的过程中,光学头罩与高速气流发生剧烈的相互
随着市场竞争日趋激烈,如何通过供应链成员企业之间的合作与协调来降低成本、提高客户服务水平和快速响应市场需求成为供应链管理研究的重点与热点。供应链的协同管理是供应链管理的核心内容,其中制造和交付的协同调度过程是供应链协同管理的一个重要的研究课题。本文针对带有时间约束的单机制造与运输交付协同调度问题进行研究。研究内容如下:(1)针对单机制造和多客户组成的两级供应链系统,考虑有容量限制单台运输车辆批量运
非线性系统的最优控制一直是控制领域研究的热点和难点之一.而传统的基于数学模型的最优控制在面对模型不确定的复杂动态系统时常难达到预期的性能指标,因此,采用基于数据的控
工业过程中的很多控制系统在实际运行时都存在性能缺陷,若没有定期的维护,控制系统的性能会随着时间的推移而退化,甚至会造成巨大的经济损失。本文针对过程控制系统中两种广
该文共完成了以下四个方面的工作:1.运用QFD(质量功能配置,Quality Function Deployment)工具一帮助质管人员进行设计质量评估;2.在QFD中引入多目标规划模型,优化和权衡QFD规
人左右眼间距的存在,使得同一空间物体在左右眼视网膜上的投影存在位置差异,称之为视差。立体匹配旨在研究如何准确鲁棒地计算左右图像的视差,是计算机视觉研究的核心问题之一,具
大脑是由多个相互连接的网络构成的复杂系统,其中相互关联的网络模块(如:皮质区域)具有不同的功能。一个基本问题是在这样的系统中是如何进行信息处理和网络如何生成对应的认
近年来,在石油、化工等危险场所,现场总线的应用日益广泛,本质安全技术以其体积小,可靠性高,成本低以及在危险场所能带电操作而成为了现场总线系统中防爆型式的首选。与传统的本质安全技术不同的是现场总线本质安全系统技术具有“多负载”特征,而且要求满足“可互换性”和“可互操作性”,也就是允许不同的制造厂商生产的总线电气设备可以自由的挂接在同一个总线中,并且实现相互之间的通信。对于现场总线技术而言,希望负载能