基于层次短语的翻译模型重排问题的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sunshinewlm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这篇论文的工作专注于提高基于层次短语的翻译模型的重排性能。主要包括三个方面:一是提出了一个新颖的方法来裁剪已有对齐模型中错误的功能词对齐。翻译模型是在词对齐的平行语料上学习的,所以词对齐质量对翻译质量起决定性作用。功能词在不同的语言中不像实词一样具有明确的对应关系,实词的错误对齐可以通过词对本身识别,但是功能词对齐的正误要依靠上下文来判断。所以功能词对齐质量通常比实词的对齐更差,并且错误的功能词对齐更多的会影响重排性能。我们的方法首先利用功能词的特殊性质包括各种单语和双语的频率统计数据来识别功能词。对于一个功能词的对齐,如果与这两个功能词句法相关的实词不存在对齐关系,此功能词对齐就会被裁掉。我们通过提高功能词对齐的精度来改善重排性能。二是引入了一个简单有效的翻译区间学习模型。在平行的句对上,根据词对齐结果如果在源语言句子某一区间上可以抽离短语翻译规则,那么这个区间就是翻译区间。换句话说,翻译区间就是在翻译过程中可以被应用翻译规则的区间。当把翻译规则应用到非翻译区间的源语言区间上时会引起不正确的重排。此模型从对齐的平行语料上训练获得然后用于解码时为输入的句子预测翻译区间。我们提出的模型是第一个用于直接学习翻译区间的统计模型。三是设计了一个高性能的词重排模型。我们用一系列的子模型为不同距离的源语言词对进行重排。实验和分析展示了只有对短距离词对重排的模型能够明确的提高翻译性能。对比之前的用一个统一模型来学习所有词对的重排,我们的模型学习过程会高效得多。所以我们能利用更多复杂高级的特征和机器学习算法来更好的学习词重排问题。此外,考虑到多重对齐的情况,我们的模型比之前的模型引入了更多的重排模式。方法二和方法三从不同的侧面对翻译中重排过程进行统计建模,能够很方便的作为新的特征被集合到基于层次短语的翻译模型的线性对数框架下来提高重排性能。在中译英和日译英中,三种方法都显著地提高了翻译质量。
其他文献
稳健数字水印的主要应用在解决版权争议、设置用户标识、进行数据管理和跟踪等。最初的水印技术直接修改数字媒体的空域值,后来发展到修改变换域值。数字水印技术目前已经有
基于WEB平台的在线考试系统是伴随着网络技术和数据库技术而逐渐发展起来的。在线考试作为计算机辅助教学的一部分,同时也代表了计算机辅助教学延伸的一个方向。应用在线考试
手机的地址本和日程表记载了联系人的详细信息和个人的日程安排等个人信息,为了避免用户因手机损坏或丢失而造成联系人信息遗失,以及减少用户平时在多个终端设备上维护同一份
目的 探讨康复日记结合微信随访在老年慢性阻塞性肺疾病( COPD)合并阻塞性睡眠呼吸暂停低通气综合征( OSAHS)的应用效果.方法 选取2016 年11 月 ~2018 年1 月于我院进行治疗
数据库内容丰富,蕴藏着大量可以用来做智能商务决策和科学推断的信息。构建适用于大型数据库的精确而高效的分类器是数据挖掘和机器学习研究的核心任务之一。模糊逻辑是进行
随着交通仿真技术的发展,交通仿真软件已经成为交通工程研究人员测试和优化各种道路交通规划、设计方案、描述复杂道路交通现象的一种直观、方便、灵活、有效的交通分析工具。
网格技术是基于Internet的分布式计算技术发展起来的一组新兴技术,网格也被认为是下一代互联网和未来的计算基础设施。它把分散在不同地理位置的资源虚拟成为一个强大的信息