基于短语的统计翻译模型的研究与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lichao984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究提高基于短语的统计机器翻译系统的性能的方法。基于短语的统计机器翻译方法具有在翻译的过程中应用上下文使目标语言的构建更为合理且符合自然语言特征,通过无监督的形式从数据中学习得到短语翻译对,不需要语言资源来辅助学习过程等优点。但是,对于句子中短语间的长距离调序以及非连续的固定搭配翻译等问题,目前没有一个理想的办法来解决,使得基于短语的统计机器翻译系统性能仍不如意。 本文通过以下三个方面的改进提高了基于短语的统计机器翻译系统的性能:对目标语言语料库进行了复合词的捆绑处理,提高了词语对齐的精度;对Och的短语抽取算法进行了改进,解决了局部连续短语以及非连续短语模板的抽取问题;引入了翻译模板的概念,利用模板自动抽取方法,构造了农业领域模板,在一定程度上解决了目标语言语序混乱问题;在此基础上构建了基于短语和模板的双层翻译模型,并结合语言模型及相应的解码算法,实现了一个面向农业领域的汉语到民族语言的统计机器翻译系统,最后将该系统嵌入到农业知识处理平台中,利用记忆库,词典以及编码统一处理技术,完成了基于UNICODE编码的汉民(汉蒙、汉维、汉彝)双语农业知识处理统一平台。 实验表明,本文提出的基于短语和模板的双层翻译模型的统计机器翻译系统在性能上超过了原来的系统。复合词的捆绑处理使得词语对齐结果更精确。局部连续短语及非连续短语模板的抽取,在一定程度上扩充了语料库,尤其对于汉语和民族语言这种目前规模还相对较小的双语语料库来说,采用这种翻译方法,可以减少未登录词,提高翻译效率。在统计机器翻译方法中融合翻译模板的翻译方法使得系统的WER、PER值有了较大幅度的降低,BLEU值也有所提高,且较好地解决了句子的长距离调序以及非连续固定搭配的翻译问题。
其他文献
随着传感器技术、信息处理技术和计算机技术的发展,飞行器的全天候飞行逐渐成为可能。飞行器全天候飞行面临的最大问题是在飞行过程中经常面临退化视觉环境,导致飞行员无法观
油管柱腐蚀是影响石油开采时间成本以及物资成本的一个重要因素。油管柱腐蚀会降低油管柱的工作寿命,降低石油开采效率。如何准确预测工作环境中油管柱腐蚀速率,更换与维护油
本文论述了某型机载雷达伺服控制系统设计过程及相关平台补偿算法的研究。通过对相关软硬件的设计,初步完成了某型机载雷达伺服控制系统的设计工作。本论文首先论述了该课题
场景分类是20世纪90年代末兴起的一个新的研究领域,近几年成为研究的热点。作为计算机视觉、人工智能、认知科学、数据库、模式识别与人机交互等多学科的交叉技术,场景分类更
模块化神经网络(MNN)是采用多个神经网络以合作或竞争的方式所构建的学习系统,其试图以多个神经网络来探索各个子学习机的不同行为,从而提高整个学习系统的精度和可靠性。面
目前等离子体在半导体加工、材料改性、低温杀毒以及污染治理等诸多领域的应用研究蓬勃发展,等离子体中的电子密度、电子温度、悬浮电位等特性参数与应用对象有着直接密切的关
近年来,危险化学品公路运输事故频繁发生,造成的后果十分严重,危险化学品公路运输的安全形势十分严峻。为了减少事故造成的人员伤亡和财产损失,提高运输安全性,急需开发危险
本文依托于国家863计划资助项目“油气输送管线检测装置标验及率定关键技术研究”(项目编号:2006AA092324),开发研制一套用于海底输油管道内壁的变形检测装置。随着海上油田
直升机因活动于易结冰的中低空高度,且其旋翼运动速度较高,故而结冰形势较固定翼飞机更为严重,也更容易导致危险事故的发生。旋翼是直升机最易结冰的部件之一,且对直升机的安
据卫生部统计,自90年代以来原发性肝癌已上升为恶性肿瘤的第二位,而B超检查作为普查肝癌的首选方法,由于受肝癌B超图像质量方面的因素及恶性病变良性表现和观察者视觉疲劳或