基于扩展参考译文的机器翻译自动评价研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:klwxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译的发展历经词典匹配的方法、与语言学科知识相结合的方法、与语料库相结合的统计机器翻译方法、神经机器翻译方法等几个阶段,逐渐走向成熟。机器译文的自动评价是机器翻译技术中的一项重要研究内容,可以通过机器翻译评价来发现翻译系统中存在的缺陷,进一步促进翻译系统的发展。译文的质量主要可以通过人工和计算机两种方式来进行评价。人工评价是出现时间较早,该方式评价的结果比较准确,但极大地耗费了人力资源,而且一般需要较长时间。人工评价的另一个问题是带有一定的主观性。例如,评估同一句话时,不同的评估者给出的结果可能会有差别,缺乏一致性。而自动评价方法的出现恰好弥补了人工评价的不足,它能够快速地评测出一个机器翻译结果的好坏,与人工评价的方法相比,该方式成本低,可以更高效地对机器翻译作出评价。通过比较机器译文和参考译文的相似程度来判断译文质量是多数自动评价方法所使用的策略。因此,参考译文数量的多少以及对其信息利用的程度是影响评价方法性能的两个主要因素。本文通过扩展参考译文、两端依存分析算法一致性等方法对现有机器翻译评价方法DPF(Metric based on Dependency Parsing and F-score of Unigram)进行改进,主要研究内容包括以下三个方面。(1)参考译文由人工给出,个数比较少,在机器翻译评价方法的评测中一般给出的参考译文的个数为一个或四个。例如,在评价方法DPF中只有一个参考译文。一般来说,参考译文数量越少,所覆盖的信息越少,而参考译文所覆盖信息的程度将影响评价方法的性能。针对参考译文数量少的问题,本文提出了基于扩展参考译文和依存分析模型的评价方法Ex DPF(Extend DPF),该方法对参考译文进行扩展,增加了原参考译文所覆盖的信息,并且把扩展后的参考译文加入到基于依存分析模型的评价方法DPF中,以得到性能更好的评价方法。(2)参考译文信息是一定的,对其利用越充分,评价方法的性能会越好,反之,性能越差。现有评价方法DPF在评价过程中需要用到参考译文和机器译文两端的依存树,在获取依存树时,DPF在这两端分别使用了不同的依存分析算法,两端算法的不一致性使得该评价方法不能充分利用参考译文信息,对机器译文依存树的质量有一定影响,进而对评价方法的性能产生影响。针对DPF方法对参考译文信息利用不充分的问题,本文提出了基于最大熵依存分析模型的评价方法MDPF(Maxmum entropy DPF)。该方法在获取参考译文和机器译文两端的依存树时都使用了最大熵依存分析算法,两端算法一致,使得评价方法对参考译文信息的利用更加充分。实验结果证明,MDPF方法在目标端为英语的语言对上获得了比DPF更好的性能。(3)为了同时解决DPF方法中参考译文数量少以及对参考译文信息利用不充分的问题,本文提出了结合扩展参考译文和最大熵依存分析模型的评价方法——MEx DPF(Maxmum entropy Extend DPF),该方法首先对参考译文进行扩展,然后在对机器译文和参考译文两端获取依存树时,都采用了基于最大熵的依存分析模型。参考译文的扩展增加了其所覆盖信息的程度,并且两端依存分析算法的一致性可以使多个参考译文的信息得到充分地利用。实验表明,该方法获得了比Ex DPF和MDPF更好的性能。
其他文献
近年来,在数据爆炸、信息过载的时代下,POI(point-of-interest)推荐任务已经成为基于位置的社交网络(LBSNs)中最重要的任务之一。POI推荐任务通常通过对用户的历史签到数据以及上下文信息进行建模,帮助用户选择他们感兴趣的地点。这不仅有利于用户对POIs的探索,促进用户进行户外活动,还会有利于商家对商业广告进行精准投放,以便他们获得更高的利润。由于POI签到活动与人们日常生活行为
M区块经过50多年的注水开发后,综合含水率达到了91.04%。进入特高含水期后,各层系之间矛盾加剧,剩余油分布零散。通过不断加大油水井调整措施挖潜力度,取得了较好的开发效果,进一步调整潜力逐渐减小。在此基础上,如何进一步挖潜剩余油成为首要问题。本文在对M区块地质特征与开发历程进行详细分析的基础上,建立试验区地质模型与数值模拟模型,明确了各油层组剩余油平面及纵向分布情况。引入易动用含油饱和度界限概念
中国作为一个人口大国,拥有丰富劳动力资源的同时,就业问题也十分突出。在就业压力持续增加的背景下,我国非正规部门和非正规就业的规模不断扩大。非正规部门就业不仅能够缓解我国的就业问题,而且对于我国经济发展具有重要作用。收入是经济发展水平的重要体现,因此研究非正规就业对收入的影响很有必要。非正规就业对居民收入产生了什么影响?鉴于正规就业者和非正规就业者收入的差异,非正规就业对两者之间的影响是否不同?基于
《史記》一書大量徵引了《尚書》《詩經》《周禮》《儀禮》《禮記》及《論語》等儒家經典作爲述史材料,《史記》三家注較爲完整地保存了“十三經”相關古注。鄭玄作爲東漢經
拥有独立研发、自主建设的卫星导航系统是一个国家经济发展和国防力量提升的制高点,星间链路的研究和建设成为导航系统发展的重要方向,有着更高通信容量、更快传输速率的激光通信链路更能迎合未来导航系统发展需要。结合我国无法在全球范围内布设地面站的现状,本文主要关注导航星座网络激光星间链路场景,对星间链路分配方法展开研究。本文提出了一种考虑接入流量分布的建链算法,依据卫星对所覆盖区域的用户流量的转发能力,考虑
CT(Computed Tomography)能无损伤地获取人体内部组织器官的信息,是临床医学极其重要的辅助诊断方式。CT图像仅能提供组织器官二维信息,其病变区域诊断往往依赖于医生的想象,故从CT图像重构实现组织器官的三维再现将有助于提高医生诊断效率,具有重要意义。传统基于计算机图形学的CT图像三维可视化的本质是三维物体在电脑屏幕上的投影,而全息技术能同时记录物体的振幅和相位,是一种理想的真三维可
高油酸花生油是近几年市场上兴起的一种新型高品质食用花生油,富含油酸且营养价值优越,随着人们生活品质的不断提高,高油酸花生油的市场需求量逐渐增加。高油酸花生油在加工、储藏和运输过程中会出现氧化变质问题,另外在烹饪煎炸过程中,不饱和脂肪酸在高温条件下容易发生异构化生成对人体健康有害的反式脂肪酸。因此对高油酸花生油的抗氧化及高温下抗异构化的研究是重要且十分必要的。芝麻酚、白藜芦醇都具有优越的抗氧化生理活
党的十八大确立了建设中国特色社会主义生态文明和美丽中国的战略布局,提出必须树立尊重自然、顺应自然、保护自然的生态文明科学理念,这一重要理念在十八大后得到重大深化和发展,2013年习近平总书记在《关于全面深化改革重大问题决定的说明》首次提出“生命共同体”,这一重要思想在十九大得到确立。但是与人类命运共同体研究相比,对生命共同体的研究是非常不够的。从2019年底开始新冠病毒在中国大地一度肆虐,虽然胜利
众所周知,在传统的反馈控制中通常使用传感器来获得系统状态,然后根据系统的状态实现反馈控制。然而,在实际系统中由于经济上和物理上的限制往往无法通过测量得到全部的系统状态,因此常常通过观测器来实现反馈控制。另一方面,在实际系统中,由于环境噪声、系统故障、器件老化等原因可能会存在各种干扰,从而导致控制的效果不理想。为了解决这一问题,需要使用基于观测器的非脆弱鲁棒控制器,以保证在存在干扰的情况下仍能取得理
排球项目在国人心中占据着重要而不可撼动的地位,是中国竞技体育之荣光。置科学技术分析方法和手段于排球项目研究之中,是现代竞技体育发展形势所趋,也是促进各国竞技水平提