统计机器翻译领域自适应的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wht000a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译的准确性在很大程度上取决于翻译建模的质量,而翻译建模往往依赖于数据的分布。通常上,大多数机器学习任务会假设训练数据和测试数据是独立同分布的,然而在实际的系统中,这种假设未必成立。因此,为了达到性能的最优,需要根据数据分布的情况对模型进行适当的迁移。近年来,领域自适应技术成为统计机器翻译研究中的一个热点话题,目的在于解决训练数据和测试数据的领域分布不一致问题。通过进行领域自适应,使得模型更符合测试数据分布,进而得到更好的翻译结果。本文主要针对统计机器翻译领域自适应中四种问题提出相应的研究方法。第一,针对统计机器翻译领域自适应的数据获取和加工问题,提出一种基于图随机游走的领域自适应数据处理方法。统计机器翻译的领域自适应研究需要大量的领域训练数据,这些数据的质量对翻译系统性能有很大影响,这是因为低质量的训练数据会导致错误的翻译知识进而影响翻译建模的质量。传统的数据处理方法通常利用有监督学习策略过滤低质量数据,然而这种方法需要大量的标注数据才能实现,这在特定领域往往是不存在的。为了减少对标注数据的依赖,我们提出一种无监督的图随机游走方法进行数据去噪,这种方法基于高质量训练句对和高质量翻译规则能够互相影响的假设,利用二者的互推荐机制进行建模。实验结果表明这种方法可以有效地对训练数据进行去噪,从而提高了机器翻译性能。第二,针对受限的多领域自适应问题,提出一种基于多任务学习的领域自适应方法。传统统计机器翻译领域自适应的研究通常是将模型迁移至一个具体的领域,然而,这种模型迁移往往无法利用不同领域中的共性翻译知识,因而无法做到同时提高多个领域的翻译性能。基于多任务学习的方法利用了多任务学习机制进行多领域的自动模型迁移,其中为每个领域独自学习领域内模型,不同领域共享同一个通用模型。通过多任务学习的方法,这些模型可以进行联合调参,使得模型学习更为准确。因此,这种方法可以显著一致地提高多个领域的翻译准确性,并且优于独立进行模型迁移的方法。第三,针对开放领域自适应问题,提出一种基于深度学习的领域自适应方法。基于多任务学习的领域自适应方法仅仅考虑句子内部的上下文,无法利用更广泛的篇章级别上下文语境信息。我们进一步提出基于深度学习的领域自适应方法,通过利用大量的话题相关单语文本的信息,使用神经网络的结构学习双语对照数据的话题表示。在翻译过程中,将话题表示附着至每条翻译规则上,这样在翻译解码时,就可以通过相似度量来选择和源语言话题相似的翻译规则。相比于基准系统和其他话题表示学习的方法,基于深度学习的话题表示能够显著地提高机器翻译系统的质量。第四,针对在线实时获取领域翻译知识进行开放领域自适应的问题,提出一种基于互联网实时检索的领域自适应方法。当今的统计机器翻译系统通常依赖大规模互联网抓取的离线数据进行翻译模型和语言模型的训练。相比较于传统的方法,我们创新性地提出一种将机器翻译看作是信息检索问题,通过实时互联网检索获取最新的翻译知识。这种方法利用实时检索获取互联网中出现的最新数据,并抽取最新的短语级别翻译知识并生成句子级别翻译结果。这种基于互联网实时检索的机器翻译技术能够很好地利用海量数据解决特定领域的未登录词翻译问题,同时对于翻译消歧也有很大帮助。此外,当这种技术与传统的翻译模型相结合时,能够进一步提升统计翻译系统的性能。本文提出的方法旨在解决领域自适应的数据获取和加工、受限多领域的协同训练建模、开放领域话题转变以及在线实时获取开放领域翻译知识的问题,基于海量数据支持大规模统计机器翻译系统,取得了显著的进展,同时也对未来统计机器翻译领域自适应的研究提供了新的方法和视角。
其他文献
本文从高等教育必须适应市场经济发展需要的基本理论出发,通过高等教育同科学研究和生产实践相结合的三维结构一体化进程,达到高等教育向国际化发展的必然趋势。
'更快更灵动,更慢更优雅',这是2014年,时任《南方都市报》总编辑的任天阳为报社将来的发展规划的两条方向,在当时国内纸媒已被普遍唱衰的大背景下,《南方都市报》决
<正>目的:应用25G微创玻璃体切割联合内界膜撕除治疗特发性黄斑裂孔,对比填充惰性气体与填充空气对黄斑裂孔愈合的效果。方法:回顾性分析2011年4月至2013年4月在我院治疗的特
会议
经颈静脉肝内门体分流术(transjugular intrahe-patic portosystemic shunt,TIPS),从上世纪60年代一次经颈静脉胆管造影术中误入门静脉而来. 肝硬化门静脉高压症的治疗包括分
营销人员的能力素质并非天生,而是在自身先天素质的基础上,后天不断地努力培养而成。本文认为营销人员的必备能力素质是在其思想道德素质、身心素质和知识素质基础之上融合而
"一带一路"倡议给高校留学生人才培养带来了机遇和挑战。文章通过个案调研,陈述留学生人才培养现状,分析产生的原因,最后探索分析高职院校留学生专业人才培养的途径,提出相关
第十三届全国胰腺外科学术研讨会定于2010年9月17—19日在湖北省武汉市香格里拉大饭店召开。会议将围绕以下议题进行讨论:1.国家科技支撑项目-胰腺癌综合治疗体系研究;2.重症急性胰腺炎的诊治;3.胰腺囊实性肿瘤的诊治;4.胰腺良性疾病的外科治疗(包括胰腺内分泌肿瘤);5.慢性胰腺炎的外科治疗;6.胰腺手术的损伤控制。
多学科团队(multidisciplinary team,MDT)诊疗模式系指来自两个以上相关学科的专家组成相对固定的诊疗小组,通过定期(固定日期)、定时(固定时间)、定址(固定地点)的会议,针对
未苹沟煤矿是一座设计年产量为400万t的新建现代化大型矿井,目前矿井还处在基建阶段,预计2013年6月份进行联合试运转。根据2011年和2012年的瓦斯鉴定结果禾草沟煤矿为瓦斯矿井,
粤选1号匍匐翦股颖果岭草坪7月30日-9月30日期间每2~10d施复合肥(N:P:K=15:15:15)11.11g/m^2,测定草坪草生长特性,结果表明,施肥频率高,促进草坪草生长,而每2d、4d、6d施肥1次,草屑