【摘 要】
:
神经机器翻译模型的学习往往依赖大规模的平行语料,然而并不是所有语言对都有充足的平行语料。为了解决神经机器翻译中平行语料缺失的问题,研究人员提出无监督神经机器翻译,通过无监督预训练策略、去噪自编码器、反向翻译和共享潜在表示机制仅依赖于单语语料对翻译任务进行建模。本文针对无监督神经机器翻译,主要研究以下四个方面:1.基于伪平行数据的无监督神经机器翻译及不相似语言对分析。虽然无监督神经机器翻译在一些相似
【基金项目】
:
国家自然科学基金项目“人机协同翻译方法及关键技术研究(U1908216)”;
论文部分内容阅读
神经机器翻译模型的学习往往依赖大规模的平行语料,然而并不是所有语言对都有充足的平行语料。为了解决神经机器翻译中平行语料缺失的问题,研究人员提出无监督神经机器翻译,通过无监督预训练策略、去噪自编码器、反向翻译和共享潜在表示机制仅依赖于单语语料对翻译任务进行建模。本文针对无监督神经机器翻译,主要研究以下四个方面:1.基于伪平行数据的无监督神经机器翻译及不相似语言对分析。虽然无监督神经机器翻译在一些相似语言对上取得显著结果,然而它在诸如中英、日英等不相似语言对上表现很差。因此,本文首先从双语词嵌入质量、共享单词和词序三个方面深入分析在不相似语言对上无监督翻译性能低下的问题,并提出人工共享词替换和预调序策略来增加不相似语言对间的共享单词和减少它们句法结构的差异性,从而提升在不相似语言对上的翻译性能。无监督神经机器翻译中去噪自编码器和共享潜在表示机制仅在训练前期是必需的,学习共享潜在表示限制不同方向翻译性能的进一步提升,特别是对于不相似语言对,同时通过不断修改训练数据进行去噪自编码器训练也减缓模型的收敛速度。针对这一问题,本文提出基于伪平行数据的无监督神经机器翻译模型,利用无监督神经机器翻译系统生成的伪平行语料训练两个标准的有监督神经机器翻译模型,提升翻译性能的同时加快了收敛速度。2.基于双语词嵌入一致性的无监督神经机器翻译。无监督双语词嵌入只是被用于现有的无监督神经机器翻译初始化阶段,在翻译模型训练过程中双语词嵌入质量明显下降。然而,预训练的无监督双语词嵌入质量与无监督神经机器翻译性能呈正相关关系。本文提出两种基于双语词嵌入一致性的联合学习方法,双语词嵌入正则化方法和双语词嵌入对抗训练方法。双语词嵌入正则化方法是在反向翻译训练过程对词嵌入变化进行正则化约束;双语词嵌入对抗训练方法是将无监督神经机器翻译和双语词嵌入进行联合训练,使其与翻译模型产生更多的交互作用。双语词嵌入一致性方法有效缓解了双语词嵌入质量下降,并显著提高翻译性能。3.基于跨语言表示一致性的无监督神经机器翻译。随着预训练策略从双语词嵌入扩展到掩码语言模型,无监督神经机器翻译性能得到大幅提升。掩码语言模型与双语词嵌入一样只被用于初始化翻译模型。实验结果表明不仅在无监督神经机器翻译初始化阶段,而且在无监督神经机器翻译训练期间,掩码语言模型的质量对翻译性能都有显著的影响。因此,本文提出两种跨语言表示一致性方法,跨语言掩码语言模型一致正则化方法和跨语言掩码语言模型知识蒸馏方法,通过加入掩码语言模型训练来提升无监督神经机器翻译性能。跨语言掩码语言模型一致正则化方法,在反向翻译训练过程中同时在编码器端进行掩码语言模型训练,进一步丰富编码器的源端表示。跨语言掩码语言模型知识蒸馏方法将预先训练好的语言模型作为教师模型来指导语言模型训练,充分利用这个语言模型,来提升翻译性能。实验结果表明该方法可以丰富翻译模型的源端表示,并显著提高翻译性能。4.基于知识蒸馏的多语言无监督神经机器翻译。本文将无监督神经机器翻译研究扩展到多语言场景,提出一个多语言翻译模型框架。为了进一步改善多语言无监督神经机器翻译性能,本文提出两种知识蒸馏方法,自我知识蒸馏方法和语族知识蒸馏方法。本文认为在反向翻译训练过程中,源语言通过不同路径生成的重构翻译结果应该是相似的,自我知识蒸馏方法通过构造不同的重构路径更充分地利用多语言信息。语族知识蒸馏方法是将语族翻译模型作为教师模型提取更丰富的语言表示来增强多语言无监督神经机器翻译模型。实验结果验证了本文提出的多语言无监督神经机器翻译系统的有效性,缓解了在低资源语言对中性能低下的问题。
其他文献
平台惯导系统具有精度高、稳定性好、对核辐射等外界干扰因素不敏感的优点,广泛应用在长航时高精度的系统中,特别是在战略导弹中。为提升战略导弹命中的精度,就必须要提高平台惯导系统的精度。目前,相关科研人员主要从两个方面来提升惯导系统的精度,一是采用先进材料与热处理技术,并改进零部件的加工、制造与整体装配工艺,二是提升惯导系统的标定精度并采取必要的补偿措施。在惯性仪表的制造工艺的研究,需要考虑温、湿度等环
伺服电机系统传动链广泛应用于风力发电、数控机床、重型机械等领域,但实际场合中由其故障带来的设备不能正常运转的现象屡见不鲜。近年来,“智能制造工程”的推进对设备的可靠性及安全性提出了更高要求,可以说电机系统传动链健康监测及故障辨识能力已成为下一代高档伺服驱动器的显著标志之一。因此,故障诊断与健康维护技术也迎来了新的发展契机。基于电机驱动系统的诊断方法,利用电机驱动器自身作为智能传感器,通过驱动系统获
相较于基于硬质材料的传统机器人,采用软材料或柔性结构的软体机器人具有更好的仿生特性、更高的运动自由度和更好的环境适应性,可以在狭窄的空间内运动,并在承受外部冲击后不产生结构及功能的破坏。基于所使用的材料及结构的特点,软体机器人还能够实现自修复、自传感、自组装等功能。已报道的软体机器人大多利用能够产生主动可控变形的智能材料与结构进行驱动。虽然每种智能材料或结构在应用于软体机器人时具有自身的优势,但在
第5代(The fifth generation,5G)移动通信技术为我们的生活和工作提供了高速稳定低时延的通信服务。在第5代移动通信技术中,为了在有限的无线资源情况下,获得更高的通信性能,我们需要采用频谱利用率更高的无线通信技术。多输入多输出(Multiple-Input-Multiple-Output,MIMO)方案是其中一种可以提高频谱效率的核心技术。在MIMO方案中,最重要的技术之一是预编
历史城市可以视作文化景观的一种类型,它不仅是文化和自然两方面价值、属性及特征在“人地互动”过程中层层积淀的产物,更是当下城市居民的生活场所。然而,城市人居环境与其历史意义之间的时空联系被缺乏管控的全球化与城市化进程所割裂,导致地方特色逐渐丧失,人们对城市的归属感和认同感也不断削弱。同时,遗产保护与城市其他方面发展之间的失衡,又使得遗产地居民的生活品质遭受严重影响。进入21世纪以来,“景观方法”逐渐
推荐系统已经广泛地融入到了人们的日常生活,并在改善用户体验、提高企业效益方面发挥着重要的作用。但是,推荐系统普遍采用离线推荐方法,周期性地利用大量用户与物品的历史交互数据训练推荐模型,不能及时地捕获隐含在近期交互数据中的用户最新偏好,难以在流式场景中为用户精确地推荐物品。针对这一问题,研究者们提出了流式推荐方法,利用新接收到的交互数据即时地训练推荐模型,有效地捕获用户的最新偏好,从而在流式场景中提
在高频地波雷达系统中,改善杂波抑制效果、提高目标检测性能的有效手段是充分利用目标与杂波在多个维度上的差异,例如,回波的二维波达方向(direction-of-arrival,DOA)以及极化信息的利用都被证明可以带来显著的性能提升。因此,快速、可靠地估计二维DOA和极化参数至关重要。高频地波雷达背景下的阵列信号参数估计通常面临入射信号相关性强、可用快拍数少等问题,传统算法虽然统计意义明确,但大多要
2019年中国进入了高等教育普及化时代,借鉴欧美发达国家高等教育的发展规律,高等教育空间与设施将成为城市中日益重要的角色,并将进一步突出以使用者为中心的空间营造。同时,我国快速的城镇化进程加剧了对能源和自然资源的超常规利用,在倡导资源节约型和环境友好型社会的总体要求下,针对大学校园的设计、建造与管理,国家教育部发展规划司与住房和城乡建设部提出了以节能、节地、节水、节材为核心的绿色校园设计导则,为大
微纳米尺度力学测试技术的发展对微纳米器件的应用具有重要意义。由于微纳米尺度薄膜材料几何尺寸的限制,以及其力学、物理性质等与宏观块状材料有显著的不同,传统试验方法及测试理论已不能满足其发展需求。纳米压痕技术具有测试分辨率高、试样制备简单等优点,得到研究者的广泛关注,但随着新材料的不断应用,存在测试理论不全面、应用范围窄等问题亟待解决。本论文以完善不同薄膜材料体系的本构模型反演方法为目的,分析凸起效应
中东铁路是19世纪末20世纪初由俄国在中国东北修筑的一条具有殖民性质的铁路,也直接促进中国东北开启了从农业文明向工业文明过渡的现代转型。在转型过程中,西方近现代建筑技术借由俄国之手向铁路沿线地域传播扩散,传统的木质抬梁结构逐渐瓦解,新型的砖混结构、钢结构、钢筋混凝土结构扎根蔓延,同时受东北地域严寒气候环境、社会政治、地形地貌、本土文化等诸多语境因素的直接影响,中东铁路近代建筑技术因材致用、因地制宜