基于非平行语料的双语词汇表示学习

来源 :清华大学 | 被引量 : 0次 | 上传用户:kangta98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际交流的日益频繁,跨语言的顺畅沟通成为越发迫切的需求。在这个背景下,跨语言的自然语言处理将发挥其重要的作用。词汇的表示是几乎所有自然语言处理任务的基础,在跨语言自然语言处理中,双语词汇表示学习也得到了研究人员的广泛重视。尽管平行语料是此任务的理想语料,但由于平行语料是稀缺资源,对于许多小语种以及专门领域而言,非平行语料更为丰富,所以利用非平行语料学习双语词汇表示具有更广的应用前景。然而,由于非平行语料中的跨语言信号更难捕捉,因此对于学术研究来说也更有难度。已有的相关工作大多仍依赖双语监督信号进行学习。本文以双语监督信号为线索,讨论相关工作中存在的挑战,并针对各个挑战依次介绍相应的研究工作。主要内容包括:1.有监督场景。已有的双语词汇表示学习研究大多在双语监督信号充足的条件下开展。尽管如此,仍然存在着有待解决的挑战。比如,构建双语词典时通常采用的最近邻查找有其局限性;又如,已有的工作不考虑自然语言之间广泛存在的一词多译现象。本文提出使用earth mover距离进行词汇翻译,发现其能够克服最近邻的局限性,同时能够自动处理一词多译的情况。此外,将此思想从词汇翻译过程引入双语词汇表示的训练过程,能够更进一步发挥其效果。2.弱监督场景。对于许多小语种和专门领域而言,双语监督信号往往是难以获得的稀缺资源。面对这种监督信号缺乏的挑战,本文提出了一种基于隐变量的双语词向量匹配模型,能够充分利用有限的双语监督信号,使得此任务在弱监督场景下也能取得良好的效果。3.无监督场景。沿着监督信号缺乏的挑战更进一步,本文探索了无监督场景下进行双语词汇表示学习的可能性。首先,本文尝试利用对抗学习的思想对此问题进行建模;随后,本文提出了更为普适的分布距离最小化的框架,并选用earth mover距离作为分布距离的选择。实验结果表明,即便是在无监督这样苛刻的条件下,进行双语词汇表示学习仍是可行的。
其他文献
文章从现实生活中存在的若干重大经济社会问题出发,分析这些问题的性质,寻找它们的直接根源与认识根源,并从经济发展战略的指导思想和理论高度指出政府经济管理理论基础存在的某
近年来,我国正处在突发事件高峰阶段,在未来很长一段时间内,我国政府都将面临突发事件所带来的严峻考验。有效地应对公共危机和突发事件,维持人民安居乐业的社会秩序,是各级政府不
科技创新是现代社会经济发展的主要推动力,科技创新企业是科技创新的主要载体,而政府则是科技创新的主要保障和推动力量。政府的作用必须限制在一定范围之内,着力为企业构建
近年来无线电能传输技术成为了国内外研究的热点,已经开始在一些领域替代传统通过导线传输电能的方式,为人们的生活带来极大的便利。可以看到将有线充电改为无线充电方式已经成为目前许多消费产品升级换代的形式,然而为了保持用户对于产品以往的使用习惯,将产品的供电方式由有线供电改造成无线输电或者在使用导线充电的基础上为设备添加无线充电的功能时,一般要求不改变现有产品的外形,这往往限制了电能接收端在设计上的选择,
数学和哲学作为两门最古老的学科,从古至今,二者都是相互渗透的.从微积分的诞生形成到今天的发展过程中,都充分印证了唯物主义方法论和极限层次的思想,并且微积分传统的思想
伴随着我国高速公路建设的快速发展,高速公路的路网开始形成,其密度相对较大,有利于人们日常出行。然而,高速公路交通安全管理问题日益凸显出来,由于在高速公路上行驶的车辆速度非