基于图文信息增强的汉—越伪平行句对抽取方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:lilinchang0105
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
平行句对抽取是缓解低资源机器翻译中数据稀缺问题的关键任务,同时也是提升机器翻译性能的重要手段。但是目前平行句对抽取的方法都是基于句子语义相似性度量,并没有考虑不同词语在句子中语义表征的难易程度,同时主要集中在句子级别,忽略了文档级上下文信息以及图像所包含的信息,提取到的句子语义信息不充分,抽取到的平行句对质量不高,导致了汉-越神经机器翻译(Neural Machine Translation,NMT)性能不佳。所以本文针对上述问题,研究如何有效利用可比语料资源,从大量的可比语料库中抽取出高质量的汉-越伪平行句对,提升低资源下汉-越神经机器翻译的性能。该文首先介绍了平行句对抽取的研究现状以及存在的问题与挑战;然后分析了汉-越可比语料的特点,探索基于互联网资源的汉-越可比语料的获取方法;其次从词级研究了基于语义自适应编码的方法抽取汉-越伪平行句对,以增强句子的语义表征能力;接着研究了融合文档级上下文信息的汉-越伪平行句对抽取方法,使得模型具有上下文感知的能力,提升句子上下文语境信息;在此基础上,还研究了融合图像信息的汉-越伪平行句对抽取方法,使得模型能够共同关注文本和图像,丰富句子的语义信息;最后,研发了面向汉-越小语种的机器翻译原型系统并介绍了未来的研究方向和发展趋势。本文的主要贡献如下:(1)提出了一个双向LSTM加语义自适应编码的语义表征网络框架,根据句子中单词表征难易的不确定性,引导模型使用更深层次的计算。具体思路为首先对汉语和越南语句子进行编码,根据句子中单词语义表征的难易程度,自适应的进行表征,深度挖掘句子中不同单词的语义信息,实现对汉语和越南语句子的深度表征,然后在解码端将深度表征的向量映射到统一的公共语义空间中,最大化表示句子之间的语义相似度,从而提取更高质量的汉-越伪平行句子。实验结果表明,模型在F1得分上提升5.09%,优于基线模型,同时将提取到的句子对用于训练机器翻译模型并显示了翻译性能的显著提升。(2)提出了一种融合文档级上下文信息的方法,用于提取更高质量的汉-越伪平行句子。具体思路是在了解源语言和目标语言文档级全局语境的情况下分别对每个句子的语境进行建模,使用四个新的上下文编码器来扩展Transformer模型以表示文档级上下文,然后将其并入到原始的编码器中,最大化表示句子之间的语义相似性。实验结果表明,在汉-越文档级数据集上本文方法在F1得分上提升了7.15%,相比基线模型有了明显的改进,同时将提取到的句子对用于训练机器翻译模型,在BLEU值上最高提升了0.63,显著提升了机器翻译的性能。(3)针对目前伪平行句对抽取的研究工作都是基于文本的,只关注源语言和目标语言文本句子,比较单一,忽略了图像所包含的信息,导致模型提取到的句子语义信息不足的问题。本文提出了一种融合图像信息的汉-越伪平行句对抽取方法。具体思路是利用Transformer模型对源句子进行编码,然后利用一个新的图像特征提取器来扩展句子编码器,并将提取到的图像特征利用注意力机制融合到句子信息表示中,图像特征提取器主要是获取图像的语义信息作为知识,用于丰富句子的语义信息。实验结果表明,在对齐的汉-越文本和图像数据集上,本文方法相比基线模型有了显著的提升。
其他文献
引言2021年7月24号,"双减"政策出台。"双减"的任务之一就是要减轻学生不合理的作业负担。而教师作为作业布置的主体,应重视作业的设计。本文就初中英语作业设计中存在的问题,结合课例阐释如何在课程视域下提高作业设计的质量,以便更好地发挥作业的积极作用,落实"双减"政策。
期刊
着装场景下的人体姿态估计能有效提高虚拟试穿的真实性和动感展示,因此,准确估计出着装图像中的人体姿态,对辅助二维虚拟试穿具有重要作用。本文针对时尚着装场景中由于服装款式多样、背景干扰、着装姿态多变等因素,导致着装人体姿态估计精度较低的问题,以时尚街拍图像为例,首先,通过爬取大型时尚街拍图像网站Chictopia,并结合在线图像搜集获得数据集原始图像,使用Label Me对图像进行精细的人体信息标注,
太阳日冕结构的密度、位置和形状短至几秒钟就会发生变化,较大的动态范围,造成望远镜拍摄的日冕结构边缘模糊且噪声较大,使得可视化困难。随着数字图像处理技术的发展,盲退卷积算法对于要求恢复结构准确性和真实性方面提供了科学的理论依据。图像退卷积算法是图像复原增强领域的一个经典问题,因为方程的求解是欠定的,所以在退化模型的构建,清晰图像和模糊核的先验信息,失真效果的抑制,迭代算法的稳定与准确方面,越来越多的
当前,针对代码质量研究十分重要。基于源代码的代码质量分析技术一般借助于静态分析或动态测试方法对源代码进行度量,具有简单、易实现的优点,有助于代码质量的分析。随着开发者社区和代码托管平台成为程序员获取代码的主要途径,针对代码的用户评论数量急剧增加。用户在使用代码后给出的评论中包含多种代码质量信息,基于用户评论的代码质量分析可以站在用户角度进行代码质量分析,从而帮助开发者在了解用户的代码使用情况和用户
数据驱动模式是材料基因组计划(MGI)的核心问题,但如何快速获取大量材料数据已成为需要解决的关键问题。目前,材料数据库的共享性较差,很难从公共资源中获取有效的材料数据。因此本文采用文本挖掘的方法从Al-Si合金材料文献中获取有效数据。自然语言处理(NLP)是一种常用的文本挖掘方法,关系抽取(RE)作为自然语言处理的主要任务之一,可以有效地从文献中提取信息。本文采用Al-Si合金实体关系联合抽取模型
随着人工智能技术的发展以及司法数据的公开,司法领域的人工智能研究与应用受到了广泛关注。罪名预测作为法律判决预测中一个重要子任务,它是司法智能辅助系统的重要组成部分。罪名预测任务根据案情描述和事实预测被告人被判的罪名。罪名预测通常被看作司法领域的文本分类问题,已有方法大多采用深度神经网络构建罪名预测模型,在常见罪名的预测方面取得了很好的效果。然而,已有研究对罪名预测任务中的数据不平衡现象关注较少,导
日冕喷流是太阳大气中普遍存在的太阳活动现象,对它的研究有助于揭示太阳大气中的能量传输和释放的机制。它往往发生在相对比较小的区域,和磁浮现和磁对消密切相关。如果能很好的把太阳大气中的喷流识别出来,特别是小的、弱的喷流,就可以清楚知道日冕喷流到底对太阳风加速和日冕加热起多大作用。在以往的研究中,喷流爆发的同时,会有耀斑或者日冕物质抛射的发生,所以对于日冕喷流的检测也有利于其他太阳活动现象的研究。随着科
随着互联网的飞速发展,P2P系统以其快速、可靠的性能越来越成为共享经济时代不可忽略的重要组成部分。而针对P2P信誉系统的女巫攻击通过注册大量节点与目标节点交互,利用不公平评价操控目标节点的信誉变化,对系统造成严重破坏。因此,如何有效抵御女巫攻击成为保障P2P系统稳定运转的重要问题。然而,现有关于女巫攻击防范的研究多侧重于对女巫攻击者操控的节点(女巫节点)进行探测,利用深度学习或者贝叶斯网络等技术将
我国矿产资源丰富,各式的矿物品种种类多、储量大。开采矿产资源不可避免的会破坏矿区的生态环境,导致滑坡等地质灾害。为预防灾害的发生,需要对矿区进行长期连续的监测。合成孔径雷达干涉测量(InSAR)技术被越来越多的应用到矿区的形变监测中。露天矿是一种特殊的土地利用单元,在矿区中往往形变梯度大、采区裸地多、人工地物少、矿区周边植被茂密,常规的时序InSAR技术能够获取矿区监测点的密度较低。引入分布式目标
近年来,红外与可见光图像融合在各种基于视觉的应用中具有重要意义,因此受到越来越多的关注。然而,现有的融合方法中,一般都要求输入的多张源图像和输出的融合图像的空间分辨率一致,这在很大程度上阻碍了这些方法在实际场景中的应用。并且,当源图像分辨率都较低时,得到的融合图像分辨率也会比较低,即所包含的信息不够充分。针对这些问题,本文提出了一种基于元学习的任意分辨率的红外和可见光图像融合网络,有效提高不同分辨