基于跨语言迁移学习的实体关系抽取算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:a370412412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,在数据与算力的双重加持下,深度学习引发的人工智能浪潮席卷全球,为了让计算机做到对语言的精准理解,需要赋予其大量的先验知识,这些知识主要以结构化知识进行表示。可是与现实世界快速增长的知识量相比,结构化知识的覆盖度仍未赶上。为解决这个问题,研究人员使用实体关系抽取算法自动抽取文本中蕴含的知识,但在非英文环境下,由于数据量和文本表示的问题,算法的抽取结果与英文算法的抽取结果间存在巨大差距。为了消除语言间的差异,目前方法多采用参数迁移,标注投影等启发式方法进行跨语言信息抽取,这些方法没有考虑语言间的差异,且多数需要给定严格的限制以保证效果。针对不同语言实体关系抽取模型之间的性能差距大,现有方法在语言间信息迁移效率不高的问题,本文探究高效的跨语言信息抽取技术,取得的主要成果有:1、基于反向注意力机制的命名实体识别:该方法反向采用翻译模型的注意力权重进行信息迁移,将预训练的高资源语言命名实体识别模型提取的特征用于低资源语言命名实体识别。翻译模型注意力权重的对齐信息相比于人为标注更加精确,并且对齐信息的对称性可以将预训练模型中得到的任务相关特征迁移到源语言,从而丰富原始数据的语义表示。在多种不同语言的经典数据集上的实验结果表明,该方法可有效提升模型对单一语言的命名实体识别效果,特别在标注数据有限的数据集上提升更为明显。2、多语言分段卷积神经网络:该方法通过多语言的语言模型将多种语言映射为同一空间的词向量,再分别通过卷积抽取每种语言的特征,之后使用分段最大池化得到双语特征,最后利用双语特征进行关系识别。这种方法有效利用了不同语言间语义的互补性和知识的一致性。该方法在人工标注数据集与远程监督数据集上均表现出比之前方法更好地性能,证明该方法能有效融合双语特征。综上,本文针对实体关系抽取技术在不同语言间存在性能差距的问题,研究了跨语言的迁移学习、联合学习方法。最后,希望本文可以对跨语言信息抽取研究提供一定的参考和帮助。
其他文献
高校寝室文化建设是高校文化建设的重要内容, 大学生以其行为准则、 生活方式、 交往模式等形成了高校寝室文化, 既彰显了当代大学生的生活状态, 同时, 也影响着高校学风、
<正>在经历过岁月的洗礼后,朱茵不再年轻。她说自己和"紫霞"不同之处在于,"紫霞"会一直等,而她等不到就会走。她早已饶过了自己,宽恕了时间,还有那物是人非的从前。有人曾说,
实验室中制备压电陶瓷需对不同尺寸和组分的试样单独进行极化,繁琐耗时且一致性差。提出并设计了一种新型极化装置,可对每个陶瓷试样施加不同的电场,同时极化多个不同材料和厚度
阐述了化学链燃烧的基本技术原理、常见的动力学模型及其载氧体应具备的条件,并从载氧体的选取、化学链燃烧反应器的发展两个方面对当前化学链燃烧技术的发展现状和存在不足
随着国有企业改革的不断深入,职工群众与国有企业之间因利益调整而产生的矛盾有增加的可能。我们要以马克思主义中国化的最新成果为指导,大力加强和改进国有企业思想政治工作
为加快推进淮安水稻产业转型升级,笔者以水稻品种选用优质化、生产技术绿色化为切入点,依托项目支撑,于2017年、2018年连续两年示范种植优质食味粳米新品种南粳505,并开展配
通过旅游线路影响因素分析,针对不同的旅游需求或目的,提出相应的数学模型,对旅游线路进行优化设计。以游览洛阳龙门石窟等中国十大景点为例,考虑现实世界中人们对于旅游的五
随着世界经济一体化趋势不断加强,国际资本市场全球化进程加速和知识经济的飞速发展,改革的进一步深化,我国会计理论也在不断发展,日臻完善,与国际趋同。新会计准则对我国企
不可见水印技术的发展为解决电子文件打印、复印和扫描传递使用中产生的安全风险问题提供了新思路。本文通过对三种代表性的不可见水印技术进行安全性评价,设计出一种面向不
HBV慢性感染是人类中最严重的病毒感染之一,全球超过3.5亿人为HBV慢性感染者,其中很多感染者发展为肝炎,肝硬化和肝癌(Hepatocellular carcinoma,HCC)。肝癌是导致全世界第六