面向知识图谱的数据抽取的研究和实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:kuuldor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能领域的发展,知识图谱受到了广泛的关注。结构化的数据能够直接用于知识图谱的构建,然而结构化数据存在体量不足、更新速度迟缓的问题,从而导致知识图谱的能力得不到充分发挥。互联网上的非结构化文本数据每天都呈爆炸式增长且覆盖全面,因此从这些文本中抽取出能被知识图谱使用的结构化三元组数据具有重大价值和意义。针对文本数据的抽取,传统的方法一般采用流水线的抽取模式,将三元组抽取任务拆分为实体抽取和关系抽取两个独立的子任务,这种方法存在着误差传播、信息冗余和忽略了两个子任务互相关联的问题。为解决流水线抽取模式中存在问题,本文对实体和关系的联合抽取方法展开了研究。主要工作如下:1、针对上述信息冗余的问题,构建了基于标注策略的联合抽取模型,将实体和关系的抽取问题转化为序列化联合标注的问题。通过引入自注意力机制使模型更能够捕获句子中的长距离语义关系,同时引入了偏置权重,降低了其他无用标签的影响从而提升了模型的抽取性能。模型在NTY数据集上的F1值达到了51.8%,证明了本模型的有效性。2、面对三元组重叠的句子,现在的联合抽取模型通常在这方面表现都不是很好。针对三元组重叠问题,构建了基于分解标注策略的联合抽取模型,将三元组的抽取任务划分为头实体抽取、关系和尾实体抽取两个子任务并进行分开标注,首先识别句子中所有可能的头实体,然后根据头实体找出在每种关系下可能存在的尾实体。通过引入结果纠错模块对抽取结果进行筛选从而提升了模型的精确率。最后在Web NLG数据集上,该模型的F1值和其他模型相比提升了1.2%取得了最好的抽取效果。3、为了从互联网上采集到足够的文本数据用于信息抽取,设计并实现了一套分布式数据采集框架。该框架采用一主多从的模式,实现了对互联网上目标数据的并行采集,极大提升了数据采集效率。最后通过该框架实现了对娱乐领域新闻数据的采集,为后续的针对该领域的信息抽取提供了语料支持。4、将本文提出的抽取模型结合从互联网上采集到的新闻数据,实现了将娱乐领域的新闻文本数据转化为三元组数据,为后续构建娱乐领域的知识图谱提供了数据支持。
其他文献
金融对于实体经济的重要性是不言而喻的,利用好金融市场、金融工具,可以为实体经济注入活力,但是如果过度依赖金融,对实体经济则会产生负面的影响。2012年以来,我国非金融企业的金融化趋势明显,具体表现在固定资产投资支出的减少和金融资产投资的增加,从宏观数据上发现,我国城镇固定资产投资同比增幅逐年下降,“脱实入虚”现象显著。因此,搞清楚非金融企业近年来为什么会出现金融化趋势且又会对企业自身以及实体经济产
随着我国经济的迅速发展,现代企业的竞争,已经不再是单个企业的竞争,变为由所有价值增值人员构成的商业系统的整体竞争。企业通过连续并购对产业链两端进行延伸,一些想要获得市场竞争优势的企业甚至设立了全产业链的战略目标,为全产业链布局而并购行业内的其他优秀企业,全产业链连续并购的创新模式也因此受到关注。近几年,医药安全问题备受关注,2020年1月新冠疫情爆发以来,中国医药行业冲上历史高位,中药防病治病的独
绩效评价对企业改善经营管理的作用日益凸显,新旧动能转换发展战略的制定和实施为企业绩效评价提供了崭新的思路。创新,是新旧动能转换的基础和引擎,注重的是解决企业发展的驱动力问题,在新的时代背景下,“创新”要素在企业经营管理与绩效考核中的作用不容忽视。随着现代化进程的加快,中国钢铁产业的发展速度和规模均在逐渐扩大,粗钢产量在世界上排在首位,但是从中暴露出的问题也很明显,创新发展动力不足、资源利用率较低、
液压挖掘机自问世以来,就被广泛应用于各类挖掘作业施工场合,已经成为最重要的工程机械之一。由于传统的燃油挖掘机总体效率较低,在工作过程中会造成大量的噪声污染与空气污染,不适用于医院、隧道等特殊场合的施工作业,电动挖掘机势必会成为未来发展的趋势。而传统电动挖掘机的定转速容积调速系统电机转速固定,电机效率较低,提高电动挖掘机的效率已成为电动挖掘机发展的新方向。本文从提高电机效率与降低液压系统溢流损失角度
在人工智能时代,集成电路芯片在通信设备、消费电子、航空航天、工业制造等各个领域的应用都不可或缺。因此芯片的需求量日益增多,质量要求也逐步提高。集成电路测试是贯通设计、制造、封装、应用的芯片产业链全过程的关键环节,关系到芯片成品的性能、质量和寿命。由于芯片体积小,精度高,需求量大,因此芯片测试的精确度和效率问题在芯片生产中是不能忽视且有技术难度的。在芯片生产制造封装等过程中,导线键合(Wire Bo
城市道路是构成城市交通系统的主要成分,也是人们生活必不可少的基础设施。为了缓解城市道路结构快速变化和交通拥堵等带来的问题,需要及时高效地提取和更新城市道路信息,如何确保提取道路的精确性以及尽可能地反映当前道路最新的情况,已成为城市交通管理和智能交通领域的研究热点。在GPS定位技术的支撑下,利用无线传感器采集数据的方式得到了的迅速发展与普及,借助其生成的浮动车轨迹,可以直接提取道路信息,相较于传统测
随着计算机硬件和软件的高速发展,我们在工作生活中接触到的数据类型日渐丰富,如文件、纪录片、短视频、图片等,这些数据的存储需求也是与日俱增,高效地存储并访问短视频以及聊天软件中的图片、小视频等数据是目前存储需要解决的问题。现有的对象存储系统,大多是被用来存储非结构化类型的数据,在实际的业务交互中,大部分的操作都需要访问元数据管理服务器,元数据的处理速度在一定程度上影响着整个系统的效率。由于非结构化数
在印制电路板(Printed Circuit Board,简称PCB)的机械钻孔加工过程中,PCB微钻磨损会直接导致PCB孔壁粗糙度的恶化,进而影响PCB的电气性能和使用可靠性。为了在钻孔过程将PCB孔壁粗糙度及时的控制在标准范围内,有必要依据磨损量特征对孔壁粗糙度展开预测研究。然而,目前实际生产中通常只是依据钻孔次数的经验值对微钻磨损和孔壁粗糙度进行合格与否的判断,缺乏严格准确的量化预测方法。因
光声效应检测技术因其强大的安全性和穿透性在无创血糖检测领域具有十分广阔的研究前景。本课题主要从光声效应的原理分析出发,通过搭建实验系统采集葡萄糖溶液的光声信号,分析信号与浓度之间的特征关系,并构建信号特征与浓度的算法模型,使用算法模型预测光声信号的对应的葡萄糖含量浓度值的准确度作为模型优劣的评价标准。预测结果统一采用克拉克误差网格(Clark Error Grid,CEG)分析。本文主要研究内容如
因为信息时代的来临,通信与导航技术在互相交融中迅速发展,位置信息服务作为一种新兴的战略型产业已逐步融入到大众的日常活动之中。在室外导航与定位技术中,卫星导航已经广泛应用于每个人的生活,随之而来的就是位置服务从室外导航与定位转变为室内导航与定位的新纪元。根据近年来国内外学者所研究的方案,面向室内位置信息服务需求的定位技术从大体上归纳为四大类,它们分别为全球导航卫星技术(Global Navigati