油气勘探领域实体关系抽取方法的研究与实现

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:laiwuywg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是信息抽取的核心任务之一,其目标是从文本中识别实体并抽取出实体间的语义关系。实体关系抽取是构建知识库、知识图谱的重要步骤,在智能问答、基于关系的搜索引擎和机器翻译中应用广泛。然而,相较于通用领域,油气勘探领域的实体关系抽取面临着缺少训练数据的挑战。人工标注训练数据代价昂贵并且目前已有的标注方法无法自动化标注大量高质量的训练数据。另一方面,油气勘探领域实体和关系种类多样,难以预定义全部的实体和关系类型。针对油气勘探领域实际情况与现有研究的不足,本文主要开展了以下两个方面的研究:(1)为了解决油气勘探领域实体和关系类型复杂且缺乏大规模训练语料的问题,本文提出了一种基于句法结构的开放实体关系联合抽取模型CSSEM(Chinese Syntactic Structure Extraction Model)。CSSEM利用句法信息并基于少量的标注语料自动学习实体和关系抽取模式。在此基础上,给出了一种基于抽取模式的实体识别方法。最后,结合实体识别方法和关系抽取模式直接从非结构化文本中开放式地抽取实体和关系。基于准确率、召回率、F值、AUC等评价标准,CSSEM与其它模型在新闻、生物、勘探领域的数据集上进行了实验比较,结果表明CSSEM取得了较好的效果。(2)为了利用文本中的辅助信息来进一步提高实体关系抽取的质量,提出了一种利用辅助信息的基于卷积神经网络的中文抽取模型CREBAI(Chinese Relation Extraction Based on Auxiliary Information),该模型使用卷积神经网络对来自文本的句子进行编码,并利用从训练数据中挖掘的附加辅助信息来改进关系抽取的性能。此外,在CSSEM模型抽取模式的基础上,提出了一种基于模式自动标注数据的算法ATDBOPs(Annotating Training Data Based on Patterns),该算法为CREBAI模型提供了训练语料。CREBAI与其它5种模型在2种基准数据集上进行了实验比较,实验结果验证了CREBAI利用辅助信息进一步提高了油气勘探领域关系抽取的性能。
其他文献
照相机和光谱仪的功能广为人知。成像光谱仪就是结合了两者的功能,空间信合和光谱信息都可以通过成像光谱仪获得。由于这种性能,成像光谱仪的运用范围非常大。在本篇论文中,主要讨论的是DMD编码成像光谱仪算法的研究,论文的主要安排如下:1.成像光谱仪以及成像光谱仪的分类、应用和研究现状。引出了编码成像光谱仪。DMD编码成像光谱仪是其中一种方式,并简述了其优点。2.数字微镜DMD是编码成像系统的一个重要器件。
LNG接收站的红外热成像监测具有关键设施体积大、场地情况复杂等特点,对红外热成像的数据清洗、异常识别与定位等提出了更高的要求。针对红外热成像监测技术在LNG接收站应用过程中易出现的问题,本文从异常数据清洗、异常监测及识别、异常区域定位及预警三个方面展开研究,提出相应的解决方案,并根据案例分析结果验证了该方法的可行性和有效性:(1)针对监测过程中异物通过镜头前方引发误报警的问题,提出了基于HOG+S
在油气生产过程中,其原材料大多具有易燃、易爆、有毒的性质,同时因为生产过程连续性强、技术复杂、设备繁多等特性,一旦发生事故,不仅会导致人员伤亡和财产损失,同时也会产生巨大的社会影响,甚至会危害到社会公众安全,产生难以想象的经济损失和无法挽救的后果。本文针对油气生产工艺操作过程中可能存在的操作行为失误,建立工艺模拟操作平台,利用视线追踪技术对操作者的异常认知行为进行监控,将眼动数据和眼动热点图像等特
新时期背景下,智能技术的广泛普及,为机械制造行业进一步发展提供了强大的技术支撑,促进机械制造技术愈加成熟,在一定程度上提高了社会生产水平,为国家经济建设奠定了良好基础。基于此,本文将针对新时代背景下我国机械制造与智能制造现状进行分析,深入探索机械智能制造的特点和意义,并对机械智能制造技术展开研究,希望能够为专业人士提供参考、借鉴。
对学生学业进展及影响因素进行可视化与分析有助于优化课程结构和师资配置,改进专业课程教与学的过程,提升大学各专业的教学质量。然而,长时间跨度的离散化学生成绩数据难以直接展现学生学业进展;学生成绩又具有高维多元、时序相关等数据特征,且易受学生自身、课程结构和教师等多因素影响,对分析过程带来挑战。为此,本文面向专业教学的学业进展分析进行可视化与交互设计研究,并开发了可视分析原型系统——APVAS,支持从
手写文本(字符串)识别方法是将手写文本转化为电子文本的技术。近年来随着计算机技术的发展和深度学习方法的兴起,涌现出多种字符串识别方法。它们按照对输入图片的切分思路可以分为两类:基于显式切分(也叫过切分策略方法,over-segmentation)的字符串识别方法和基于隐式切分(也叫无切分策略方法,segmentation-free)的字符串识别方法,两种方法其各有优缺点。本文拟融合两种方法,利用这
油藏生命周期是指油田从勘探、开采、加工、储存和运输到销售的所有业务和数据。随着油田长期开采和注水开发的深入,特高含水油田的高耗水层不断发育,导致油田开采效率低下,不利于提高原油采收率,大大增加了成本。因此,立足于油藏生命周期的全过程,研究如何改善高耗水层油藏的开发、提高油田采收率对我国石油行业具有十分重要的意义。针对油田高耗水层普遍发育、开采效率低下的问题,本文以孤东油田历史数据为研究对象,展开了
我国石油企业经历多年的安全管理存储了大量的安全管理文本数据,由于这些文本数据种类繁多,而且是非结构化数据,本文旨在找出隐藏在大量安全管理文本数据中企业的管理短板及安全隐患,降低企业风险,提升企业的安全管理水平。本文针对非结构化的文本数据,采用分词、词性标注等文本挖掘技术,结合关联规则算法,构建一种针对石油企业安全隐患文本数据的挖掘方法,找出安全隐患及漏洞,并编制了面向石油化工领域的文本挖掘软件。(
近年来随着国家加大环保治理力度,颁布了新的工业污染物排放标准,对于原油炼化企业催化裂化装置的达标排放提出了更高的要求。大数据时代下,需要切实提升监测手段,结合机器学习方法进一步挖掘和发挥污染源在线监控系统作用,减少或避免环境污染事件及其他重大环境问题的发生。污染排放数据在采样、传输与存储过程中,会受多种因素影响而产生异常值。为避免异常值对后续数据分析与预测的影响,数据清洗是必不可少的重要环节。本文
近年来,由于数据量的大幅度增长和计算机硬件水平的提升,以生成对抗网络(GAN)为主体框架的深度学习逐渐成为热点话题,并在很多领域的应用中取得较好的效果。同时,对多元时间序列数据的异常检测,无论在智能运维还是电力或网络系统监测等方面都起着至关重要的作用。基于深度学习的异常检测比传统的机器学习算法更能挖掘出数据中的特征表示,因此将GAN应用于多元时间序列的异常检测是一个非常重要的研究方向。本文工作主要