基于双向LSTM的专利因果关系抽取

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:lsh123456lsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因果关系反映了事情之间先后相继、由因及果的发展关系。专利文本中的因果关系体现了专利的技术核心,有助于精准挖掘专利信息,也有助于专利知识图谱的构建。虽然因果关系抽取是自然语言处理领域一个经典的研究方向,但针对专利语料方面的研究较少。目前用于因果关系抽取的方法中,存在隐式因果关系抽取困难,边界识别模糊的问题。针对这些问题深入研究,主要工作包括:(1)构建专利因果指示词表。针对隐式因果关系抽取困难问题,分析了专利文本中隐式因果关系的特点,提出了专利文本的隐式因果关系的定义,并提取能代表专利中隐式因果关系的连词,结合常规因果关系指示词构建种子词表,进行同义词词林扩充。(2)提取专利因果指示词特征信息及其它词语与指示词的相对位置信息,解决专利因果关系抽取边界识别模糊问题。(3)提出融合句法、依存路径信息的两层Bi LSTM模型。在专利文本中,相关联的词和短语未必相邻,存在长距离依赖问题,采用Bi LSTM融合句法、依存路径信息来解决远距离词语之间依赖特征随句长消失的问题。句法、依存路径分析提供了词语在树形结构上与远距离词之间存在的依存或搭配关系。通过引入注意力机制更合理地分配词向量特征与句法特征的权重比例,并利用CRF(Conditional Random Field)完成最后的因果关系识别任务。(4)选取了化学类专利文本2465篇,在摘要及技术背景中,抽取出了9836条包含因果关系的语句。其中专利隐式因果关系句有5827条。采用F1值作为抽取效果的评价指标,分别在CRF模型、Bi LSTM模型、Bi LSTM_CRF模型、以及本文提出的融合句法、依存路径分析的模型上使用相同数据集进行实验。实验结果表示,在平均句长36.2的语料中,本模型F1值平均达到75.05%。抽取结果相对于其它对比实验,F1值有显著提升。
其他文献
在学习过程中,我们经常会遇到内容繁杂、篇幅较长的叙事类文本。如何读懂这些文本?下面我们就以《记念刘和珍君》为例来谈谈这类叙事类文本的切入技巧。一、从写作目的切入:仅仅是为记念刘和珍这个人吗?作者从刘和珍联想到了什么?创作动机和写作目的,是理解文章的钥匙。在叙事类文本中,
期刊
随着我国新能源产业的逐渐成熟,火电产业的发展正面临着巨大的压力。但是作为传统能源,火力发电仍占据重要地位,如何节能降耗,提高火电机组的运行效率是传统发电集团亟待解决的问题。如今火电厂内部已经建立起了自己的生产管控中心,然而集团总部对于旗下发电厂的管理,与智能化仍然存在差距,随着电厂规模的扩大,程序繁琐等问题日益凸显。此外,火电厂每天都会产生大量高维度、多种类的数据,如何挖掘其深层有效信息也是企业面
近年来,很多学者已经提出了一些半监督社区发现方法,这些方法通过将潜在有用的先验信息(尤其通过主动学习方法获取的先验信息)与网络拓扑结构相融合从而提高社区发现的性能和精度。但是这些方法在融合的准确率和高效性方面存在较大的不足,基于此,本文对半监督社区发现方法进行改进,改进的创新点主要包括以下两方面:(1)针对已有半监督社区发现方法准确率低的缺陷,本文提出了基于约束矩阵的半监督社区发现算法MCSNMF
伴随着互联网行业的迅速崛起,当下社会正在实现从信息时代到大数据时代的转变。作为集成大量学生校园行为数据的校园一卡通系统,在高校信息化的发展中已经得到了广泛应用,给学生带来了极大便利,也积累了海量的学生校园行为流水数据。学生学习成绩作为衡量学校教学质量的一个重要指标,对于学生的成长发展和教师检验教学成果均十分重要。挖掘隐藏在校园一卡通数据背后的信息,分析学生行为与成绩之间存在的潜在规律,成为高校和研
鲁迅在《且介亭杂文二集·“题未定”草七》中说:“我总以为倘要论文,最好是顾及全篇,并且顾及作者的全人,以及他所处的社会状态,这才较为确凿。要不然,是很容易近乎说梦的。”作者创作这两篇散文的社会状态分别是这样的:《记念刘和珍君》写于1926年,正值全国革命高潮的到来,
期刊
近年来,我国持续推动绿色发展,不断促进经济发展与生态文明建设的统一,提出了诸多重要部署以打好生态环境治理攻坚战,这要求我国充分发挥制度优势,在构建污染防治行政机制的同时,也要重视生态产品价值实现机制的创新构建,促进生态补偿制度的多元化与市场化,从而让生态产品投资行为获得足够回报,深刻践行“两山”理念。本文将结合《生态产品价值实现:路径、机制与模式》一书,简述生态产品价值实现的理论基础,同时探
期刊
基于捷联惯导原理的MEMS惯性导航定位技术日益受到重视,由于MEMS陀螺仪精度的限制和捷联惯导的积分解算方式,使得载体姿态估计的误差不断累积,难以实现长时间的精准定位。本文针对室内惯性定位的应用场景,研究采用单目视觉校正惯性姿态估计误差的方法。论文主要工作如下:(1)视觉绝对姿态辅助惯性定姿算法。通过视觉系统获取室内特征参照物的图像,结合已知的参照物姿态,利用透视投影原理,获得当前时刻基于视觉信息
近年来,随着我国经济建设和社会生产力的快速发展,空气污染已经成为大众和政府特别关注的重要话题。利用日趋成熟的数据挖掘手段,通过关联性理论方法,从空气质量数据中挖掘有价值的隐藏信息,通过分析,得到隐含在海量数据中的关联规则,对空气环境治理决策的制定具有重要意义。基于频繁模式增长(FP-growth)算法思想提出的关联规则算法,存在建树过程复杂,计算支持度繁琐的问题,导致挖掘效率较低。为此,论文提出了
皇冠梨在出口海外市场的过程中,会产生内部腐败变质而外观无明显变化的现象,从而导致商品会被全部拒收,造成巨大的经济损失。另外,在其品质检测过程中一直使用有损检测技术的感官评定方法,该方法一方面检测样本较少,覆盖面较小;另一方面其结果可靠性差、可重复性差。因此,本文特提出一种新型的无损检测技术,分别建立基于电子鼻嗅觉特征和视觉图像特征的皇冠梨分类模型,并将基于电子鼻技术和机器视觉技术的融合技术应用于皇