【摘 要】
:
随着信息时代的到来,在人机交互中产生了大量的文本,音频,图像等非结构或半结构等形式存储的数据。其中文本数据居多,为了有效的提取文本中有价值的信息供人们使用,实体识别和关系抽取技术是自然语言处理领域的两项基本任务,旨在帮助人们挖掘出文本中具有实体意义的名称及其之间存在的关系,这对构建领域知识图谱,智能问答系统等具有重要的意义及价值。传统的关系抽取任务将实体识别和关系抽取分成两个独立的子任务,没有考虑
论文部分内容阅读
随着信息时代的到来,在人机交互中产生了大量的文本,音频,图像等非结构或半结构等形式存储的数据。其中文本数据居多,为了有效的提取文本中有价值的信息供人们使用,实体识别和关系抽取技术是自然语言处理领域的两项基本任务,旨在帮助人们挖掘出文本中具有实体意义的名称及其之间存在的关系,这对构建领域知识图谱,智能问答系统等具有重要的意义及价值。传统的关系抽取任务将实体识别和关系抽取分成两个独立的子任务,没有考虑两个任务之间的依赖传递性和两次对输入数据编码的信息冗余性,影响了抽取的效率和准确度。针对流水线式的抽取策略存在的不足,本文主要研究如何将两个任务进行联合抽取,主要的创新点和工作如下:(1)考虑到语言模型的建立对挖掘句子内部语义信息有着直接的影响,本文采用XLNet语言模型对输入数据建模词向量,但没有直接用训练好的字向量表示或词向量表示,而是用双向LSTM对输入的字向量提取特征,当用预测矩阵检测到前向LSTM和后向LSTM提取出的特征是同一个词的概率最大时,通过矩阵运算融合为词向量特征。这种向量表示策略既保留了中文以词成句的特点,也加深了词语中每个字的特征表示。(2)模型共分为了三个模块,分别为共享模块,实体识别模块和关系抽取模块。共享层实现了对两个任务输入文本表示的共同编码,实体识别结果和共享层的输出一起作为关系抽取模块的输入,关系抽取和实体识别可通过损失函数,利用反向传播算法一起更新共享层的参数,实现了真正的联合抽取。在1998人民日报一月份,COAE2016任务三和自构建经济金融领域小数据集作了实验对比与分析,验证了本文所提模型在实体关系抽取任务上的有效性。(3)根据研究理论成果,基于Python语言和前端框架相关知识设计了主要针对经济金融领域的实体关系抽取系统。系统可以直接提取出文本中的实体关系三元组,为构建领域数据集提供了技术支持。
其他文献
当前信息爆炸时代,海量信息的生成也促使互联网与大数据分析等技术的快速发展。而我们在享受现代互联网带来的诸多便利的同时,也面临着信息过载(Information overload)的问题。人们难以便捷和迅速地从海量数据中有效汲取所需的各种信息。推荐系统研究面向这一现实迫切的任务需求,并迅速成为当前数据挖掘领域的研究热点。推荐系统方法可通过对数据信息进行建模,分析用户和项目间的潜在关联,从而挖掘用户行
云计算、大数据的发展促使互联网数据呈爆炸式增长,在这一背景下,人们越来越依赖推荐系统来过滤信息。无论是信息的生产者还是信息的消费者,推荐系统的出现都给他们带来了不小的益处。对于信息生产者来说,推荐系统使他们可以将所持有的海量信息有针对性地展示给不同的用户,在提高信息利用率的同时提升了服务质量,有助于提升用户满意度。对于信息消费者来说,推荐系统快速有效地提供给他们所需要的信息,减少了时间浪费,提高了
谱聚类作为一种灵活的热门聚类算法,在处理小规模数据集时通常优于传统的聚类算法,例如k-means。当数据样本量记作n时,它的计算复杂度为O(n~3),空间复杂度为O(n~2),巨大的损耗导致了谱聚类方法对于大规模数据集处理的局限性。受到核方法、Nystr(?)m扩展思想和循环矩阵等矩阵分解技术的启发,本文提出以下工作来解决上述问题:首先,为了提升聚类算法处理大型数据集的速度,提出基于随机傅里叶特征
手势作为一种简单且易表达的交流方式,无论是在人机交互领域,还是在其他应用领域,都有着十分重要的研究价值。相比于传统手工设计特征存在的繁琐复杂、识别率低等缺点,深度学习方法可以自动提取图像特征,且受图像背景因素影响较小,极大地提高了识别率。但随着目标检测技术的发展,其中大多数算法为了获得更高的识别率,一直在不断增加网络的深度,却忽略了这样做所带来的大量参数以及占用的大量计算资源,从而降低了模型的识别
在网络中,链接预测任务是指在已知网络拓扑结构的基础上,预测未观测链接的状态。网络链接预测中,节点和链接随时间发生变化,节点间链接关系的形成不仅受节点所处网络结构的影响,还受网络演化过程的影响,构成复杂的动态网络演化过程,在此背景下的链接预测问题称为动态网络链接预测。动态网络链接预测是网络态势感知、序列推荐、知识图谱信息补全等应用领域的共有关键问题,具有非常重要的研究意义。动态网络数据由节点在不同时
采煤机在采煤作业过程中,会频繁受到截割煤层引起的不规律的负载,行走轮—销排牵引机构是采煤机不可缺少部件,行走轮与销排的啮合属于无润滑传动,因此牵引机构经常因冲击性动载荷而发生齿面磨损和轮齿折断故障。牵引机构的工作状态决定了整机的运行以及煤矿开采的效率。本文以采煤机整机为研究对象,分析采煤机在进行煤岩截割过程中整机的运动状态以及牵引机构的受力状况,找出引发牵引机构故障的因素,基于动力学分析结果对牵引
在煤炭的转运过程中,输送带作为带式输送机上用来运输和承载物料的关键部件,其质量决定了运输任务的安全性和高效性,但断带事故时有发生。据统计,90%以上的断带事故发生在输送带接头硫化处。输送带一旦断裂,严重威胁一线人员的生命安全,且断裂后接头重新硫化过程需要数天时间,将会造成巨大经济损失,输送带剥皮发生在硫化胶接前。在新带和旧带连接之前都需要对输送带接头部位进行剥皮,分离出钢丝绳。目前剥皮工作采用人工
在医学临床诊断中,眼底视网膜存在着一定数量的毛细血管,其表征变化与许多疾病的并发症状有紧密联系,对这些血管的分布、形态的分析与研究是诊断部分眼部疾病和综合性疾病的重要依据之一。通过计算机对视网膜血管图像进行精准分割可以极大的减轻临床医生的工作量,提高分割任务效率、避免人为因素与主观因素影响,对医学辅助诊断具有深远意义。本文基于深度学习算法研究眼底视网膜血管的分割算法,设计了两种不同的网络模型,并在
伴随着科学技术的发展进步以及对交通运输需要的持续增加,大型桥梁在社会现代化中的作用也越来越突出。为了监测自然环境改变(如地震、地陷)或人为因素对桥梁各部分结构的影响,亟需提升桥梁健康监测及评估系统的实时性、整体性、准确性。因此对桥梁健康状态进行监测和评估具有重要意义。基于此,本文设计了一种多模式多节点桥梁健康监测及评估系统,并主要完成以下工作:(1)根据监测目标和内容,分析传感器的使用条件、安装方
在智慧矿山的建设进程中,对综采工作面进行监测有着至关重要的作用。综采工作面虚拟监测系统作为远程监测探索研究的一项重要内容,能够实现对综采工作面设备及环境的全局实时监测,但目前的研究更重视技术的突破和功能的叠加,而忽略对人机交互的探索,致使系统的识别效率低,易用性和易学性差,甚至存在功能残缺、容错性低的问题,从而导致系统用户体验不佳。本文通过交互设计的理论和方法对虚拟监测系统的交互逻辑和界面视觉进行