基于Bi-LSTM的多领域多范围实体识别研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:clarain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理任务应用的基础,针对网络安全、法律、医学等领域范围自然语言处理任务,如网络攻防领域信息抽取、法官裁判预测、医学病症识别诊疗等任务中,实体识别精准尤为重要。这些领域中实体识别错误代价较大,实体识别在这些特定领域范围自然语言处理工作中是一项既关键又基础的任务。实体识别目的是在一段特定文本中确定文本中实体的语义类别。在实体识别任务中存在上下文有效信息较少、实体词长较长的复杂实体,如“跨站脚本攻击”,一个网络攻击技术实体,通过现有深度学习结合机器学习方法可能只识别出“脚本攻击”而无法将实体识别完整。面对这些特殊领域复杂实体识别过程中出现的错识、漏识问题,文中提出了一种通过基于双向长短时记忆网络(Bi-directional Long Short-term Memory Neural Network,Bi-LSTM)结合条件随机场(Conditional Random Field,CRF)及复杂实体库(Complex entity library,CEL)匹配的方法模型(BiLSTM-CRF-CEL),提升复杂实体识别的精准度。该模型先由Bi-LSTM提取文本句子语义向量特征,再根据文本中实体的上下文语义信息对实体进行独立分类标签打分。然后在Bi-LSTM后接入CRF根据标签之间的依赖关系对标签进行初步标注。同时,针对识别过程中一些词长较长难以识别、存在歧义和其他复杂实体建立复杂实体库,对复杂实体进行二次标注的识别模型。该模型基于深度学习,可移植性良好,根据不同领域语料训练模型,使得模型可在多领域多范围应用。为了验证BiLSTM-CRF-CEL模型有效性,一方面通过控制模型复杂实体库中复杂实体数量多少、词向量维数大小进行实验对照,另一方面通过Bi-LSTM结合CRF融合复杂实体匹配模型与其他常用实体识别模型进行实验对比。实验结果说明,文中提出模型有助于实体识别率提升。
其他文献
近年来,调查问卷仍然是评价学校教师的教学质量的主要方式,但是不管是线下的调查问卷评教还是线上的调查问卷评教,本质上都属于学生评教,评教结果依赖于学生的主观意志。随着信息技术的不断发展,对于传统的评教方式提出了更高的要求,针对传统评教方式的弊端,基于视频的教学评价信息系统应运而生,该系统中展示了依靠科学的自动评教方式得到的视频的评教分数和其它评教信息,视频的评教分数和其它评教信息由视频客户端对视频进
我国是一个地震带分布范围广、地震频发的国家。伴随着国家一带一路、西部大开发等一系列战略的实施,我国的道路工程建设势头依旧强劲。由于双面加筋路堤为柔性结构,具有造价成本低、占地面积小、外表美观、抗震性能优良等优点,该类结构被越来越广泛地运用于道路建设工程中。但是,当前国内外有关于双面加筋路堤的研究较少且大多仅关注其静力力学行为,因此深入研究双面加筋路堤在地震作用下的动力响应特性具有较大的工程及理论价
随着工业技术的发展,工业设备日趋大型化和复杂化,于此同时保证设备的安全稳定的运行越来越受到人们的关注。离心式压缩机在冶金、化工、动力、制冷等领域属于不可或缺的关键设备,若其发生故障必然会导致整个生产系统的停滞,若故障严重甚至会导致重大事故的发生,造成大量经济损失的同时还可能引发安全问题。若能够提前发现故障的某些征兆,可以提前采取措施减小损失并保障生产安全,因此对于故障预测方法的研究是很有必要的。大
随着人类面临的能源危机和环境问题日益严峻,社会对科技创新的渴望日益高涨,新能源电动汽车因其绿色环保,能源利用效率高等优点,成为未来科技发展的潮流,已得到世界各国的大力发展,期望突破现阶段汽车产业的发展瓶颈。电动汽车行驶工况复杂多变,用于检测电机转子位置信息的机械式速度传感器易损坏。若速度传感器发生故障,对电动汽车的安全性、可靠性造成巨大损害。为了提高电动汽车动力系统整体可靠性和功能安全性,本文研究
新时期,国家实施乡村振兴战略,提升乡村发展能力是目标之一。对于鄂西武陵山区乡村而言,其发展受制于经济基础薄弱、基础设施落后、生态环境脆弱等问题,部分人民生活水平仍在贫困线附近挣扎。农户生计水平关乎乡村振兴战略实施的成败,而产业振兴是实现乡村振兴的根本路径,对于农业占主导地位的山区农业县而言,其乡村发展能力与农业产业紧密相关。为了探究两者之间的具体联系,文章基于农业产业要素空间特征对鄂西武陵山区五峰
在当前市场经济体制深入改革背景下,政府对企业的会计工作提出了新的要求,在旧会计准则基础上进行内容更新完善,形成新会计准则指导约束企业财务管理,推动企业财务管理转型升级。新会计准则对企业财务管理中的资产重组、财务风险控制、管理目标以及预算等内容产生较大的影响,企业的财务管理体系建设同步面临机遇和挑战,企业应当深入利用新会计准则,探究优化财务管理体系的路径,提升企业的财务管理实力,应对日渐增加的财务、
建筑业作为我国国民经济的支柱产业,其高质量发展一直是政府有关部门的工作重点,然而由于建筑施工本身的高风险性,导致建筑施工安全事故频发,给建筑业的健康发展带来了挑战,也带来了一些不良的社会影响。在此背景下,构建建筑施工安全风险分级管控体系作为一种管理制度创新在国家的强力推动下得到了推行,并在各省市形成了良好的推行工作氛围,科学的构建安全风险分级管控体系也成为了企业开展安全生产工作的重要内容。本文首先
基于钴活化过一硫酸盐(Co-PMS)的高级氧化技术在有机污染物降解领域有良好的应用前景。Co(Ⅱ)OH对PMS具有较强的亲和作用,可促进其高效分解,因此构筑富含Co(Ⅱ)OH的表面是制备高活性非均相钴基催化剂的关键。Co(OH)2表面具有丰富的Co(Ⅱ)OH,已被用于PMS的活化,但其易被氧化为Co(OH)3而失活。Co(OH)2中部分OH-被Cl-或CO32-取代,由此形成的羟基氯化钴(Co2(
在汇流管路中大多数采用T形、Y形和卜形汇流管。相比以上三种汇流管,圆弧形汇流管具有能量损失小的特点,因此可以减小汇流管路中的能量损失。研究圆弧汇流管汇流能量损失系数变化规律可为优化汇流进水管路提供参考依据。查阅大量参考文献,首先对圆弧汇流管进行数值模拟分析,并与T形、Y形和卜形汇流管进行汇流能量损失对比,得出其汇流能量损失小的结果。然后设计并搭建圆弧汇流管实验系统。以水为工作介质对5种不同管径,9
近年来,基于微机电系统(MEMS)的像元结构非制冷红外探测器的研究取得了显著进展,对现有红外探测器性能和功能的进一步提升,很大程度上依赖于新物理机制和新器件结构的引入。超材料是电磁学的一个研究领域,它是由亚波长单元周期或非周期排列而组成的人工结构,在光频段,超材料与纳米光子学领域相结合,以独特的方式控制光的传播、辐射、散射和局域化,光学超材料重新定义了我们理解光的模式,如负折射率、突破衍射极限、完