面向中文生物医学文本的命名实体识别和规范化研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:pengpeng88888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文生物医学文本的命名实体识别和规范化在信息抽取的下游任务和构建中文医学知识图谱等方面发挥着重要的作用。随着医学文献数量迅速累积和电子病历的广泛使用,从海量的医学数据中挖掘有用的信息并进一步分析就需要依托于实体识别和规范化技术。然而,往往中文文本的结构比英文文本结构更复杂,分词的方案较英文更为复杂,并且因词语错分而导致语义误差的传递问题难以得到解决,非医学类的信息抽取技术效果也比医学类的效果更好,这都加大了对中文生物医学文本的信息抽取难度。基于此背景,本文面向中文生物医学文本,对信息抽取中的命名实体识别和规范化技术进行了研究,为信息抽取中的下游任务提供技术支持。本文的主要工作如下:1、提出了一种面向中文生物医学文本的命名实体识别模型,BertBAC。基于字符嵌入的Bert模型获取文本的总特征向量,并在典型的神经网络结构的输出层之前增加注意力机制获取标签对句子中其他词语的长距离依赖关系。通过实验表明,BertBAC模型的识别精度优于现有使用条件随机场的基线方法,可以感知文本中多粒度的语义关系信息,实现了对五类中文医学实体的识别。2、提出了一种Siamese网络和Bert模型相结合的实体规范化方法,Siamese-Bert。该方法着重于解决规范化任务中的候选实体的生成和候选实体的排序两个问题,通过构建Siamese文本相似度计算网络生成候选实体的集合,结合Bert模型对候选实体集打分排序,输出当前实体提及对应的标准实体。最后,通过实验证明了Siamese-Bert模型对中文医学实体规范化任务上的有效性。3、结合BertBAC实体识别模型和Siamese-Bert实体规范化模型,设计并实现了基于深度学习的命名实体识别和规范化系统。分析了系统的需求和设计了系统的总体架构,详细介绍每个模块的实现方式和工作原理并对系统的主要功能进行了展示介绍,最后通过系统测试证明了系统的可行性。
其他文献
刚度是滚珠丝杠副的重要性能指标,针对丝杠这种承受扭矩的细长轴类零件,其扭转刚度对滚珠丝杠副的影响不可忽视,目前,滚珠丝杠副的扭转刚度一直缺乏有效的检测方法和装备。为此,本文依托于国家科技重大专项,对滚珠丝杠副扭转刚度进行理论分析,研发扭转刚度测试系统,并进行试验研究,完善了滚珠丝杠副综合刚度理论与检测体系,为滚珠丝杠副的高刚性设计与性能提升奠定基础。具体研究内容如下:(1)建立了滚珠丝杠副扭转刚度
银行采购项目中涉及复杂的采购流程以及大量的合同订单,在实际的执行过程中,存在支出规划预判不足、采购计划不清晰、合同细节不足等问题,银行管理部门难以全面掌握采购流程,严重影响银行的日常开销以及运营管理。为保持银行的健康发展,需要建立良性成熟的采购项目库管理体系,为此,从完善银行采购项目库体系角度入手,进行银行采购项目库管理系统的设计与实现工作。针对银行采购项目库管理系统的需求,将系统划分成首页模块、
末敏弹对装甲目标的探测多采用复合体制,研究跨波段的毫米波主被动复合探测可有效的探测识别到具有隐身涂层的装甲目标。本文围绕Ka波段和W波段的毫米波,对跨波段复合探测开展研究。本文主要研究内容为:(1)针对装甲目标多采用隐身涂层来降低末敏弹探测效能的情况,本文对典型装甲目标进行建模,对其有无隐身涂层时的雷达散射截面积(RCS)和辐射温度特性和隐身涂层材料的辐射率变化进行了仿真。围绕仿真结果,进行了基于
结构色是一种通过亚波长人工微纳结构与可见光相互作用而显示的物理颜色,相比传统颜料色具有色彩鲜艳、化学性能稳定、易回收无污染等优势。结构色能够突破可见光衍射极限,实现100,000 dpi的超高分辨率,对于高分辨率高性能显示以及高密度光学数据储存等相关领域具有广泛的应用前景。传统结构色设计需要通过电磁仿真方法验证并不断重复优化,这一过程需要消耗大量时间及计算资源并且可能仍然无法准确满足设计需要。人工
相较传统的相控阵雷达,数字多波束雷达在数字域对波束进行合成,波束合成的一致性较好,且具有更高的波束指向精度,因此受到国内外学者的高度关注,具有广泛的应用前景。论文研究的是基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的数字多波束雷达信号处理系统,并对其进行设计及实现。论文首先介绍数字多波束雷达的研究背景以及雷达信号处理的相关算法;其次,根据系统功能需求
为了保证燃油箱在战场上能够满足特种车辆的功能需求,避免因为各种威胁对油箱造成损伤,导致油箱燃料泄漏无法正常完成工作,甚至发生燃烧爆炸带来二次损伤,提高特种车辆油箱的防护性能是亟待解决的问题。基于此,本文提出通过聚脲涂覆钢板的复合结构设计了安全油箱防护结构的方案,然后通过理论分析,数值仿真模拟和试验验证各种技术,对安全油箱防护结构的自密封性能和抗冲击性能进行研究,证明了安全油箱防护结构确实能有效提高
自适应数字波束形成(Digital Beamforming,DBF)技术可以通过最优化理论实现空域干扰的自适应抑制,对于雷达、声纳等需要在复杂电磁环境中进行目标的探测和跟踪的电子系统具有重要的研究意义。然而,实际系统存在各种非理想因素,比如阵列互耦、导向性矢量失配和协方差矩阵估计误差等,都会导致自适应数字波束形成算法性能显著下降。本文针对上述问题,并针对大规模数字阵列自适应DBF算法的实际需要,开
目前,许多国内研究者针对用来清除太空碎片的空间飞网捕获技术展开了大量的研究,但大都是关于绳网动态仿真方面的,如何获得地面模拟试验的数据来验证碎片清除模拟器的可靠性也是值得探索的,鉴于该研究背景,主要以柔性绳网为研究对象,对网展开飞行试验中的三维轨迹重构过程进行研究,提出了一种基于双目立体系统的三维信息测量装置及三维轨迹重构的方法,获得的数据可用来验证模拟器。先针对柔性飞网所拍摄的复杂环境,搭建了灵
重复性电磁结构在实际工程中有着极大的应用,然而对其进行全波仿真计算成本太高,因此寻求准确、高效的求解方法对指导重复性结构的设计极具理论与现实意义。特征模方法自提出以来一直在电磁学领域受到广泛的关注,由于特征模只与目标固有的物理属性有关,与外加激励无关,且模式之间具有天然的正交性,因此非常适合作为目标的全域基函数来展开表面电流。再通过少数模式截断,减少待求未知量,提高目标电磁问题的计算效率。本文主要
同步定位与建图(Simultaneous Localization and Mapping,SLAM)是机器人自主执行任务的基本前提。视觉SLAM具有丰富的图像表示,但无法鲁棒地应用于特征稀疏的场景;惯性测量单元(Inertial Measurement Unit,IMU)虽然能提供可靠的横滚角和俯仰角测量值,但长时间累计漂移误差大,不能单独用于长期运动状态估计。由于视觉传感器和IMU两者具有良好