【摘 要】
:
命名实体识别是指识别在文本中具有特定意义的实体。在信息提取、问答系统、句法分析、机器翻译等自然语言处理任务中,命名实体识别的精度影响这些任务的最终效果。现阶段对命名实体识别主要采取的研究方法有基于统计学的方法,这类方法往往需要人工的构造特征,耗费的时间与精力太多。有基于深度神经网络的方法,如卷积神经网络、循环神经网络及其变体长短时记忆等,往往受限于训练数据的规模,在复杂文本上命名实体识别问题往往不
论文部分内容阅读
命名实体识别是指识别在文本中具有特定意义的实体。在信息提取、问答系统、句法分析、机器翻译等自然语言处理任务中,命名实体识别的精度影响这些任务的最终效果。现阶段对命名实体识别主要采取的研究方法有基于统计学的方法,这类方法往往需要人工的构造特征,耗费的时间与精力太多。有基于深度神经网络的方法,如卷积神经网络、循环神经网络及其变体长短时记忆等,往往受限于训练数据的规模,在复杂文本上命名实体识别问题往往不能得到很好的解决方案。对那些表达不规律且缺乏训练语料的开放域命名实体来说,类别实体边界判断往往会不那么精准。针对上述问题,本文基于预训练语言模型来研究命名实体识别技术,主要内容包括以下两个方面。(一)针对定义实体的特殊性、实体间长度的差异以及实体边界难以界定的问题,本文提出了一种基于预训练语言模型的序列标注方法。该模型通过利用BERT丰富向量的语义表示,使用条件随机场学习输出标签之间的依赖关系。实现了提取输出上下文之间依赖关系的目标。解决了传统的词嵌入方式语义信息不足的问题,并且通过条件随机场加深了输出序列间的联系。在与其他模型的对比实验中,该模型取得了最好的效果。证明了所提出的模型适用于从英文教科书的自由文本中提取定义的任务。(二)针对医疗文本结构的复杂性、中文文本的特殊性问题以及同一个词在不同的上下文语境中会有不同的实体类别等问题,本文提出了一种双向长短期记忆和条件随机场的组合模型。通过引入CNMER2017和CNMER2018语料库,所提出的模型提高对实体边界的判断、通过上下文判断实体类别的性能,解决了训练数据中存在的稀疏问题。在对比实验结果中,模型的效果优于文中的九种基线模型,证明了所提出的模型适用于中文医疗文本命名体识别任务。
其他文献
忆阻器由于其阻变行为的不同,可以分为数字型忆阻器和模拟型忆阻器,分别应用于阻变式随机存储器和神经突触器件仿生等方面。其中,阻变式随机存储器(RRAM),由于其结构简单,速度快,低功耗等优点,被认为可以取代闪存成为下一代新型非易失存储器。同时,模拟型忆阻器因其电阻能够连续可调,与神经突触传输特性高度相似,被视为是模拟神经突触最具潜力的器件之一。海藻酸钠(SA)作为一种天然多糖,由于其自身的可溶性,稳
干细胞具有自我更新能力及多向分化潜能,在疾病治疗中具有巨大的潜在应用价值,例如可以治疗心血管疾病、神经系统疾病和自身免疫性疾病等。干细胞的临床应用首先需要有足够的细胞量,但人体组织中的干细胞数量非常少,因此需要进行体外扩增,而干细胞在体外培养环境中极易分化,所以在体外大量扩增的同时维持其未分化状态是目前亟需解决的问题。Nanog是干细胞维持自我更新和多能性的关键因子,在干细胞未分化状态的维持中发挥
在我国核电事业蓬勃的发展同时,核电站的安全问题也不容忽视,作为核电站1E级备用电源的应急柴油发电机组是核电站安全运行的关键设备,必须具备在核电厂突发断电的情况下快速启动响应为核电设备提供稳定可靠的电能的作用。而电控系统(ECU)作为柴油机稳定运行的核心,需要有强的可靠性。本文针对核电应急柴油机的工作特性和控制需求,设计开发出一款具有工业应用能力的核电柴油机控制系统,并对其在不同环境温度下的稳定性进
轮式机器人在地面行驶时需要具有一定的自主识别能力,根据不同的地面类型采取相应的行走方案,目前主流研究是基于视觉或激光雷达的地面分类方法,但是这些方法在光照条件不好或地面存在覆盖物时往往效果不佳。因此本文采用振动信号作为输入特征来实现轮式机器人的地面分类识别,通过车轮与地面直接接触所产生的振动信号能够真实地反映地面承载层的信息,可以作为视觉分类技术的重要补充。本文对地面分类的方法的研究主要包含三个部
迭代学习控制(Iterative Learning Control,ILC)作为智能控制中一个重要的分支,适用于可以不断重复完成指定任务的系统。它通过对被控系统进行控制尝试,以系统的跟踪误差修正不理想的控制信号,使得系统输入信号沿迭代轴不断更新,从而实现对期望轨迹的完全跟踪。传统的迭代学习控制要求每次迭代运行时长必须保持一致,以满足学习算法在不断的控制尝试中得到修正和完善。因此,作为传统迭代学习控
多巴胺是哺乳动物大脑中一种神经递质,通过结合位于大脑中的多巴胺受体,调控着机体学习、记忆、认知、情感和运动过程,与帕金森病、精神分裂症、注意力缺陷多动综合征等密切相关。目前,多巴胺受体分为5种受体亚型,分别是D1R、D2R、D3R、D4R和D5R。每种受体的α跨膜螺旋之间具有很高的同源性,其中D1R与D3R蛋白之间有39.72%的氨基酸序列同源性。采用同源模建方法,将已经解析出晶体结构的D3R作为
本文主要研究p-Pb极端边缘碰撞中Higgs粒子经由双光子相互作用的产生过程。传统研究多采用等效光子近似,但该方法在处理质子作为光子辐射源时失效,原因在于传统研究对质子的非相干辐射过程没有给予足够重视。本文对质子作为光子辐射源的情况采用新的处理方法:完整保留质子所辐射光子的虚度,并引入权重因子以区分相干辐射与非相干辐射的贡献比重。基于上述思路,本文给出微分散射截面对Q2(质子辐射光子的虚度)和对p
Feistel结构以发明者Horst Feistel命名,是密码学中的一种对称结构,广泛应用于DES等多种分组密码中,因其加脱密过程相似,大大降低了编码量和线路传输的要求。由于现阶段计算能力较高,Feistel结构密码的安全性受到了挑战,为了满足更高的安全性,密码长度必须增加。针对该问题,郑玉良等人提出三种广义Feistel结构。SM4密码算法是我国自己的商务密码算法,其加脱密过程完全相同,资源利
提高生产过程监测与控制能力,保障复烤片烟指标稳定和化学成分均匀是现代复烤企业对产品品质追求。随着国家烟草专卖局对复烤片烟产品均质化要求的不断提升,对复烤片烟产品的化学成分检测已经从抽检到全检,从实验室检测到在线检测。因此,有着快速、准确、检测成本低等优点的近红外光谱分析技术,逐渐为复烤企业检测片烟产品成分的重要手段。但烟叶属天然复杂产物,其漫反射光谱不但包含了样品的物理和化学信息,还承载了检测条件
现实生活中的合作行为处处存在,不管是自然界还是人类社会,在遇到群体利益和个人利益发生冲突时,总是存在着一些牺牲部分个人利益,保全群体利益的现象存在。这与生物本身的进化规律相悖。人们想要研究这背后蕴含的奥秘。博弈论从诞生以来就因其与社会实际生活的紧密结合受到各个领域研究者的关注。研究者们从现实生活中抽象出博弈模型,探讨博弈中的合作与演化,从经济学,生物学,计算机科学,社会学等各个领域研究影响参与者行