基于Bert的命名实体识别研究

来源 :广州大学 | 被引量 : 0次 | 上传用户:panlihuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展和计算机等信息设备的广泛应用,人类社会已经步入了信息时代。与此同时,随之伴生的网络安全问题也给国家安全和社会发展带来潜在的威胁和损失,如何在信息时代保障网络空间安全成为了学术界和工业界关注的重要问题。近年来,通过知识表示方法,将网络安全领域中漏洞、资产、攻击活动等关键要素模型化,并为网络安全的态势分析、应急处置等环节提供知识支撑,逐渐成为一种有效研究手段。特别随着以谷歌知识图谱为代表的相关技术快速的发展,网络安全领域开始引入知识图谱对网络安全知识进行表示,而实现准确命名实体识别是构建知识图谱的重要前置环节。相关研究发现,传统命名实体识别方法在应对网络安全这一专门领域时存在一些不足,如基于隐马尔可夫模型的命名实体识别算法使用条件严格,由于大部分网络安全语句并不符合马尔可夫性,导致命名实体识别效果差。针对上述问题,本文重点研究解决网络安全领域的命名实体识别准确性问题,主要工作包括:首先,本文分析了将Bert模型用于网络安全领域命名实体识别的缺点,针对Bert模型参数量大的问题,设计了改进的Bert算法。Bert算法适合解决中等长度的文本,而网络安全领域的命名实体识别主要以句子为单位作为输入,直接使用Bert算法时由于参数量大,训练时间长,效率较低。本文通过分享Encoder内部self-attention层参数的办法,减少了模型的参数,实现了Bert模型的轻量化改进。本文在MNLI和SST-2数据集上进行实验,实验结果表明,改进以后的算法模型参数降低了19.4%,而性能上基本保持不变。其次,本文使用BIOES模式对网络安全数据进行标注,将该领域的命名实体分为资产、漏洞、攻击三类。针对网络安全领域文本涉及范围大、噪声多的特点,本文设计了基于改进Bert算法的Bert-Bi LSTM-CRF模型,通过改进的Bert算法预处理、编码器、条件随机场等对网络安全领域的命名实体进行识别。最后,结合上述算法,本文设计了一个网络安全领域的命名实体识别原型系统。具体而言,该系统将Bert模块的输出作为Bi LSTM模块的输入;通过Bi LSTM模块对上一个模块的输出进行解码;Bi LSTM模块的输出又作为条件随机场模块的输入,通过条件随机场模块来对Bi LSTM模块的输出进行解码;最终完成网络安全领域的命名实体识别。该模型具有较强的特征提取能力,应用在网络安全领域的命名实体识别中可以取得良好的效果。综上,本文通过参数共享的方式改进了Bert算法,使其适用于网络安全领域命名实体识别时训练时间短、效率高;其次,设计了Bert-Bi LSTM-CRF模型,通过改进的Bert算法、编码器、条件随机场等对网络安全领域的命名实体进行识别;最后,本文设计了一个面向实际网络安全的命名实体识别原型系统。
其他文献
目前,国家正积极推进区块链技术和经济社会的融合发展。然而,数字货币作为数字经济基础设施,其保护隐私的特点使其成为了犯罪分子开展非法活动的“温床”。该现象为国家促进数字经济发展,打造安全、稳定、健康的金融环境带来了挑战。因此,从海量交易数据中识别异常交易带来的安全风险,形成监管体系,推动数字经济健康发展,已成为目前数字货币监测监管的重要挑战之一。数字货币的交易账本均是公开访问的。目前,针对数字货币异
作为一种直观自然的交互方式,手势日渐从人际日常交流向新型人机交互发展,尤其是在车载控制系统上,不少高端车型已将手势识别技术应用于搭载的车载影音娱乐系统。在众多技术实现路线中,基于单目彩色摄像头的机器视觉方案因为所需的传感器简单便宜,越来越被研究者们所注意。为解决手势图片背景复杂、自遮挡、易形变等识别困难,本文利用深度学习技术提高其识别准确率。为了解决上述问题,本文设计了基于单目彩图的深度学习手势识
深度神经网络已经被广泛地应用在各个领域,但是对抗样本的存在对神经网络的应用造成了极大的安全隐患。迄今为止,许多针对深度神经网络的对抗攻击方法已经被提出来,但是这些方法依然存在很多不足之处。例如,基于梯度的攻击方法,攻击的成功率和效率都很高,但是图像修改的幅度也很大。而基于优化的或者单纯修改少量像素点的攻击方法,虽然减小了图像修改的幅度,但是由于需要进行大量的计算,攻击的效率不高,并且成功率较低。此
本研究利用苯酚—氯仿—异戊醇—核糖核酸酶法,从3个品种豇豆幼嫩叶子中分离出总基因组DNA,参照已知的几种Bowman—Birk型胰蛋白酶抑制剂基因序列和ATG起始位点,设计合成了两段长度为27bp且5端含有BamHI位点的寡核苷酸引物。以总DNA为模板,进行PCR扩增,得到长度约为340bp的均一特异性扩增产物CPTI DNA片段。 将该片段克隆到质粒载体pGEM—3zf(+)的BamHI位
互联网技术的发展,催生了大量平台级的应用服务,如搜索、推荐、查询等。为了向用户提供更加精准、高效的服务,众多互联网平台分别构建了面向不同应用场景的知识图谱。知识图谱是一种组织结构良好、可解释性强的人工智能技术,能高效地组织并表示各种信息,因此得到了广泛的应用。但面向各不同网络应用的知识图谱通常是独立构建的,因此存在相同的信息表述不一致以及数据的更新时间不一致等问题。将不同时间的知识图谱中表述形式不
人们日益增长的物质需求与环境污染和能源短缺的问题相矛盾,目前可再生的清洁能源如风能、太阳能等也需要高效的储能装置。锂离子电池(LIBs)是目前能够商业化大规模应用的可循环使用的电池设备。在未来几十年将被普遍运用于各种电子移动设备和新能源汽车。然而稀缺的锂资源使人们将目光转移到钠离子电池(SIBs)研究上。由于离子半径等物理特性差异,传统正负极材料并不适用SIBs。二维层状MXene材料具有独特的物
随着互联网的日益普及,智能终端越来越依赖于网络来提供应用服务。然而,这种对网络的高度依赖,造成了在缺网、断网、网络环境差等极端场景下,智能终端无法提供有效的服务。此外,常见的交互技术存在控制方式机械、固定和单一,全局性和实时协同性差,智能程度较低,用户交互性和参与性较弱和个性化不足等问题,这在很大程度上影响了用户的体验。因此,本文针对现有感知和泛在交互技术存在的障碍和限制,设计和实现了一套适配多样
图像质量评估(Image Quality Assessment,IQA)是对失真图像的质量进行量化并输出与人眼视觉系统相一致的质量分数。无参考图像质量评估是无需参考图的前提下对各种失真图像建立感知模型,通过感知模型探索计算机与人眼视觉对图像质量理解的关系。无参考图像质量评估是图像处理领域的基础,它主要分为两大研究方向:(1)对图像的直接理解与感知,探索计算机视觉与人眼视觉的一致性;(2)利用质量信
随着通信和互联网技术的快速发展,使得无线通信技术面临着巨大的挑战。多跳中继无线网络是现代无线通信的一个重要传输形式,可以有效提高系统的传输质量和系统的覆盖范围。一方面,在没有部署基础设施的情况下,当通信双方的距离进一步增加时,如何提高通信双方的通信质量已经成为无线通信领域急需解决的关键问题。作为一类对抗衰落、提升系统的传输可靠性的有效技术,缓存辅助中继近年来引起了广泛关注。另一方面,随着无线技术的
当今世界,伴随着越来越多针对政府机构、工业设施、大型公司网络的攻击,网络安全已经成为全球研究人员的关注点。其中,高级持续威胁(Advanced Persistent Threat,APT)结合社会工程学、0day漏洞、隐蔽通信等技术手段对目标实行长周期、多阶段的攻击行为,凭借其极高的隐蔽性和威胁性,已经成为网络空间安全中的主要威胁之一。如何对APT组织进行溯源识别以及在早期发现APT攻击并发出警报