基于深度学习的食品安全事件命名实体识别方法研究

来源 :湖北大学 | 被引量 : 0次 | 上传用户:xffys3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年层出不穷的食品安全问题,引起了社会各界的高度重视,例如“地沟油”、“瘦肉精”、“僵尸肉”等都是长期潜伏在人们身边的食品安全问题。现阶段命名实体识别在食品安全领域尚且还在初步探究阶段,对于多分类的食品安全领域命名实体识别更是凤毛麟角。食品安全新闻中的文本数据是最能反映食品安全问题的关键,而不论是对于食品安全新闻的信息提取,食品安全领域的问答系统构建,亦或是食品安全领域知识图谱可视化的构建等,针对食品安全事件的命名实体识别任务,是解决以上问题的第一步也是极为关键的一步。基于此,本文决定对食品安全领域中实现自动化命名实体识别方法展开研究。主要内容如下:(1)整理构建食品安全事件语料库。本从中国食品安全网爬取了2019年有关产品不合格、造假、违规、超标、非法、违禁,以及因食品问题导致获刑、罚款等8个方面的2231篇新闻报道,整理构建了共计2098998字的食品安全语料库。(2)食品安全领域专有名词词典构建。本文将国家相关机构发布的有关食品领域专有名词进行专有词典的构建,专有词典涉及食品安全相关机构名目录,食品分类目录,食品添加剂使用标准等多个方面,包含1308个专有词汇。(3)数据预处理。本文采取利用国家相关机构发布的有关食品领域专有名词组成的词典与jieba分词技术相结合,对于食品安全事件语料库中的数据进行初步数据预处理。通过对语料库中的数据进行分析和研究,提出了七种分类的命名实体,并结合人工BIO序列标注,将初步预处理数据处理成最终实验所需数据。(4)提出基于深度学习方法的食品安全领域命名实体识别模型。本文首次将BILSTM-CRF模型使用到食品安全领域事件的多分类命名实体识别中。在此基础上,为了加大模型对于七种分类实体的关注度,本文提出了将注意力(ATTENTION)机制加入到BILSTM-CRF模型中,从而起到加大模型对于食品安全事件七种分类实体的权重值,从而达到更高精度的多分类实体识别效果。实验结果表明ATTENTIONBILSTM-CRF模型对于七种分类命名实体识别相比于BILSTM-CRF模型更优精确率平均提升了4.86%,召回率平均提升了4.95%,F1值平均提升了5.19,对于整体而言命名实体识别准确率高达99.16%,F1值更是比BILSTM-CRF模型高了3.08,达到了94.51。证明了的ATTENTION-BILSTM-CRF模型能够更加出色地完成食品安全领域命名实体识别任务。
其他文献
逆向技术转移主要发生在跨国并购中,是技术由子公司向母公司的转移,这主要是通过弱势并购来实现的。对于技术处于弱势的企业来说,通过并购技术强势的企业来实现逆向技术转移周期短,成效显著。随着“走出去”战略的深入和“一带一路”的推动,中国的企业逐渐掀起了技术并购的浪潮,越来越多的企业走上了并购的道路来实现逆向技术转移。技术居于弱势地位的企业是否可以并购比自己技术强的企业,并取得成功呢?最近几年,跨国并购的
疫情冲击下的中国电影产业面临巨大变革,网络电影市场加快与互联网多维融合,在全球电影产业普遍低迷的背景下实现逆势增长,网络电影消费形成与院线电影齐头并进的文化消费形式。因此,专注于网络电影领域中热门类型片的学术研究十分必要。本文以“四平青年·二龙湖浩哥”系列为核心研究对象,在第一章中梳理出一段中国喜剧网络电影跌宕起伏的成长史。尽管喜剧类网络电影一直是票房回收的保障,但也面临着内外部多重挑战,历经野蛮
近年来,随着房地产行业火热和国家房屋改造计划,违章建筑物大量增加,给工作人员带来很大挑战。小型无人机技术的兴起使违章建筑物检测效率得到提高,但是仅依赖专业人员操作无人机识别违章建筑物的方式具有局限性和低效性。建立一套完善的违章建筑物自动检测方法能有效提高工作效率和检测准确率。传统的数字图像处理技术对像素值差异检测精度较高,但不能对像素点进行语义分割和识别,而全卷积网络可实现像素点的语义分割和识别。
现如今,随着科技的飞速发展,多媒体产品的数字化和网络的普遍化为信息(如音频,图片,视频等)的储存和提取提供了极大的便利,提高了数字信息传输的效率以及传输过程中的准确性。但也正是因为多媒体数字信息其传输方式的便利和快速,随之便出现了版权保护和信息安全的问题。因为缺少相应的保护机制,共享的多媒体信息特别容易被非法复制,篡改以及转发,这会给某些非法的个人或组织的盗版侵权行为带来了可乘之隙,严重的损害了版
流密码是一类应用广泛的对称密码体制,其安全性很大程度上取决于密钥流的特性,伪随机序列通常被作为流密码系统中的密钥流使用.序列的非线性复杂度定义为生成该序列所需最短反馈移位寄存器的级数,是衡量其伪随机特性的重要指标之一.为了确保通讯的安全,密钥流序列需要具有较大的非线性复杂度.由于周期序列总是可以视作其最小周期的无限重复扩展,这促使我们以有限长序列的角度去观测周期序列非线性复杂度的相关性质,从而去构
在过去的几十年里,实验和理论的惊人吻合表明标准模型在描述电弱物理方面是成功的,例如发现了规范玻色子W,Z,粲,底,顶夸克以及解决了曾经引起物理学家普遍关注的Rb,Rc问题,但是,标准模型也存在着问题,它没有给出中微子质量,不能提供暗物质的候选者,存在规范等级,平庸性等一系列问题.因此,标准模型只能作为一个低能有效理论,在某一能标之上的东西需引入新的理论来解释。顶夸克是标准模型中最重的费米子,巨大的
农村集体经济是建国初期在农村合作化的基础上发展起来的,是公有制经济的一种形式,是当前农村经济的重要载体,也是实现我国农村经济发展的重要推力。农村集体经济是党在农村基层政权的主要基石,是创新农村社会治理的物质基础。目前城市和农村的经济发展差距仍然很大,为了缩小城乡发展差距,推动农村地区经济的发展,发展壮大村级集体经济是当前经济发展需要进一步地探究和创新的重要内容。因此,在对村级集体经济的研究中,首先
流密码是对称密码算法的一种,具有加密和解密速度快、可操作性强等优点,在密码系统中应用广泛.流密码的安全性依赖于密钥序列的随机性,序列的非线性复杂度是衡量密钥序列随机性的重要指标之一.序列的非线性复杂度是指生成给定序列最短的非线性反馈移位寄存器的级数.自动序列是一类特殊的无穷序列,经研究发现自动序列的随机性介于随机序列和周期序列之间,但没有随机序列复杂.本文将探讨由两个参数k,a确定的一类自动序列S
学位
粒子物理的标准模型是描述基本粒子及其强相互作用和电弱相互作用的规范理论。在过去的几十年里已经得到了大量实验的精确检验,但是它仍然存在一些问题,比如无法解释中微子质量、电弱破缺机制尚不清楚等。因此,标准模型只能是一个低能有效的理论,在高能区域可能被更基本的理论取代。探索标准模型之外的新物理成为当前高能粒子物理最重要的任务之一顶夸克作为标准模型预言的最重的粒子,其质量接近于电弱破缺能标,使它成为基本粒