政务公文命名实体识别方法研究及应用

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:jz1120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前每年政务公文的数量成倍增加,能从中批量的自动的识别、处理和抽取相应的对象并对所有的公文中的人员、组织、机构、职级、职务等属性完成系统的分析和管理。要完成系统的分析和管理其基础是对公文命名实体的识别,因此对于研究命名实体识别有着重大意义。命名实体识别的主要任务是识别出文本具有特殊意义的词或者短文本,包括人名、地方名等,当前命名实体识别问题已经有很多的关注。命名实体识别主流的方法基于机器学习、基于深度学习的方法。本文只针对机器学习方法和深度学习方法进行研究。本文首先详细研究了机器学习的条件随机场方法,通过CRF模型识别出政务公文中的命名实体,并进行了验证实验。之后,用深度学习的循环神经网络(RNN,Recurrent Neural Network)的一个 Bi-LSTM(Bi-directional Long-Short Term Memory)双向长短记忆法进行命名实体识别。其中对Bi-LSTM模型进行命名实体识别,通过在政务公文领域的语料进行大量的实验,实验结果发现在命名实体识别中,双向LSTM模型能够达到比CRF模型更佳的效果。此外本章最主要的研究是将Bi-LSTM和CRF两种方法进行组合使用,完成Bi-LSTM-CRF模型训练,在政务公文领域进行模型训练,并改进Embedding构造方式、改进Bi-LSTM激活函数、引入单字位置向量、改进训练模型策略,使其先用《人民日报》语料通过Bi-LSTM-CRF方法训练模型,然后用政务公文自标注语料进行模型的二次训练,最终完成相应的Bi-LSTM-CRF模型,并通过多组实验验证其F值的提升。经过一系列的研究和实验最终通过使用Bi-LSTM-CRF模型为政务公文命名实体识别的应用提供了技术模型,增加此领域的实战意义。
其他文献
利用稳态法测试了固体复合材料在不同温度下的导热系数及复合材料与铜之间的接触热租。在90K-300K的温度范围内,固体复合材料导热系数随温度的提高而增大,而当温度上升时,接触热
排污权交易制度通过赋予污染排放者合法的污染物排放权利,并允许这种权利在市场上进行交易来实现对污染物排放控制的制度,其作为一项环境制度不断的发展的新型制度,排污权交
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种主动微波相干成像雷达,它分别利用距离向的脉冲压缩技术和方位向的综合孔径技术来实现较高的空间分辨率。相比于其他光学
电视剧制作中,好的声音获得要从拾音环节开始。在电视剧声音录制中要考虑的因素很多,其中电平的控制、音色的调节、动态的调控、空间感的获得、平衡处理等方面是至关重要的,
定额结算因其审核结付方便,简单易行,管理成本低而成为目前我国基本医疗保险的主要结算方式之一.文章通过实例分析了定额结算下医院的费用补偿机制以及定点医院的可能反应,旨
<正>原地正面双手胯下向前抛实心球是南通市初中体育中考过程性考试项目,也是增强学生上肢及其腰腹部力量的运动项目,还是发展学生的协调能力和爆发力等综合素质的项目。因此
氮氧化物的产生与转化是中学化学的重要内容,经探索对一氧化氮、二氧化氮的性质实验装置进行了改进和创新。利用单连球与气球并结合分液漏斗仪器特点将NO与NO2之间转化在一个
研究目的:我国设计规范因缺少高强钢筋疲劳设计参数,给高强钢筋在铁路工程中的推广应用带来困难。为贯彻落实国家产业政策,充分发挥高强钢筋技术经济性能以及为标准修订提供技术
政府公文智能分类技术在提高政务办公效率方面有着极大的的实际应用意义,是政府政务智能化需要突破的重点方向之一。本文的选题来自于政府智能公文项目,首次将以深度学习为主
在工程实践中,土质改性已被广泛应用于土体工程性质的改良。作为应用最为广泛的土体稳定剂,传统硅酸盐水泥能耗高、污染重、耐久性差的缺点促使人们寻找其他可替代品,其中包