论文部分内容阅读
伴随着信息技术的进步,安全生产监管工作逐步向智能化的领域快速发展。作为安监整体部署的重要一环,事故隐患的分类任务关系到分析当前各区域监管重点,以及优化下一阶段各区域监管部署。最终实现从事后被动反应向事前主动监管的方向转变。在现有的工作模式下,安全员以北京市安全生产事故隐患分类规范为分类基础,将事故隐患与分类标签一一对应。但是,同司法领域的“一人多罪”场景类似,部分事故隐患在分类规范下符合多个隐患类别的特征,现有事故隐患与标签一一对应的方式未能全面反应事故隐患的严重程度。为了直观反应事故隐患的严重性和关联性,需要从文本语义特征提取的角度出发,实现对于单一事故隐患的多标签分类,构建面向安全生产领域的智能化分类模型。本文以2018年北京市安全生产事故隐患数据为研究对象,从文本语义特征的角度出发,结合深度学习模型和文本相似度计算,构建事故隐患多标签分类模型,真实反映事故隐患对应的标签数量和名称,有利于执法人员分析重点隐患,合理优化工作部署。本文具体的工作内容如下:(1)多标签分类理论研究。针对单标签文本分类与多标签文本分类任务进行基础理论研究,研究现阶段的分类方法和思路,并结合当前的应用场景进行分析。(2)事故隐患智能化粗分类模型构建。对于标签组合总量少、共现程度高的4种大类事故隐患,通过构建标签组合的方法,将多标签分类问题转化为多分类问题。结合文本语义特征构建混合文本向量,在TextCNN基础模型中引入注意力机制,构建面向4大类事故隐患的粗分类模型。(3)事故隐患智能化细分类模型构建。对于标签组合总量多、标签共现程度较低的26种小类事故隐患,通过采用Seq2seq的模型结构,结合事故隐患文本的词语和段落特征,在层次注意力网络模型的基础上进行改进。利用LSTM(Long Short Term Memory)单元代替GRU(Gated Recurrent Unit)单元,并将句子级注意力机制层引入解码器。通过两种改进方式,提升模型的解码效果。本文针对事故隐患4大类和26小类两类标签数据集分别构建多标签分类模型。在事故隐患智能化分类任务中,相较于基准模型,两种改进后的模型均提升了模型的准确率、召回率。实验结果能够证明改进后的层次注意力机制模型有效提升了多标签分类模型的分类效果。