论文部分内容阅读
石油行业HSE事件数据中包含了大量非结构化的文本数据,为了寻找隐藏在大量文本描述中事件发生的内在关联关系以及指导企业的安全管理、预防安全事件的发生,本文针对其中非结构化的文本数据,采用分词等自然语言处理技术,结合关联规则算法,构建一种针对安全隐患文本数据的挖掘方法,探究安全隐患的内因,并编制了面向石油化工领域的文本挖掘软件。(1)本文将分词技术引入石油行业HSE文本数据预处理,针对行业专业词汇分词效果不佳的问题,采用了半监督式分词方式,对高频专业词汇进行勘误并编撰整理约2500余词的自定义词典,综合现有停用词表,并加入行业所需停用词得到1926词的停用词表,获得较好的分词效果,并对分词处理后的文本运用TF-IDF算法进行关键词抽取。(2)针对常规关联规则算法与本文所处理数据间适用性较差的问题,建立了一种基于Apriori算法进行文本挖掘的模型。结合分词技术,发挥Apriori算法对布尔型数据优秀的适用性,将文本转化为由多个单词组成的事务集,从而进行挖掘,得到128条强关联规则,之后运用Network X结合matplotlib等模块将关联规则以网络图的形式展现出来。根据生成的关联规则结合网络图进行分析,得到企业在安全管理方面存在的问题,并提出建议。(3)为了便于得到数据背后的知识,提高分析效率,本文利用Python语言、Gui工具Pyqt及Qtdesigner等模块开发了文本挖掘可视化软件。该软件基于本论文所运用的文本挖掘方法并加入可视化功能,同时采用了人机交互的操作方式,让使用者在文本挖掘的过程中可以实时进行调整,直观地得到安全隐患的关联关系,具备较好的实用性。