基于贝叶斯网络分类算法的有害信息识别研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:hulala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对文本形式的有害信息而言,有害信息识别的实质是文本分类,无论是垃圾邮件过滤还是网络舆情分析都可看作是短文本的二分类问题。短文本分类中,大部分中文文本存在文本稀疏,特征高维的问题;同时,贝叶斯分类模型存在特征局限和属性间条件独立性假设不存在的问题。特征高维、特征局限和分类模型条件独立性假设不存在的缺陷成为制约短文本分类的重要因素。为降低以上缺陷给短文本分类带来的不利影响,结合垃圾邮件过滤和网络舆情分析的实际情况,分别对特征提取算法和结构学习算法做出改进。首先,针对特征高维的缺陷和所采用三层贝叶斯分类模型的结构特点,给出中心词扩展的概念,结合词频逆文本频率特征加权算法,提出了基于中心词扩展的频逆文本频率特征提取算法,该算法增加了三层贝叶斯分类模型特征节点的表达能力和特征多样性,实现了特征降维。其次,针对分类模型特征局限和属性间条件独立性假设不成立问题,采用三层贝叶斯分类模型作为分类器模型以避免分类模型特征局限,在遗传算法中加入灰狼优化算法中的三只头狼引领的策略,提出了灰狼遗传结构学习算法,利用该算法训练三层贝叶斯网络模型的结构,放宽了分类器模型的属性间条件独立性假设。最后,将两种改进算法应用到垃圾邮件过滤和网络舆情分析的有害信息识别中,分别通过邮件文本数据和微博文本数据的实验分析,证明了两种改进算法以及三层贝叶斯网络结构模型具有可行性,证明了基于灰狼遗传结构学习算法的三层贝叶斯网络分类器可一定程度的提高中文短文本分类的分类性能,并在此基础上设计完成了一种基于贝叶斯网络分类器的有害信息识别软件。
其他文献
硫作为正极材料,理论比容量高达1675 mAh g-1;同时,硫的资源丰富,价格低廉,对环境友好。硫正极与金属阳极锂或钠匹配,形成的锂硫(Li-S)电池和室温钠硫电池(RT Na-S)是非常有潜力的高能量密度电池体系。目前,锂硫电池或室温钠硫电池在实际应用方面还存在一些问题,包括硫单质的绝缘性以及多硫化物的“穿梭效应”等。研究表明将聚丙烯腈聚合物与硫单质在一定温度下复合,得到的硫化聚丙烯腈(S@p
为进一步认识高原涡对盆地西南地区暴雨过程的影响,总结该区域暴雨预报经验,本文利用2001~2011年高原涡切变线年鉴、MICAPS实况天气图、盆地西南地区气象站日降雨量资料以及N
目的:髓性白血病患者的白血病细胞体外诱导分化成为树突状细胞。 材料与方法:从20例髓性白血病患者的骨髓或外周血中获取非贴壁细胞,8例健康人外周血获取贴壁细胞,利用细胞因子(rh
谱方法越来越广泛的应用于许多领域,如流体力学、海洋工程、量子力学、大气科学、电磁技术、水利水电等科学和工程。经过几十年的发展,谱方法不仅在理论分析上日渐完善,在数值模
长期进行高效抗反转录病毒治疗(HAART)的艾滋病病毒(HIV)感染者中,高达30%的病人其HIV载量被完全抑制,但CD4+T细胞数并没有显著增加(称其为"免疫无应答")。临床医生在治疗这
今年大众消费品的崛起吸引了市场更多的讨论,关注点在于老百姓是消费升级了还是在消费降级。在笔者看来,拼多多等消费降级表现的崛起反应的是消费结构的变化。面对目前生活压力
水是自然地理系统中最基本的组成部分,同时也是生物赖以生存的重要资源。水是自然界中最常见的物质之一,也是地球上分布最广范的物质之一。整个地球表面的75%被水包围着,这是
高聚物粘结炸药(PBX)是一种被广泛应用于武器弹药领域的高能材料,具有相对较高的爆轰性能和较低的感度。在生产、运输以及贮存过程中,因受外界刺激,结构件发生意外变形/破坏的情形时有发生,影响武器系统的服役安全性和使用可靠性,因此研究PBX的变形与破坏规律意义重大。本课题针对PBX变形与破坏规律研究中,试验设计与试验数据规律挖掘两个层面中现存的两个问题,开展了相关研究。一是以正交试验法为代表的传统试验
MgF2薄膜由于其较低的折射率和优良的透光性在空间太阳能电池玻璃盖板中用作增透膜。由于空间环境复杂,MgF2薄膜在多种氧粒子作用下光学性能会出现明显下降,使其在低轨长寿命
皮肤型 Rosai-Dorfman 病(cutaneous rosai-dorfman disease,CRDD)是一种罕见的、仅累及皮肤的良性组织细胞增生性疾病。因其人口学特征、临床表现和预后均与系统性Rosai-Dor