基于文本挖掘的分布式网络监控系统的研究与实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:fgh000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网安全形势的日益严峻,不良信息的过滤已经成为一个必须面对问题。人们迫切需要一个高效的网络数据监控平台,以净化网络环境,摆脱不良信息带来的困扰。然而,当前大多数监控产品对不良信息过滤的效果仍然不理想。它们大多采用关键词匹配的方式,不仅过于“死板”,而且易产生误判。因此,为了提高不良信息过滤的效果,本文对传统的CHI特征提取方法以及TF-IDF权值计算方法进行改进,运用于SVM算法中,并结合分布式结构,提出一种基于文本挖掘的分布式网络监控系统DNMS(Distributed Network Monitor System)。论文首先研究了监控领域相关的技术,其中包括常见的监控模式和监控设备的部署方式。论文通过对比旁路监听和网桥两种模式,介绍了不同模式下的监控效果。论文解释了选择网桥模式的原因,并在此基础上讨论了集中式和分布式两种不同的监控设备部署方式,从而确定了整个DNMS的架构设计。接着,论文介绍了基于Netfilter的网络抓包方式,其中重点研究了Linux平台的Netfilter过滤框架的基本原理,并讨论了如何利用该框架搭建类似于防火墙的数据包分析与过滤平台。在报文解析方面,论文研究了网页内容和邮件内容的还原方法,具体包括HTTP、SMTP以及POP3等协议的解析。论文还重点研究了如何抽取网页的正文,即网页去噪问题。在总结几种常见去噪方法的基础上,论文结合网页正文的分布特点,提出了一种基于文本块分布的网页去噪方法。作为DNMS的核心组件,论文详细介绍了不良信息的过滤方法。在总结前人研究成果的基础上,论文分析了不良信息过滤相对于普通二元分类的特殊性,从而提出特征项提取以及权值计算的改进方法,使之更适合于不良信息的识别,并将改进后的相关方法运用于SVM分类算法中,从而提出基于SVM的不良信息过滤框架。在此基础上,论文对DNMS各个功能模块进行了详细的描述,并给出具体的实现过程。最后,为了验证系统的有效性,论文给出了DNMS的测试过程,并对测试结果进行分析总结。测试结果表明,论文提出的DNMS能够承受一定的用户并发量,且过滤模块能够在一定的样本条件下完成局域网环境内不良信息过滤的任务。
其他文献
随着移动互联网的日趋成熟以及移动终端的逐渐普及,用户在手机上进行图片搜索的需求也越来越强烈。本文将图像检索系统与智能手机相结合,分析和研究基于手机的分布式图片检索
随着各行各业信息化的程度不断的提高和移动互联网的飞速发展,传统的计算模式和存储模式已经不能满足日益增长的业务需求,云计算就是在这种背景下提出的一种计算模式,它是一
近年来,社会生活日新月异,纸质档案的数量不断累积、日益增多,对大量的纸质档案的管理和利用方式值得关注。传统人工纸质档案管理方式会带来档案的查询费时费力、纸质档案容易损坏以及占用存储空间大等一系列问题,为了摆脱这种模式所带来的不便,对纸质档案的数字化应运而生。数字化的电子档案相比纸质档案具有明显的优势,其不仅存储方便、不容易被篡改、而且提高了档案查询速度。因此,如何将纸质档案实现数字化,就成为了我们
学位
在中间节点实施数据融合,被认为是一种十分有效的对带宽和能量等无线传感器网络稀缺资源进行优化的有效方法。然而,这种网内处理却对感知数据的安全性造成了一定负面影响,因
云计算技术最初起源于一种商业界,其快速的发展状况,引发了学术界的巨大反响。商业界越来越多引入了云计算,这些商业云计算系统不同于其他云计算系统,对于其特殊性等问题需要
随着移动互联网与位置信息的加速融合,基于位置服务的研究和应用在人们的生活以及各个行业中已经十分普遍,其中位置感知服务(Location-aware service)也已经成为人们研究的热
近年来,随着群体智能优化算法的发展,智能优化算法已成为解决复杂调度问题的重要方法,其被广泛应用于计算机科学、工程和经济问题等领域。由于复杂优化问题存在着大量局部最
在科研、教育和工程等众多领域中,数学表达式作为一类复杂的、语义强的重要信息。人们对它的检索有着表达式二维结构识别和表达式内容语义识别的要求。然而现有的数学表达式检
随着IT技术和社会经济的快速发展进步,社会公众服务的信息化程度也随之越发提高,当今社会正逐渐步入数字化社会,信息技术更是进入了云的时代。在云计算的大潮中,教育行业面临
社会管理创新是政府职能的重要组成部分,是政府服务人民群众、化解社会矛盾、解决社会问题的有效指导。社会管理创新信息系统是支撑社会管理创新工作信息化强力工具。  为