论文部分内容阅读
随着互联网安全形势的日益严峻,不良信息的过滤已经成为一个必须面对问题。人们迫切需要一个高效的网络数据监控平台,以净化网络环境,摆脱不良信息带来的困扰。然而,当前大多数监控产品对不良信息过滤的效果仍然不理想。它们大多采用关键词匹配的方式,不仅过于“死板”,而且易产生误判。因此,为了提高不良信息过滤的效果,本文对传统的CHI特征提取方法以及TF-IDF权值计算方法进行改进,运用于SVM算法中,并结合分布式结构,提出一种基于文本挖掘的分布式网络监控系统DNMS(Distributed Network Monitor System)。论文首先研究了监控领域相关的技术,其中包括常见的监控模式和监控设备的部署方式。论文通过对比旁路监听和网桥两种模式,介绍了不同模式下的监控效果。论文解释了选择网桥模式的原因,并在此基础上讨论了集中式和分布式两种不同的监控设备部署方式,从而确定了整个DNMS的架构设计。接着,论文介绍了基于Netfilter的网络抓包方式,其中重点研究了Linux平台的Netfilter过滤框架的基本原理,并讨论了如何利用该框架搭建类似于防火墙的数据包分析与过滤平台。在报文解析方面,论文研究了网页内容和邮件内容的还原方法,具体包括HTTP、SMTP以及POP3等协议的解析。论文还重点研究了如何抽取网页的正文,即网页去噪问题。在总结几种常见去噪方法的基础上,论文结合网页正文的分布特点,提出了一种基于文本块分布的网页去噪方法。作为DNMS的核心组件,论文详细介绍了不良信息的过滤方法。在总结前人研究成果的基础上,论文分析了不良信息过滤相对于普通二元分类的特殊性,从而提出特征项提取以及权值计算的改进方法,使之更适合于不良信息的识别,并将改进后的相关方法运用于SVM分类算法中,从而提出基于SVM的不良信息过滤框架。在此基础上,论文对DNMS各个功能模块进行了详细的描述,并给出具体的实现过程。最后,为了验证系统的有效性,论文给出了DNMS的测试过程,并对测试结果进行分析总结。测试结果表明,论文提出的DNMS能够承受一定的用户并发量,且过滤模块能够在一定的样本条件下完成局域网环境内不良信息过滤的任务。