论文部分内容阅读
网络流量分析分类技术,是网络运营商实现网络流量监测,进而有效管理网络的重要手段。目前,网络带宽资源被P2P业务大量占用,使运营商的基础网络建设陷入了“拥塞-扩容-再拥塞”的非正常局面,盈利能力相应降低,且运营商的服务质量也出现了问题,网络安全问题层出不穷。解决以上问题需要运营商在识别网络业务的基础上,针对用户不同的业务质量要求,提供差异化的服务质量保证,并抑制病毒等异常流量,以实现运营商利益最大化。因此,深度感知网络应用,提供网络业务控制和管理手段,构建可管理的和谐网络,已经成为网络运营商目前亟需研究的一个热门课题。本文致力于网络流量分类技术及分析分类系统的研究,主要研究内容和创新点如下:离线网络流量分析分类系统的设计与实现:分析网络流量特征并进行业务识别,首先需要一个分析工具。现有的网络流量测量工具很多,却没有专门的系统能够对大数据量网络镜像报文进行网络业务流量特征的分析及不同分类方法分类性能的评估。因此,本文设计并实现了一个离线网络流量分析分类系统,能够对大数据量网络镜像报文进行离线分析。该系统侧重于分析网络业务的流统计特征及其流量分布规律,并以直观的图形界面进行展现,使用户能够获得对网络业务的特征模式的直观的认识。此外,该系统还提供了多种分类方法,特别是基于流统计特征的分类方法,可以作为基于流统计特征分类的实验平台,并可以测量不同分类方法对不同网络业务的分类性能,以及评估不同网络流量分类方法在不同网络环境下的适用性。该系统为后续的网络流量分析与分类实验提供了良好的实验平台。基于流统计特征的网络流量分类方法的研究:已有网络流量分类方法大都是将单个流特征或流的社会特征分别用于分类,本文将单个流特征和流的社会特征进行了有机的结合,在我们设计并实现的离线网络流量分析分类系统基础上,通过对网络业务特征的分析,提出了一组易于提取、具有线性可分的流统计特征,采用多项逻辑斯谛回归算法即可实现网络流量分类。该分类方法较传统流量分类算法有较低的复杂度,同时可以有效解决以往对等网络(P2P)业务识别率较低的问题。此外,本文还针对现有分类算法对训练数据的质量比较敏感,仅在训练数据中的业务标识完全正确的前提下才能发挥较好的性能,而当训练数据标识中存在相当比例错误时,分类性能将急剧降低的问题,首次提出了一种基于自适应层次聚类的多变量的决策树分类算法。实验结果表明,较现有的分类算法,该算法能在不影响准确率的情况下可以显著提高分类召回率,并能有效识别训练数据中通过协议指纹无法识别的流量。本章的实验平台即利用的是第三章设计并实现的离线网络流量分析分类系统。在线多策略流量分类方法的研究与系统改进:虽然业界已对在线的基于流统计特征的网络流量分类方法进行了大量研究,但普遍存在前提条件苛刻、针对业务种类较为简单、对所有网络流进行分类使得分类效率不高等问题。本文利用第三章设计并实现的分析分类系统,在基于对协议指纹分布规律、长短流分布规律、网络业务的协议分布及常用端口的业务分布等网络流量分布规律分析的基础上,首次提出了能综合考虑多种因素的在线多策略流量分类方法。该方法不仅能在线分类,而且由于对不同的流采用了不同的识别策略,与现有在线流量分类方法及前一章提出的分类方法相比,能大幅提高现有分类方法的效率和分类及时性,并能较好地节省系统资源开销。此外,本文还利用提出的在线多策略流量分类方法对所设计并实现的离线分析分类系统进行了改进,并就基于不完全流特征对UDP长流进行分类的性能进行了分析。