论文部分内容阅读
NAT技术大大地减缓了IP地址空间枯竭的问题,实现了私有网络访问公共网络的功能,为用户带来了巨大的便利与实惠。然而,NAT技术也为未经授权的用户非法接入网络提供了便利,给运营商的正常网络运营带来诸多的困难。因此,必须要找到一种行之有效的NAT流量识别方法,以有效区分网络中的NAT设备与单个的普通主机。现有的各种NAT识别方法普遍依赖于IP数据包中的某一特殊字段,一旦该字段被修改,或者本身无法满足识别需求,这些方法将完全失效。而且这些方法还受到了操作系统或用户上网习惯的制约。有鉴于此,本文提出一种基于网络流量特征的NAT识别方法,该方法将不依赖于数据包中的任何特殊字段,不依赖于操作系统和用户的操作习惯。考虑到NAT流量识别本质上是将网络中的IP地址划分为NAT设备与普通主机两大类的一个分类问题,该问题其实可以看作是数据挖掘技术中最为典型的二类分类问题,本文将数据挖掘技术引入到NAT流量识别的问题中。本方法的总体思想是获取网络中所有IP地址的网络流量特征,然后以各个IP地址作为数据挖掘中的实例,以其特征参数作为数据挖掘中的属性,通过数据挖掘将IP地址划分为NAT设备与普通主机两大类,进而完成NAT的识别。本方法的核心部分是网络流量特征,这是采用数据挖掘技术实现NAT设备与普通主机的划分的基础,也是直接影响本方法的识别效果的关键因素。本文通过对NAT设备和普通主机的网络流量的特点进行对比分析,总结得出十一种反映NAT设备与普通主机之间的差异的NAT流量特征,并通过这些流量特征,归纳出一个包含28种流量特征参数的NAT流量特征参数集。同时,本文对参数集中各个特征参数的分类性能进行了测试,测试结果表明该NAT流量特征参数集对NAT设备和普通主机具备较高的区分度。本文的主要工作是,对采集到的网络流量数据进行特征提取和特征选择等处理,获取到网络中所有IP地址的NAT流量特征参数集,然后通过数据挖掘的方法,将这些IP地址划分为NAT设备与普通主机两大类,从而实现NAT的识别。本文采用了三种数据挖掘算法,包括两种有监督的分类算法,C4.5决策树算法和朴素贝叶斯算法,以及一种无监督的聚类算法,K-均值聚类算法。通过对不同算法的实验结果进行对比分析,验证了本方法的有效性和准确性。最后,对P2P流对算法性能的影响进行了检验,实验结果表明其影响在可接受范围以内。