论文部分内容阅读
随着网络的高速发展和硬件水平的提高,互联网感知技术扮演的角色愈发重要。由于网络应用程序复杂化和个人隐私的重视,流量识别作为最典型的网络感知技术,正在从基于端口和深层数据包检测等面向数据包识别向面向数据流识别的方向过渡。虽然有机器学习和数据挖掘方面的研究作为基础,但是基于机器学习的网络流量识别仍然面临着很多挑战,概念漂移问题就是首当其冲的一个。对概念漂移问题的研究,将会对网络流量识别技术的发展有很大的促进作用。首先本文从网络流量角度对概念漂移检测的基本原理做出了详细的阐述,从概念、目标概念和概念漂移及其检测的定义到概念漂移检测的不同类型,论文都有涉及,为后面的研究奠定了理论基础。其次,对目前数据流挖掘领域处理概念漂移的基于误差率的概念漂移检测方法进行了分析,误差率方法的局限性限制了它的应用范围。然后,在分析概念漂移检测的原理和利用卡方检验、Fisher检验的相关知识的基础上,提出了基于统计学理论的概念漂移算法,且进行了详细的理论论证,并通过实验验证了基于统计学的理论方法的有效性。另外,考虑真实网络环境的类别不平衡现象,比较了贝叶斯核估计、决策树和支持向量机三种机器学习算法的优劣,并选择了决策树算法用于进一步的网络流量识别研究。最后,结合基于统计学理论的概念漂移检测方法,我们设计了三种基于不同集成方式自适应流量识别算法,通过实验我们验证了三种算法都有各自的特点,适用于不同的网络流量识别情景。