论文部分内容阅读
最近几年,P2P(Peer-to-Peer,对等网络)迅速成为计算机界关注的热门话题之一,作为改变互联网应用模式的一项新技术,P2P业务已悄然占据了互联网业务总量的60%-80%,成为杀手级宽带互联网应用。P2P应用所产生的流量具有分布非均衡、上下行流量对称、流量隐蔽、数据集中等特性,P2P业务的不断增加,给网络带宽造成巨大消耗,甚至引起网络拥塞,降低了其它业务的性能。另一方面,这样巨大的流量也给运营商带来了巨大的压力,如何更为有效地管理这些流量也是他们面临的一个挑战和难题。因此,实现P2P流量的有效识别就是一个急需解决的问题。然而,随着P2P技术的飞速发展,P2P应用为了避免自身被轻易察觉出来,纷纷采用了各种技术如动态端口、协议字段加密等,P2P流量识别技术也随之面临着严峻的挑战。由于端口跳变,负载加密等流量隐藏技术的发展,利用应用端口和内容等的显式特征P2P流量识别方法已经逐步被淘汰。因此,P2P流量识别开始转向基于传输层特征的方法和基于数据挖掘的方法。而基于传输层行为特征的P2P流量识别方法,是目前较为准确的一种方法。但是这种方法也有一个很大缺点,那就是这种方法并不成熟,只适用于事后的流量记录分析,还不能用于实时的流量识别。但是在现实生活中,人们需要实时的识别出P2P流,这样才能够实现对流量进行控制,以提高网络的性能。因此我们需要找出一种更为有效和实时进行P2P流量识别的方法。本文从P2P流量识别的工作原理和几种典型的P2P流量识别方法入手,探讨了数据挖掘技术在P2P流量识别中的应用,其中着重研究了基于流量属性选择的方法在P2P流量识别中的应用。全文共分为六章,第一章为引言,主要介绍了本文的研究背景和本文的主要工作。第二章对P2P的关键技术做了介绍,并且分析了当前存在的几种典型的P2P流量识别方法的工作原理,以及其在P2P流量识别过程中的特点和存在的问题。第三章探讨了数据挖掘在流量识别中的应用,论证了数据挖掘技术在P2P流量识别中的可行性和必要性,着重介绍了属性选择的重要性以及如何进行流量属性的选择,最后介绍了一下在后面章节中用到的相关的数据挖掘算法。第四章设计并且实现了流量属性特征值的计算,并且计算了几种常见的网络应用流量的若干属性特征值,并且绘出了这些属性特征值的图形,并进行了一定的分析。第五章主要是选用数据挖掘的算法对属性特征值进行了计算,测试了我们所选取的流量属性特征值在进行P2P流量识别中的准确率和效果。最后一章主要指出了后续需要深入研究的工作。