论文部分内容阅读
随着互联网技术的不断发展,网络规模逐渐增大并涌现出各种新的网络应用(如P2P、IPTV等)。这些新型流量的急速增长一方面造成严重的带宽负担,加剧网络的拥塞状况;另一方面恶意流量也频繁出现在互联网上,不仅加快带宽的消耗而且对网络安全也提出很大的挑战。网络应用的增加,导致网络速率不断增长,网络节点处的网络管理设备面临越来越大的压力。如何通过有效的技术手段实时识别和监测流量,从而管理和控制各种恶意流量,提供合理的带宽资源和服务,成为当前网络管理面临的重要难题之一。网络流量分类正是解决上述难题的基础,尤其是基于半监督学习的分类方法,不仅能够利用少量标签数据促进分类系统的性能,而且具有发现新的模式的功能成为当前流量分类领域研究的热点。鉴于网络流量本身天然的地域性、时域性,本文将分布式的理念和技术引入在线流量分类中,将分类任务分散到不同的节点上,由中心节点管理并协调各个子节点分类并提供对子节点分类结果的验证。首先,本文针对大多数基于有监督机器学习的分类器过度依赖于有标签数据问题,提出了基于k均值算法的半监督聚类算法Semi-kmeans进行流量分类的研究。该算法使用具有准确应用类型的流量样本作为初始聚类中心,不仅能够有效的识别应用类型,而且具有发现新型网络应用的功能。其次,由于互联网应用行为的实时、多变、易逝等特征,使得对网络流量的在线识别方法更具研究意义。本文研究的在线网络流量分类模型,专门针对网络流量的实时分类而设计。采用离线训练和在线分类相互配合的方法进行实时分类,从而提高分类效率。并且结合本文研究的半监督聚类方法,对在线分类的结果进行实时验证,从而及时更新在线分类器,保证其对网络环境的适应性。最后,本文针对当前流量分类领域,高速网络流量分类相对较难的问题,进行分布式在线识别方法的研究。该方法在对半监督学习方法和在线网络流量分类方法的研究基础上,结合分布式入侵检测系统的思想,把对网络流量的实时识别分散在各个节点,着重于在线识别方法之间的协作能力。