基于机器学习的网络流量识别方法与实现

被引量 : 0次 | 上传用户：baohuse

【摘要】

：

随着计算机网络技术的飞速发展和信息时代的到来,网络使用频率的不断增加造成了互联网的数据流量爆发式增长；网络新应用的不断出现造成了网络通信协议使用更加灵活、混杂；网络

【作者】

：

马衍庆

【发表日期】

：

2014年期

【关键词】

：

网络流量识别机器学习 BP神经网络 SVM PSO

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机网络技术的飞速发展和信息时代的到来,网络使用频率的不断增加造成了互联网的数据流量爆发式增长；网络新应用的不断出现造成了网络通信协议使用更加灵活、混杂；网络病毒、窃听和恶意攻击等行为不断增多造成了网络安全成为社会和政府部门关注的热点。这些问题可以通过网络流量识别得到很好的解决。因此,网络流量识也越来越受到人们的重视。已经有许多不同的流量识别方法,但从研究和应用角度人们越来越关注流量识别的可行性和有效性,即如何快速地处理海量的数据和如何正确地识别网络中的各种应用。面临不断变化的网络环境,本论文主要研究基于机器学习(Machine Learning, ML)的网络流量识别方法,重点采用了后向传播(Back Propagation, BP)神经网络和支持向量机(Support Vector Machine, SVM)两种监督学习算法。BP神经网络采用分布、并行的网状结构进行训练学习,使其容错性更高,处理速度更快；BP神经网络具有很好的非线性映射能力,可以模拟输入与输出的非线性关系；同时,BP神经网络是通过全局寻优的方式进行训练的,因此BP网络也具有很高的泛化能力。SVM则是针对小样本的机器学习方法,并且通过内积核函数将低维样本空间非线性映射到高维空间,其具有比较完善的理论基础。SVM采用“转导推理”(Transductive Inference)方法可以很容易的解决非线性多分类问题。SVM的最优分类超平面只由边界上有限的支持向量构成,使得SVM方法不仅简单有效,而且具有很好的鲁棒性。这两种机器学习算法都能够适应网络环境中的大数据和多样性,都能够快速有效的识别网络流量的应用类型。本论文的流量识别系统是以家庭中的网络流为识别对象,该系统从功能上分为家庭网关和后台服务器两部分。家庭网关实时抓取数据包、提取特征,并通过机器学习的方法进行流量识别,然后将识别结果传送给后台服务器；后台服务器将识别结果存入数据库,并显示当前网络中流量的应用类型,便于管理者进行监管。论文研究的主要贡献如下：1、通过对网络流量识别和机器学习的研究与分析,BP神经网络能够适应互联网的大数据和多样性特点,在此基础上选择了基于BP神经网络的流量识别方法。即选择三层的BP神经网络作为实现方案,其分类能力满足流量识别的要求并且结构简单易于实现。选择S型函数作为BP神经网络隐含层的转移函数,实现对网络流特征等输入信息的非线性映射。虽然BP神经网络容易陷入误差曲面的局部极小,但是通过粒子群算法(Particle Swarm Optimization, PSO)寻找具有全局最优特性的初始化权值,保证BP神经网络训练时能够进入误差曲面的全局最小。实验结果表明,经过PSO算法优化的BP神经网络能够很快寻找到误差曲面的全局最小值,并准确识别流量的网络应用类型。2、仔细研究SVM解决线性和非线性分类问题的原理,在此基础上提出了基于SVM的流量识别方法,将SVM应用于网络流量识别领域。选择径向基函数作为SVM的核函数,实现从低维的网络流特征空间向更高维空间的非线性映射。并通过一对一方法(One-Against-One)构造了SVM多值分类器,使SVM能够识别多种网络应用类型。SVM在高维空间中生成最优超平面,实现对空间的划分和多种网络应用的分类,这是一种全局寻优的方式因此SVM的识别方法具有很好的泛化能力。实验结果表明,SVM非常适合解决网络流量识别这种非线性多分类问题,而且所需训练样本少,计算复杂度低,能够进行实时识别。3、在家庭局域网中设计和实现了流量识别系统。根据机器学习的系统模型和监督学习的实现方法,设计了网络流量识别的总体架构,将其分为实时在线流量识别和离线训练学习两部分,具体过程包含抓取网络流的数据包,生成网络流的特征,选择训练集和测试集,对机器学习算法进行训练,和测试两种流量识别算法的分类效果。在系统实现方面,将BP神经网络和SVM的流量识别算法编写为程序,并移植到家庭网关(家庭网关由路由器搭建)中。在后台服务器的Linux平台上搭建Web服务器和安装MySQL数据库,实现家庭网关与后台服务器之间的交互通信、信息处理和存储。管理员则可以通过Web浏览器登录后台服务器观察当前家庭网络中流量识别结果。

其他文献

行政区划调整对住宅价格变化的影响效应分析——以南汇并入浦东新区为例

行政区划的调整往往是为了适应城市化和区域经济一体化的要求而进行的。除经济和生态环境因素外,住宅价格还受社会、文化和政治等因素的影响和作用,但行政因素对住宅价格变化

期刊

行政区划调整住宅价格住宅特征Hedonic模型新浦东地区

骨髓间充质干细胞移植影响脊髓损伤大鼠TLR4表达的研究

研究背景：脊髓损伤(spinal cord injury, SCI)致残率高,治疗困难,一直是医学界的一大难题。脊髓损伤是脊椎外伤最严重的并发症之一,经常会导致损伤节段以下肢体的功能障碍甚至

学位

骨髓间充质干细胞大鼠脊髓损伤细胞移植Toll样受体4

浅谈输配电生产管理系统

我国电力相关工程正在向信息化与自动化稳步迈进,输配电生产管理系统就是其中改造的工程之一。输配电生产管理系统的稳定,会使得整个社会用电的稳定,要想保持这种稳定,就需要

期刊

输配电网电力通信网生产管理系统

蜡样芽孢杆菌(Bacillus cereus)筛选鉴定及在雪茄烟叶发酵中的应用研究

采用酪蛋白水解实验和蛋白酶活力测定对烟草表面微生物进行分离筛选,对所筛选菌株进行形态学观察、理化试验及16SrRNA基因测序的鉴定。将筛选所得菌株x-2添加到雪茄烟叶表面

期刊

蜡样芽孢杆菌(Bacilluscereus)雪茄烟叶人工发酵

基于Android的教学模拟训练与考试系统的设计与实现

伴随计算机信息科技的飞速发展,教育方式正在面临着一场巨大的变革,开发出一个基于网络的训练与考试系统,既可以增强学校考试工作的稳定性,提高考试管理的质量,又能够提高学

学位

训练与考试学期管理struts2JAVAAndroid

沪港证券市场收益的跳跃溢出与波动溢出研究

证券市场间的跳跃溢出与波动溢出现象是近来金融学家研究的热点问题之一。随着经济全球化、金融自由化的日益深入，这种现象广泛地发生在世界各主要证券市场之间，显现着越来越重

学位

证券市场跳跃溢出波动溢出MCMCSVCJ

互模糊熵的改进及其在心衰检测中的应用

目前,心血管系统疾病已经成为全球成年人首要死亡原因,我国心血管系统疾病患病率逐年上升。近年来,我国在心血管疾病治疗上的费用以每年18.6%的速度迅速增长,远远超过了我国

学位

心血管系统疾病互熵改进互模糊熵心力衰竭

中小银行信贷风险管理机制研究

近年来,尽管中小银行的中间业务收入占全部经营收入的比重有所提升,但是信贷利息收入仍然是各中小银行最重要的收入来源,有的占比达到90%以上,因此如何把控信贷风险,提升信贷

学位

中小银行信贷风险预防与控制

长沙市望城区国家可持续发展实验区的规划研究

现可持续发展观得到世界的普遍认可，走可持续发展的道路是不可违背的历史潮流。我国随着改革开放的不断深入，制约发展的桎梏被打破，经济获得了前所未有的发展，但在发展的过程中也

学位

可持续发展国家可持续发展实验区规划望城农村生活污水

农业生产组织与农村金融服务体系建设研究

农业是国民经济的基础,在国民经济中占有重要地位。中国是一个发展中的农业大国,又是一个人口大国,农村经济的发展地位与作用更加突出,而农村经济的发展离不开农村金融服务体

学位

农村经济涉农信贷农业生产组织农村金融服务体系

基于机器学习的网络流量识别方法与实现

其他学术论文