基于深度度量学习的网络流量识别技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:shihongxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网通讯技术的快速发展和网络规模的扩张使得网络中出现越来越多的应用程序,除了已知的应用流量外,还有大量未知的、私有的或者恶意的网络流量,这对网络安全提出了巨大挑战。另外,网络流量识别是与各种网络安全应用程序有关的基本问题,例如入侵检测和防御系统、网络管理系统等,通过对网络流量的精准分析,可以检测恶意流量的攻击,及时采取应对措施,并根据统计结果合理配置网络资源以提供更优质的网络服务。然而,随着流量加密技术和私有协议的普及,以及网络流量和网络应用数量的大规模增长,部分传统的流量识别方法逐渐失效,更加精准和高效方法的提出越来越成为满足现实网络流量识别任务需求的迫切需要。本文针对提升复杂网络环境下流量识别准确率和识别过程自动化程度的问题,围绕网络流量数据包的图像化、流量图像特征的自动化提取、资源有限情况下的未知流量识别,以及智能流量识别系统的设计与实现这四个方面展开研究,主要研究成果如下:1.提出了一种新的网络数据包到流量图像的转换方法。为了使深度度量学习方法能够适应流量数据的特点,本文首先研究了网络流量数据包的图像化,使得网络中的流量数据包转化成卷积神经网络能够识别的图像形式。文中分析了网络应用数据流特性以及解析了数据包数据帧结构,提取传输层和应用层的数据作为流量识别的关键信息,将所提取信息展开为二进制编码并按特定规则映射为灰度图像。实验验证了该方法在设计上的合理性,相比其他流量处理方法,本文方法可以达到更高的识别准确率。2.提出了一个基于深度度量学习的流量特征提取方法。为了实现自动化提取流量特征的目的,本文利用深度神经网络模型自主学习流量图像的特征。该网络将低维特征嵌入作为输出,通过L2三元损失函数从网络的角度直接优化特征嵌入本身,优化后所得特征嵌入即为流量图像特征。另外,在网络模型设计上,本文针对流量识别任务做了一些适应性的改进。包括特征嵌入的L2标准化,使得特征在空间上有更规则的分布,以及通过选择性损失函数计算方法改善深度度量学习中容易遇到的梯度下降困难的问题。上述方法有效提高了该特征提取方法在流量特征学习和提取上的效率。3.提出了一种基于卷积神经网络(Convolutional Neural Networks,CNN)预训练模型的未知流量分类识别方法。为了加强未知流量特征的表征识别能力,也为了解决流量数据有限、训练资源有限的问题,本文使用在Image Net数据集上训练的具有迁移特性的CNN预训练模型提取流量图像的特征。在模型设计上,文中通过去掉CNN预训练模型的分类层,使网络直接输出流量图像的特征嵌入,然后结合t分布随机近邻嵌入(t-Distributed Stochastic Neighbor Embedding,t-SNE)和K-means混合聚类算法,使特征降维聚类,进而实现未知流量的分类识别。该方法是深度学习在未知流量分类任务上的一次有效尝试,是在缺乏数据和训练资源情况下实现未知流量分类的一个可行的解决方案。4.设计并实现了一套智能的可自主学习的流量识别系统。为了更好地适应复杂的网络环境,以及实现流量识别过程的自动化,本文在基于深度度量学习的流量特征提取方法的基础上,结合流量识别算法设计并实现了一种实时、高效、智能的混合流量识别系统。该系统根据流量识别算法的设计,通过已知流量识别算法,实时反馈已知流量类别,区分未知流量,并通过未知流量实时分类算法,能对未知流量内部加以细分,同步更新未知特征数据库中的未知特征信息,通过特征积累提高系统对未知流量的识别能力。该系统能够自动提取流量特征,有较好的混合流量识别能力,可以适应复杂、高速变化的网络环境。
其他文献
当前,信号处理领域实时性要求越来越高,采用CPU+GPU架构的高性能处理平台逐渐在信号处理领域受到重视。为了有效发挥平台内部CPU和GPU计算资源的效率,需要任务调度算法与平台的硬件特点相匹配。然而对于CPU+GPU异构信号处理平台,传统调度算法由于CPU+GPU架构的特殊性,无法发挥优势,甚至造成负面影响。课题由此研究改进了适合于CPU+GPU异构信号处理平台的任务调度决策与方法,实现了对平台多
水声通信信号的盲检测与调制识别是非合作接收条件下水声通信信号信息恢复的重要环节,对海洋资源的开发利用以及提升水下侦察预警能力等具有重要意义。传统的基于特征统计量的水声通信信号盲检测与调制识别方法在水声多途信道和复杂分布噪声环境下往往不够稳健,而深度学习方法能够自动提取深层特征并分类,有效降低了对人工领域知识的依赖。但是,该类方法往往要求大量来自待测目标信道条件下的数据对网络进行训练,在非合作接收条
卫星通信具有覆盖范围广、不受地理条件限制、不易遭到破坏、可承载业务种类多等优点,在应急通信中具有广泛的应用;而不同应用场景往往需要不同的传输速率以承载差异化的服务,通信设备如果能够支持多速率传输和多调制方式的在线切换,将会使系统更具有通用性;TDMA被广泛应用于卫星通信中,其具有单载频复用、无互调干扰、吞吐量高等优点,非常适合处理突发业务。因此本文拟设计一套支持多调制方式和多速率传输的TDMA系统
互联网上丰富的开源代码和第三方组件能够协助软件开发者快速高效地完成开发任务,同时极大地解放了生产力和创造力。正因如此,第三方代码在软件工程中被广泛地使用,甚至无处不在。在很多情况下,即便无法获得软件的源代码或缺少版权声明,我们也想了解软件中第三方代码的复用情况,进而实现知识产权保护和脆弱代码监控等重要应用,二进制代码相似性检测就是为了完成这类任务。本文通过对现有工作的研究发现,由于突破了传统方法在
2020年国家信息安全漏洞共享平台(China National Vulnerability Database,CNVD)所披露的数据显示,当前互联网环境中Web应用类型漏洞占总体漏洞数量的26.5%,可见互联网环境中的Web应用程序面临着极大的安全威胁。代码注入攻击与XSS(Cross Site Scripting)攻击是目前Web应用程序面临的主要威胁,针对此类攻击的传统防御手段,存在过滤规则
代码复用极大提高软件开发效率的同时可能带来一定的安全风险,如果被重用的代码片段中包含漏洞,则所有在此基础上构建的软件系统都会受到影响,因此漏洞检测一直都是软件安全领域研究的重要问题。但是,对于大多数商业软件和设备的固件镜像无法获得源代码,此外随着物联网设备的普及,越来越多的程序被移植到不同体系架构的平台上运行。因此针对跨平台二进制漏洞的检测问题日益成为该领域研究的重点。二进制代码相似性检测用于度量
开源无处不在,从底层芯片、驱动、固件,到操作系统、浏览器、应用软件,都有开源软件的应用,基于组件的开发和代码重用大大提高了软件开发的效率。然而,开源项目维护者对代码安全质量重视不够和技术能力水平不足,开源代码的依赖和引用关系较为复杂,其安全性也往往缺少审查和管理,因此,开源软件也增加了软件供应链的复杂性和安全风险,许多开源漏洞也被引入到闭源二进制文件中。因此,检测闭源二进制代码中复用的开源代码,研
计算机断层成像(Computed Tomography,CT)技术以无损、非接触的方式对物体进行三维成像,广泛应用于医学诊断、工业检测、安全检查、文物修复等领域。在实际应用中,成像系统与理想模型之间的偏差,会导致CT重建图像出现各种伪影。其中,几何伪影是由实际成像系统空间结构与理想几何模型参数失配所引起的图像伪影,表现为重建图像边缘模糊及重影,导致成像分辨率降低和图像质量下降。因此,准确高效的几何
学位
路由器作为互联网基础设施,主要提供数据转发,网络寻址等重要任务,其安全状况对所在网络具有举足轻重的影响。Cisco作为全球最大的互联网设备厂商为全球骨干网络提供着最广泛的服务。虽然Cisco公司一直致力于提高其路由器的安防水平,但由于Cisco路由器型号和IOS版本众多,给安全研究带来困难。一些IOS漏洞和针对性攻击方式只有在安全事件爆发时才会被发现,造成大量经济损失。本文希望借鉴蜜罐思想主动发现