论文部分内容阅读
近些年来,随着移动通信网络基础设施的持续建设和移动终端技术的快速发展,国内移动用户数量和网络应用规模快速增长。然而,蓬勃发展的网络在给用户带来丰富和便捷的网络共享资源时,也带来了网络信息安全隐患大、网络内容监管困难和“带宽吞噬”严重等问题,由此导致网络服务性能和网络用户使用感知的降低。因此,如何对移动通信网络中的业务进行精确识别具有重要的意义。 本文首先介绍了业务识别过程中一些基本概念,并介绍了典型的业务识别技术,包括基于端口检测的识别技术、基于深度报文检测(DPI)的识别技术和基于流量特征检测(DFI)的识别技术。在引入数据挖掘技术的基础上,本文设计了基于端口检测、DPI和DFI的业务识别系统(ISIS)。 针对DPI检测过程中业务特征字提取依靠人工方法,提取效率较低的问题,本文提出了基于改进Apriori(先验)算法的特征字自动提取方法。通过在Apriori算法中引入序列项目集和偏移属性集两种概念,使得算法能够适用于业务特征的提取。该算法通过递推方法挖掘出业务数据流中存在的不同长度的特征字段,并利用偏移属性集去除低价值字段,最后依据选择策略选出最终的特征字段。实验表明,该算法可以得到有效的业务特征字。 本文对业务识别系统进行了详细设计,给出了系统的整体框架图。该系统主要由三个模块组成:端口识别模块、DPI模块和DFI模块。端口识别模块使用IANA注册表中的知名端口来初步识别未知流量。DPI模块分为特征字自动提取子模块和DPI检测子模块,特征字自动提取子模块采用第3章所述的方法。DFI模块采用基于朴素贝叶斯(NB)分类的方法来建立流量特征库,并通过计算后验概率来识别未知流量。本文第5章对业务识别系统进行了实现,并对系统的误判率、漏判率等性能进行了仿真测试。测试结果表明:本文设计的业务识别系统ISIS自动化程度高、具有较高的识别准确率和较低的误判率漏判率。