论文部分内容阅读
IDC以其标准化的机房设备、优质的网络带宽、全面的监控管理等集中的一站式服务,大大减低了中小企业信息化建设的成本,为传统企业参与“互联网+”进行服务转型提供了便捷。这些企业的广泛需求,也推动了IDC的迅猛发展和高速建设。然而,现在IDC的建设相对独立,没有全面规划和统一部署,造成运营商网络资源利用不平衡,降低了服务效能。因此,需要一种行之有效的办法帮助网络运营商和网络规划者识别网络中IDC,从而优化网络资源配置和部署。根据这种需求,本文提出了一种基于流行为特征的IDC识别方法。本文的总体思想是从大量用户的网络流量中,提取和选择一组能有效区分数据中心IP地址的特征参数,然后结合机器学习技术将IP地址划分为数据中心IP和非数据中心IP,再构建数据中心IP地址的网络,最后使用社团检测技术对网络进行划分,进而完成IDC的识别。本文的研究成果如下:(1)本文通过对数据中心服务器IP流量和非服务器主机IP流量的特点进行对比分析,得到六种反映服务器和非服务器间差异的流量特征属性,进而从中提取出一组包含24种流量特征的特征参数集。并完成了特征参数集中参数的分类性能测试,发现部分流量特征参数对数据中心IP分类效果较好,表明该特征参数集具备区分服务器IP和非服务器IP的能力。(2)本文通过构建数据中心IP的连接网络,引入社团检测技术,将IDC识别转化为网络中的社团发现问题。通过分析IDC的网络特性和功能特点,总结得出基于流连接的IDC网络具有社团结构,然后利用共引网络的思想,结合流的连接特征构建数据中心IP连接图,使用社团检测算法进行社团挖掘,实现了IDC识别的目标。最后,本文以数据中心特征参数集为输入,分别用两种机器学习算法—C4.5决策树算法和朴素贝叶斯算法进行分类,都取得了较好的效果。同时使用两种社团检测算法—BGLL算法和Infomap算法,验证了本方法的有效性。