面向异常检测的网络流量数据增强方法

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zjcamel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的不断发展、网络规模的不断扩大,互联网已经覆盖了社会的各个方面,给工作生活带来了前所未有的变革,但是,网络安全问题也随之而来,给正常的网络运行造成了巨大隐患。因此,通过网络防护手段及时发现网络的异常变得越来越重要。在常见的网络防护手段中,网络流量异常检测是一种通过学习网络流量数据从而发现网络异常行为的方法。其中,基于分类的异常检测方法结合了热门的数据挖掘领域的各种技术,受到研究人员的重视并且得到了广泛应用。在对网络流量进行异常检测时,基于分类的异常检测方法主要通过学习网络流量数据特征从而构建网络流量分类模型,依赖于网络流量数据集提供丰富的信息,因此流量大数据是网络流量异常检测的重要支撑。但是,研究者们发现,网络流量数据本身存在着不平衡的问题。例如,在识别正常和异常网络流量数据时,经常存在正常和异常流量数据规模差距较大的情况,此类数据不平衡问题容易导致后续构建的异常检测模型向数量多的正常流量数据过拟合,数量少的异常流量数据不能被有效识别,影响异常检测的效果。为解决流量数据不平衡问题,可以通过数据增强技术提升原始数据集中少数类的信息,从而进一步提高流量异常检测的效果。目前,常用的数据增强方法通过加强边界样本识别、优化少数类样本选择、聚类预处理少数类、噪声清洗等手段提升对少数类样本信息的增强效果。但是现有方法大都难以解决数据集中经常存在的同类数据分离、数据分布不均匀等问题。同时对于多分类的数据集,还存在不同类别重要特征不同、噪声样本难以识别等问题。因此,针对当前网络流量数据不平衡问题,本文提出面向异常检测的网络流量数据增强方法,并且针对二分类和多分类两种场景分别提出对应的解决方法。本文的研究工作具体如下:(1)面向流量异常检测的二分类的数据增强方法:在识别两种出现频率差别较大的网络行为时,针对网络流量二分类数据集中的同类数据分离、数据分布不均匀等问题,提出基于第一近邻聚类和多层感知器的数据增强算法。首先通过第一近邻聚类筛选出少数类样本聚类,接着根据聚类中样本分布自适应分配每个聚类合成样本数量,然后对聚类中样本分配初始权重,最后在数据合成时利用多层感知器进行噪声样本清洗。实验结果表明,本文提出的方法能够有效增强不平衡二分类网络流量数据集的中的少数类样本信息,最终提升网络流量异常检测效果。(2)面向流量异常检测的多分类的数据增强方法:在识别多种出现频率差别较大的网络行为时,针对网络流量多分类数据集中的不同类别重要特征不同、噪声样本难以识别等问题,提出基于降维合成和XGBoost(eXtreme Gradient Boosting)的数据增强算法。首先,基于少数类样本的信息熵进行合成样本的选择。然后通过主成分分析法对数据进行特征值分解,使得特征互不相关,再进行数据合成。最后,使用基于XGBoost的投票决策机制对合成的新样本进行噪声清洗。实验结果表明,本文提出的方法能够有效增强不平衡多分类网络流量数据集中的多个少数类的样本信息,最终提升网络流量异常检测效果。
其他文献
世界热带森林复杂多样,热带森林生态系统是对气候变化的响应与适应研究中难度最大和了解最不透彻的陆地生态系统之一。海南尖峰岭森林生态系统国家野外科学观测研究站(简称"尖峰岭生态站")是我国地理上分布最南端、最早开始森林生态系统研究的森林生态系统类型定位研究站。本文将尖峰岭生态站热带半落叶季雨林区内气象观测场1957–2018年共62年间连续采集的气温、水汽压、相对湿度、降水量、蒸发量、平均风速、日照等
由于我国南北气候差异,南方冰雪人才较少,在世界冰雪项目的比赛中我国运动员的获奖情况弱于其他项目。借助2022北京冬奥会的浪潮,我国各省迎来了冰雪运动的“春风”。习近平总书记提出的“带动三亿人参与冰雪运动”极大地促进了冰雪运动的发展,使我国体育事业发展更加全面化。而江西省也紧抓契机,从长远角度出发,统筹谋划,因地制宜发展冰雪运动,在带动江西省体育经济发展的同时,响应文件精神,满足人民群众对冰雪运动的
一、引言在小学体育教学中,体能训练是学生提升运动能力的前提,包含学生的力量、速度、耐力、柔韧性等,有效的体能训练有助于增强学生体魄,提升学生身体素质。然而在传统的小学体能训练中,教师常常让学生重复地去练习体能动作,导致学生不愿意参与到体能训练当中。在"阳光体育"的背景下,教师将拓展活动融入到小学体能训练中,激发学生参与兴趣,激发学生主动锻炼。
期刊
乳腺癌是女性中发病率最高的癌症,同时有较高的死亡率,危害了女性的生命健康。随着乳腺癌早期筛查的普及以及医学成像技术的不断进步,有越来越多的乳腺癌患者能够在早期发现并得到及时地治疗。其中,乳腺X线成像技术具有价格低以及成像清晰的特点,是乳腺癌筛查中最为常见的医学影像手段。在临床工作中,受到医生临床经验和长时间阅片视觉疲劳的影响,会导致诊断结果出现偏差。同时,乳腺肿块与乳腺组织存在高度的相似性,也会为
冬奥会点燃中国冰雪经济。2022年的北京冬奥会,可以说是史上最火冬奥会。运动场内赛事激烈,场外热度不减。冰墩墩萌翻众人,"一墩难求";天才少女谷爱凌夺冠热搜霸屏,同款服装秒断货;滑雪、冰壶、滑冰等冰雪运动也成了追奥的标配……越来越多的人开始身体力行地参与其中,并在社交媒体上分享体验。
期刊
学校是以育人为目的特殊社会组织,与其他社会组织相比,具有明显的松散联结性与公益性特征。在学校管理过程中简单套用科层制模式会带来许多管理方面问题,导致学校管理机构层级偏多,教职工目标置换效应较为普遍,教师参与学校民主管理的效果不够理想,师生的创造性思维受到禁锢,教师职业倦怠现象比较严重。新公共管理理论充分借鉴公共选择理论、委托代理理论、交易成本理论的理论成果,奉行大市场、小政府的管理理念,充分借鉴现
表面等离激元(Surface Plasmon Polaritons,SPPs)可以突破衍射极限并产生很强的局场增强效应,使得集成纳米光子器件的设计具有高度的灵活性、可靠性和精确度,受到了研究人员的广泛关注。本文在金属-介质-金属(Metal-Insulator-Metal,MIM)型表面等离子激元波导理论基础之上,提出折射率传感器、生物温度传感器和带阻滤波器三种光学纳米元件结构,并对其结构分别进行