基于Spark平台的网络流量异常检测研究与实现

来源 :江苏大学 | 被引量 : 0次 | 上传用户:jsxhshh123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,网络安全环境也面临严重问题。网络流量异常检测技术是网络安全保障的基础,也是网络安全研究的重要组成部分。机器学习的出现为网络流量异常检测提供了一种新的解决方案,流量异常检测可通过机器学习中分类算法解决,通过构建分类模型,然后利用分类模型对流量数据进行判别分类。然而在如今大数据时代,网络流量呈现爆发式增长,传统机器学习环境已无法解决海量数据的异常检测。此外,网络流量数据中特征维数比较高,存在着较多冗余特征,严重影响着流量异常检测的性能和效率。针对以上问题,本文基于特征选择技术和机器学习中的分类算法提出基于Spark平台的网络流量异常检测方法,目的在于保护网络安全。本文主要研究内容如下:(1)提出一种结合互信息和萤火虫算法的特征选择方法。该方法首先依据特征与类标签之间的关联度计算每个特征与类标签之间的互信息,并按照互信息值由大到小依次排序,选取优秀特征子集。然后使用萤火虫算法对原始特征集合搜索最佳特征子集,并采用一种自适应策略对迭代后的特征进行增加和删除。最后,对这两种方法获得的特征子集采取投票策略获得最终的特征子集。实验结果表明,该特征选择方法能显著改善分类性能和减少模型检测时间。(2)提出一种加权投票随机森林的网络流量异常检测方法,并在Spark平台上并行化实现。该方法首先研究加权投票随机森林模型对网络流量异常检测问题,然后在Spark平台上并行实现该算法,算法能够增强分类能力强的决策树对于分类的影响,同时降低分类能力欠佳的决策树对分类决策的影响。实验结果表明,相比原始随机森林算法和其他算法而言,本文提出的方法在准确率和F1(F-measure)方面均获得提高。此外,相比单机环境下的随机森林算法,所提算法大大减少数据处理时间,在大数据时代,能够很好解决大规模网络流量异常检测问题。(3)设计并实现基于Spark平台的网络流量异常检测原型系统。主要进行数据采集,预处理及特征选择,将处理好的数据存储到分布式文件系统,然后使用加权投票随机森林算法在Spark平台上进行异常流量检测,并将最终检测结果在web界面展示,系统能够很好实现大规模流量数据的检测。
其他文献
年轻上班族久坐,熟龄女性产后发胖,中年男性脂肪疲态,小肚腩、麒麟臂、双下巴……无一不在影响着身姿形态的完美。古人有云:"亭亭玉立杨柳细腰。"用来形容女性身形的窈窕优美,而现在由于生活水平的不断提高,加上缺乏锻炼,使得肥胖的人越来越多。当传统的减肥方法已经无法满足现代人的需求时,吸脂瘦身就成了许多
期刊
当前,我国的脱贫事业取得了阶段性胜利,消灭贫穷、提高人民生活水平,是实现中国特色社会主义的必经之路。政府为脱贫攻坚做出统筹规划,同时也离不开社会各界的参与,特别是上市公司。从目前上市公司披露的企业精准扶贫数据来看,企业参与精准扶贫的积极性不高,不同企业的投入水平相差较大。政治关联作为企业的重要资源,能够为企业带来诸多好处,而同时,精准扶贫有着强烈的“政治色彩”,政府期望那些拥有良好政企关系的企业能
交通运输对于社会经济的发展是极为重要的,其在社会中基础性和战略性的地位尤为突出。而当代中国刚刚度过了经济发展的高速时期,在新常态的经济发展环境下,交通运输更突显了对经济发展的重要作用。运输业的发展不仅加速了各种资源的流动效率,降低了流动成本,给经济注入活力,其对于区域经济的一体化发展也起着同样重要的意义。研究交通运输对经济一体化发展的作用不仅有助于地区间的经济合作,还有助于国家对于交通基础设施建设
我国的金融市场一直以来是中国特色社会主义市场经济的核心,经过多年发展已日趋成熟。然而,各种金融产品的推出和公司投资活动的增加导致大量无法明确在财务报告中清晰界定的损益,究其原因,主要是传统收益模型无法确认或衡量这些损益。随后中国财政部意识到了综合收益(也称CI)的重要性,尤其是其中的其他综合收益(也称OCI),继2014年修订的《企业会计准则第30号-财务报表》之后,财政部连出强招,又在2017年
本文以2009-2018年A股上市企业为研究样本,主要研究由媒体负面报道所带来的媒体压力、环境规制将如何影响企业的环保投资行为。对重要报刊的报道做文本分析得到媒体压力的衡量指标,选取企业社会责任报告中的环保投资数额作为环保投资衡量指标,运用熵值法计算不同地级市的环境规制严格程度,最终得到1111个观测值。经实证研究得出以下结论:企业环保投资力度越大,则说明企业面临的媒体压力越大;当媒体压力一定的情
本文基于中国综合社会调查2013年的数据及2018年新时代特大城市社会结构调研(成都片区)资料,运用文本分析法、描述性分析、相关分析及无序多分类Logistic回归法,在相对剥夺论的指导下分析比较感知对城市居民公平感的影响。具体而言,将比较感知分为纵向流动感知、横向比较感知及社会流动感知三部分,分析三者对公平感的影响。此外,本文引入主观阶层认同作为条件变量,探析其在纵向流动感知、横向比较感知及社会
2020年初,突如其来的新冠疫情打乱了人们的工作、生活和学习。但是,全国人民在以习近平同志为核心的党中央的坚强领导下,上下同心,众志成城,共克时艰。为保障学生的学习,教育部下发《疫情防控期间做好高校在线教学组织与管理工作》文件,要求全国高校充分利用线上课程资源,全面实行线上教学。早在2018年,教育部在《关于实施卓越教师培养计划2.0的意见》中就提出,要深化信息技术助推教育教学改革,开发建设情境化
改革开放40多年以来,我国的经济取得了不少光辉的成就。但需要注意的是,社会也出现了如“PM2.5”、“食品安全”、“商业道德”、“欠农民工工资”等问题。社会逐渐意识到企业不能仅仅以经济利益为目的,这将使得企业在社会上出现信任危机。因此如何强化企业履行社会责任成为了公众和学界关注的焦点。通过浏览相关文献发现以往的研究存在以下问题,第一,对于投资者情绪的研究,几乎很少有学者将其与企业社会责任相联系。更
成立财务公司对企业集团而言,存在不容小觑的意义与价值,其催生了企业集团的财团意识,使企业集团节省了很多的融资成本,防控以及降低了企业集团的资金风险,同时丰富了金融机构体系。财务公司既是金融机构,同时又是企业集团内部单位。作为金融机构,财务公司经营传统商业银行业务如贷款、结算、证券投资等,所以需要面临金融机构的普遍风险,比如说市场风险、信用风险、操作风险等。同时,财务公司是集团内成员,服务对象和经营
自2000年以来,频繁出现的雾霾天气不仅影响了人们的日常出行,而且严重影响了城市环境质量,更阻碍了中国的经济发展。此外,雾霾浓度的增加对人体健康也有不利影响。严重的大气污染不仅会造成当期劳动力的损失,也会对未来的投资和经济发展产生影响。雾霾污染的产生是多种因素综合作用的结果,但归根到底来源于经济发展方式、能源化石燃料燃烧等因素。长三角城市群是我国经济最具活力、经济集聚程度最高、人口密度最大的区域之