恶意URL近实时检测分析系统的设计和实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lwh020827
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术和互联网技术的迅猛发展为人们的生活方式带来了新的变化,互联网社交、电子商务以及互联网金融已经融入了人们的日常生活。与此同时,一些恶意的链接,即恶意URL会将用户导向恶意攻击性的网站,或者将用户与恶意文件连接起来,或者将用户导向钓鱼网站,伺机窃取用户的账户等信息,侵犯用户的个人隐私,带来很大的风险会造成用户的财产等损失。在大数据时代背景下,如何实时高效地检测出这些恶意URL并及时做出报警和禁止访问等防护措施,以减少恶意URL对海量网络用户的威胁和侵害,始终是网络安全领域中需要解决的问题。本文采用在线学习算法训练恶意URL检测模型,充分利用了在线学习算法的模型更新效率高、以及利用有限的计算机资源实现对无界数据处理的特点。使用流式计算框架Flink实现了对消息系统Kafka中网络流数据的URL的实时消费,通过在线学习算法训练得到的检测模型实现了对URL的近实时检测。同时利用检索引擎ElasticSearch实现了对大规模网络流数据的检索分析。本文主要完成了如下工作。1.针对采用离线批量数据训练URL的检测模型耗时长,模型不能及时更新导致URL分类模型时效性不强,以及样本数据量过大无法利用有限的计算机资源实现模型训练的问题,本文采用了在线学习算法对URL分类模型进行了训练,使用在线学习算法可以及时利用样本数据更新模型,且在线学习算法实现了使用有限的计算机资源对数据以数据流的方式进行计算。通过Flume实现了对解析得到的网络流数据的实时收集,并将Flume作为Kafka的URL数据生产端,将Flink端作为URL数据的消费端,实现了网络流数据的近实时收集,通过在线学习算法训练得到的URL分类模型,实现了对URL的近实时分类检测。2.针对亿级数据检索的分析效率问题,本文通过对亿级数据检索方案的对比,采用Logstash实现了对解析得到的所有类别网络流数据的索引的建立和索引向分布式检索引擎ElasticSearch的存储。并基于ElasticSearch搭建了B/S架构的检索系统,可以以恶意URL为检索关键字,实现对检测到的恶意URL相关的DNS、IP等信息完成检索,实现了亿级数据检索的秒级响应,提升了对海量网络流数据的分析效率。
其他文献
<正>文[1]与文[2]分别给出了圆锥曲线直角弦上点轨迹的统一方法,其中文[1]利用高等数学中的导数知识证明定理1,文[2]虽用初等数学方法证明了定理1,但证明过程过于繁琐,以中学
期刊
禽类的传染病传播速度快,死亡率高,病初症状难发现,且即使发现,目前也缺少特效的治疗药物,造成禽群大量死亡,所以传染病是禽类养殖中的大敌,常给规模养鸡场造成难以估量的损
通过对松辽盆地北部油页岩进行铝甑分析,得出w(油)基本上都大于6%,具有较好的工业利用价值。油页岩的工业分析和元素分析实验结果表明,工业分析中灰分、挥发分、固定碳、发热
为了探究以生物质能为特色的河南生态文明建设模式,分析河南省生态文明建设的发展现状及面临的困境.基于河南省为农业大省、畜牧大省,农林剩余物丰富的突出特点和优势,提出了
高校人事档案管理,究竟该走纳入管理模式还是非纳入管理模式之路,是很长一段时间以来档案学界都在积极探讨的问题。随着现代化程度的提高和人们对档案工作认识的不断加深,档
目的探讨MSCT评估肝癌伴肝硬化患者肝储备功能的价值。方法选取2014年2月至2016年3月在我院治疗的肝癌伴肝硬化患者44例,评价患者治疗前的cT形态学分级和Child.pugh分级,并分析
当归四逆汤是张仲景《伤寒论》中为厥阴寒证所制之方 ,由当归、桂枝、芍药、细辛、甘草、通草、大枣组成 ,具有温经散寒、养血通脉之功 ,凡寒邪阻滞经脉、血脉不畅而致手足厥
根据炼钢对增碳剂的要求,将煤加工企业副产的煅煤末加工成炼钢增碳剂,并对成型工艺参数的确立原则和主要影响因素进行探讨。
浅议经济转轨与农村金融微观基础的再构造刘华清,李浙平,张在民中央十四届三中全会《决定》的贯彻实施,标志着我国经济转轨将进入实质性阶段,而中央农村工作会议精神的出台又将使
由中国通用技术(集团)控股有限责任公司(以下简称"中国通用技术集团")承担的"高档数控机床设计和加工技术"获批为国家人力资源和社会保障部专业技术人才知识更新工程高级研修项目。该