【摘 要】
:
互联网给用户带来丰富资源和便捷服务的同时,因其开放性和匿名性,也成为网络攻击的平台。在众多网络安全问题中,恶意网页扮演重要角色。如何实现对恶意网页的精准快速识别,已经成为一项迫切且具有挑战性的工作。目前,识别方法大致分为四类:基于黑名单技术的检测手段、基于启发式规则的检测方法、基于机器学习的检测方法以及基于蜜罐技术的检测手段。但已有方法都有各自的局限性,必须面向恶意网页检测手段进行更深层分析与探讨
论文部分内容阅读
互联网给用户带来丰富资源和便捷服务的同时,因其开放性和匿名性,也成为网络攻击的平台。在众多网络安全问题中,恶意网页扮演重要角色。如何实现对恶意网页的精准快速识别,已经成为一项迫切且具有挑战性的工作。目前,识别方法大致分为四类:基于黑名单技术的检测手段、基于启发式规则的检测方法、基于机器学习的检测方法以及基于蜜罐技术的检测手段。但已有方法都有各自的局限性,必须面向恶意网页检测手段进行更深层分析与探讨,无论从理论亦或应用层面来看,意义都非常重大。本文的主要研究工作包括如下:1、介绍恶意网页检测研究背景、意义与国内外发展现状。围绕目前一系列检测方法考虑,归纳总结已有方法的局限性和不足。2、研究了恶意URL的数据过采样方法。针对URL数据不平衡问题,提出一种基于生成对抗网络(GAN)的恶意URL过采样算法。通过one-hot编码方法将恶意URL数值化表示,将数据输入到生成对抗网络,生成类似的恶意URL样本并进行K-Means聚类。设计了与SMOTE过采样算法的对比实验,最后选择四种分类模型,对生成的URL样本进行训练并测试。3、研究了基于多层分类器的恶意网页检测方法。黑白名单技术实现简单、检测速度快,将其作为多层分类器的第一层。神经网络模型能直接使用URL原始数据,将其作为多层分类器的第二层。分类器最后一层使用机器学习方法对网页源码作进一步的分析与检测。本文针对网页不同层次的特征,结合三种检测方法的优点,设计了基于多层分类器的恶意网页检测系统并进行实现。本文的创新之处包含以下几点:1、针对URL数据不平衡问题,提出一种基于GAN的恶意URL过采样算法。与SMOTE过采样算法相比,通过GAN方法得到的人工样本由于在分布特征上和原始样本具有相似性,一定程度上可以扩充样本而不会带来过大的分布偏差,使生成的样本更合理有效。2、一方面依靠CNN处理局部关联性数据与特征提取能力,另一方面展现GRU(Gated Recurrent Unit)捕捉数据时序性与长程依赖性优点,构造基于CNN与GRU的恶意URL检测模型。通过实验分析发现,其准确率达到99%,比CNN检测模型高出1.6个百分点。针对网页不同层次的特征,设计基于黑白名单技术、CNN-GRU神经网络模型、随机森林模型的多层分类器检测系统,在低资源消耗的情况下保证检测率。
其他文献
随着我国工业技术的发展,用电需求急剧增加,加快了我国电力技术的发展。在实际应用中传统变电技术存在着众多的问题,难以满足现代工业生产的需求。智能变电站以高集成度、高智能化、信息传输的高可靠性等特点,能实现系统各单元数据交互,提高数据共享性,在现代电力系统中应用的越来越多。本文以智能电站为研究对象,依据智能电站基本特征设计了百灵220KV智能电站。本文首先从基本概念、特征以及结构三个方面详细阐述了智能
对电子听诊器采集的肺音进行异常检测,即判断其中是否含有啰音,能够大幅提升呼吸系统疾病早期筛查的效率。但是,目前肺音异常检测还存在以下挑战:(1)标注样本少,正负样本不均衡。经过专业医生人工打标的样本少,且正常肺音数据量远大于异常肺音数据量,无法为检测模型参数的学习提供充足的监督信息;(2)肺音中往往包含大量的噪声,包括:心音、说话声等,使得检测模型容易出现过拟合问题。针对以上挑战,本文的主要工作包
工业产品质量在线实时视觉检测是智能制造的一项重要工序。目前主流的检测基于人工提取特征,然而这种方法维护成本高和系统迭代慢。另外,面对复杂检测场景,往往难以有良好效果。深度学习作为一种新型人工智能技术,在视觉任务上获得优异性能。但是,深度学习模型性能严重依赖大量带标签的样本数据。在视觉检测任务中,缺陷样本是少量,而且缺陷区域的标记是困难的,耗时的。解决此问题方法主要有:标记框和像素级标记。相比前者,
近年来,卷积神经网络成为人体姿态估计的主流方法,但是网络结构复杂,在提升精度的同时也带来了大量参数与运算量,难以支持在算力与存储能力受限的终端设备上的实时应用。因此,本文从模型设计的角度出发,以优化模型运算量与精度的平衡为导向,研究轻量且高效的人体姿态估计算法,并以此为基础实现针对健身场景的动作相似度分析系统。本文的主要工作包括:1.结合轻量级卷积神经网络的特点,对Simple Baseline网
进入21世纪后,中国的国力不断发展,人口素质不断提高,人们对工业产品的质量也提出了更高的要求,与此同时,中国的人口红利期已过,人力成本逐年递增,尤其受新冠疫情的影响,导致招工难的问题日益凸显,这对‘中国制造2025’提出了更高的要求,机器换人的政策势在必行。工业机器人作为智能制造的最终执行者,它的研发与推广是机器换人政策实行的重要一环。本文将在已有的并联机器人架构的基础上,针对以CR2032电池生
产品质量检测是工业生产制造过程中的重要环节。传统人工提取特征算法在换向器产品质量检测中存在各种不足,无法满足自动质检要求。为解决此问题,本文探索深度学习方法检测换向器侧面划痕缺陷和端面缺料缺陷,深度学习方法能够自动提取特征,其泛化能力强,期望比传统视觉算法有更好的检测稳定性与准确度。本文主要的工作如下:(1)为解决换向器侧面划痕多尺度检测和细小划痕检测两个问题,提出基于编码器-解码器结构的语义分割
为了解决交通拥堵和交通污染,大容量、高效、准时、安全的城市轨道交通(地铁,轻轨,有轨电车)已成为城市交通发展的最终解决方案。手动检查存在一系列重大问题,在地铁检查行业中,需要更多基于技术的便携式和小型检查设备。因此,本文设计了基于无人机采集图像的轨道缺陷检测系统,主要工作如下:在课题准备阶段,本文首先查询了当下四种主流的轨道缺陷主要检测方案;研究了现在普遍使用的地铁检测方案,深入地铁巡检一线了解现
出租车作为公共交通系统的重要补充,在改善出行服务,提升道路运力方面发挥着较为重要的作用。在实际生活中,由于人群活动复杂多样且各区域人口分布不均,这导致人群的出行需求在时间和空间分布上具有较强的随机性和波动性。出租车因无法及时感知人群出行需求,常常引起客运服务的区域性供需矛盾。如何合理分配城市中车辆运力资源,实现客运服务按需供给成为近年来研究的热点。针对人群出行的特点,本文提出一种基于组合神经网络的
随着工业智能化的不断推进和换向器产能需求的不断提高,过去非常低效率的人工检测传统方法和存在各种局限性的传统数字特征处理检测方法将逐步退出工业缺陷检测界的主要舞台。近些年来,卷积神经网络经过长足的发展,分类、检测、分割的各个领域上都有了突破性进展。越来越多的神经网络框架被应用到各类物品的表面缺陷检测任务中。应用在表面缺陷检测的目标检测框架常常可以划分为一阶检测器和二阶检测器。二阶检测器中经典的网络框
由于在划分无标签且含有缺失实例的多视图数据上具备优势,不完整多视图聚类吸引了越来越多的研究关注。虽然已取得很大进展,大多现有不完整多视图聚类方法仍存在至少一个以下缺陷:(1)无法同时开发数据样本之间跨视图的共同关系及原始数据特征表示的互补多视图信息;(2)忽略视图之间高阶的相互关系;(3)只能处理诸如只有两个视图等特殊视图不完整情况。针对这些问题,本文主要开展了以下两方面研究:(1)为了同时挖掘数