恶意网页检测技术的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:weiyuanbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化建设的快速发展,互联网已经成为人们日常生活不可或缺的一项,人们足不出户就可以享受到互联网带来的便利。然而互联网是一把双刃剑,方便和安全永远不能完美兼得,如此巨大数量的用户和网站由于安全问题而暴露出危险。互联网中存在各种各样的恶意网站、恶意软件、病毒木马,对用户个人隐私和财产安全造成巨大威胁,不仅给用户带来经济损失,甚至会危害社会和国家安全。这些网络攻击进化的越来越复杂和自动化,由于互联网传播迅速和各种类型的恶意网页层出不穷,为检测带来很大难度。论文分析了恶意网页的攻击与检测技术,针对URL检测中提取文本特征不足的问题提出了基于上下文信息的恶意URL检测方法,设计实现了基于该检测方法和网页源码静态检测方法相结合的恶意网页检测系统。主要工作和成果包括以下几个方面:(1)针对传统基于文本特征的检测方法没有考虑到URL中词的位置和上下文信息的不足,提出了一种基于上下文信息的恶意URL检测方法。该方法利用卷积神经网络模型自动提取文本特征,尤其是可以获取URL中词与词之间的上下文关系,减少了人工干预。(2)在基于上下文信息的恶意URL检测方法中,本文分析了URL分类和文本分类的不同之处,研究了URL混淆方式,对URL针对性的进行分词和预处理,暴露出恶意URL混淆意图,并且提出了利用字符之间视觉相似度改进后的编辑距离算法来计算域名相似性。使用开源工具Word2vec生成词向量,构建了适用于URL这种短文本分类的卷积神经网络,能够提取到现有检测方法无法捕获的文本特征。根据实验结果对比,该检测方法比传统利用词袋模型和支持向量机算法来分类URL在准确率和召回率均有所提升。然后利用基于机器学习算法的网页源码检测弥补了仅使用URL文本特征分类检测恶意网页类型不全面的缺点,结合两种检测技术的优点设计出一个检测方法,在低资源消耗的情况下保证检测率。(3)基于上述方法设计实现了恶意网页检测系统,描述了系统各主要模块的设计与实现方案,测试了整体系统的检测能力和检测效率。
其他文献
目前,在河南省人民政府、省林业厅的高度关注下,河南省国家储备林基地建设工作正在有条不紊地推进中。驻马店市积极响应河南省大力建设林业生态省的号召,持续推进城市生态建
针对大庆油田中转站、污水站不同岗位安装的不同型号的液位传感器进行了对比介绍,并且对转油站的三合一罐来液稳定性差,油、气、水介质比例变化复杂,在冬季来液量突然增大时,
信息技术对于旅游业的发展是至关重要的。自20世纪80年代开始,信息技术就渗透到了旅游业的各个方面,信息技术的旅游应用研究产生了大量的研究成果。然而,由于相关研究涉及到不同
从设计伦理学的研究角度,以当代日用陶瓷本身的发展特征为基本点,阐述设计伦理学如何引导日用陶瓷产品设计实践从服务于人类使用的功利境界,服务于人类情感的审美境界,最终到
高职学生的就业行为以及思维方式都受到了互联网的影响,发生着很大的变化,这对目前的就业管理工作也产生了改变,面临着新的机遇与挑战,结合目前社会发展趋势,院校管理人员应
在停机检修过程中发现的设备绝缘降低问题。分析绝缘值降低原因,讨论潮湿对设备的危害并提出预防及处理措施。
通过对造型、釉色、装烧工艺和装饰等特征的比较,表明四川古代青瓷与越窑之间有着比较密切的关系。四川古代青瓷不仅学习越窑青瓷的先进制瓷技术,甚至还直接仿烧部分越窑产品
<正>芬兰地广人稀,国土面积33.8万平方公里(相当于两个河南省),人口仅550万人(相当于河南一个地级市的人口),其中,首都赫尔辛基、埃斯波、坦佩雷等九个城市人口超过十万。199
<正>11月12日,备受关注的北京市通州区宋庄镇画家村农宅转让纠纷进入一个新的阶段。当天,这次诉讼风波中第一个宣判的李玉兰案,在北京市第二中级人民法院开庭二审。由于双方
利用logistic回归模型实证分析林业专业合作社按惠顾返利的影响因素,结果表明:服务类合作社对实施按惠顾返利有正相关影响,社员之间产权差异大则有负相关影响;在解释实证分析结论