论文部分内容阅读
随着信息化建设的快速发展,互联网已经成为人们日常生活不可或缺的一项,人们足不出户就可以享受到互联网带来的便利。然而互联网是一把双刃剑,方便和安全永远不能完美兼得,如此巨大数量的用户和网站由于安全问题而暴露出危险。互联网中存在各种各样的恶意网站、恶意软件、病毒木马,对用户个人隐私和财产安全造成巨大威胁,不仅给用户带来经济损失,甚至会危害社会和国家安全。这些网络攻击进化的越来越复杂和自动化,由于互联网传播迅速和各种类型的恶意网页层出不穷,为检测带来很大难度。论文分析了恶意网页的攻击与检测技术,针对URL检测中提取文本特征不足的问题提出了基于上下文信息的恶意URL检测方法,设计实现了基于该检测方法和网页源码静态检测方法相结合的恶意网页检测系统。主要工作和成果包括以下几个方面:(1)针对传统基于文本特征的检测方法没有考虑到URL中词的位置和上下文信息的不足,提出了一种基于上下文信息的恶意URL检测方法。该方法利用卷积神经网络模型自动提取文本特征,尤其是可以获取URL中词与词之间的上下文关系,减少了人工干预。(2)在基于上下文信息的恶意URL检测方法中,本文分析了URL分类和文本分类的不同之处,研究了URL混淆方式,对URL针对性的进行分词和预处理,暴露出恶意URL混淆意图,并且提出了利用字符之间视觉相似度改进后的编辑距离算法来计算域名相似性。使用开源工具Word2vec生成词向量,构建了适用于URL这种短文本分类的卷积神经网络,能够提取到现有检测方法无法捕获的文本特征。根据实验结果对比,该检测方法比传统利用词袋模型和支持向量机算法来分类URL在准确率和召回率均有所提升。然后利用基于机器学习算法的网页源码检测弥补了仅使用URL文本特征分类检测恶意网页类型不全面的缺点,结合两种检测技术的优点设计出一个检测方法,在低资源消耗的情况下保证检测率。(3)基于上述方法设计实现了恶意网页检测系统,描述了系统各主要模块的设计与实现方案,测试了整体系统的检测能力和检测效率。