论文部分内容阅读
钓鱼攻击是一种特殊形式的网络犯罪,其并不单单是利用欺骗性的电子邮件和伪造高仿真站点进行诈骗的活动,背后更是隐藏着错综复杂的黑色产业链以及精明的社会工程学。自1987年第一次记录在案的攻击事件发生到今天,网络钓鱼已然发展成为了当今在线交易、电子商务所面临的最危险的欺诈形式。它不仅严重威胁着金融交易中的资金安全,同时也危害到个人用户的隐私。而这些隐私信息的泄露、传播与非法转卖,将会造成严重的信用危机并持续影响着人们的生活和工作。另一方面,为了实现利益的最大化,不同领域的网络钓鱼结合也越来越紧密,攻击周期不断缩短,技术手段层出不穷。“低门槛、高收益”也让钓鱼成为网络犯罪的热门方式。利用支付交易过程中的短板,近年来,网络钓鱼成功地打破了防御与攻击间维持多年的平衡关系,“动态口令”被轻松绕过,“手机短信验证”亦被攻克,“PKI私钥”也被窃取,仅仅依靠受害机构或企业的技术力量无法完全解决当前出现的各种钓鱼攻击,而逐渐复杂化的防御手段也让网络应用的安全性与易用性之间的矛盾愈加彰显,正一步步逼近用户的可容忍限度。随着电子商务的快速发展,当前全国网银用户已高达3亿之多,巨大的利益驱动使网络钓鱼的手段不断变化,并已然形成了产业链式的运作模式,网络安全形势日趋严峻。为了有效地应对钓鱼攻击的威胁,实现更加简单、安全的网络交易流程,应该从流量层角度对钓鱼攻击的识别与发现进行研究,通过实现高效、可靠、响应迅速的防御模式,从根本上阻止钓鱼攻击所带来的安全威胁。本文以钓鱼网站的识别贯穿主线,深入研究了对URL及页面进行分析、分类的理论与技术。通过详细的实验以及丰富的现网数据,文章对提出的研究成果和相关方案进行验证,并取得了良好的效果。本文的主要创新工作归纳如下:1、提出了一种跨平台的桌面级反钓鱼能力评价模型,并首次揭示了多个钓鱼识别领域中的潜在问题。利用评价模型,首次实现了对多操作系统间不同反钓鱼技术的统一自动化评价方法,真正克服了过去由于各技术之间没有统一接口,测试只能依靠人工而得不到全面结果的问题。对当前最新的以桌面识别与阻断技术为代表的十款工具进行了细致评价,不仅横向比较了各自的识别能力,同时依靠大量多源的测试样本,首次发现了一些当前大部分反钓鱼机制中所隐藏的潜在问题。而这些问题必然会在不远的时间内浮现出来,大大削弱对用户的安全保障。本文基于这些识别技术中没有考虑到的隐患进行了一系列研究,并为后文的模型设计提供了重要的指导方向。2、提出了一种大规模多领域钓鱼网站URL (Uniform Resource Locator)识别模型。针对当前识别机制中所出现的潜在问题,结合大量的现网识别经验,提出了一种基于钓鱼专家知识库的特征模式。同时,通过对五类特征模式以及钓鱼网站URL字段的详细分析,首次提出了多个可用于显著区分钓鱼攻击的特征,并在此基础上建立了逻辑回归判别模型,用以实现URL的快速钓鱼攻击分类。针对地域之间特征分布差异化的问题,进一步提出了一种跨领域分类的迁移机制,借助目标领域中的先验知识,对熟悉领域中已有的标注数据以及训练模型进行迁移,从而得到可用于目标领域的初始判别模型。多组实验数据表明,该URL识别模型可以高效、准确地应对大数据场景下URL快速识别的任务,并在跨领域方面取得了良好的迁移性能,从而有效地解决了大规模多领域钓鱼网站URL的识别问题。3、提出了一种基于位置敏感哈希(Locality-Sensitive Hashing,LSH)的快速钓鱼网页相似识别算法,并给出了利用该算法进行钓鱼攻击页面验证以及品牌标记的配套分类模型。通过对当前LSH算法原理的分析与推导,结合钓鱼识别场景中页面特征分布差异化的现象,提出了基于随机投影的位置敏感哈希模型优化思路。利用优化因子的引入,将页面中特征的位置信息以调整距离的方式引入到哈希映射向随机超平面投影的过程中。在此优化思路基础上,成功实现了整套的钓鱼页面分类模型,根据滑动窗口截取到的页面文字与DOM (Document Object Model)构的片段信息,采用优化模型进行指纹映射并与海量样本库中的哈希指纹快速比对,实现页面的钓鱼攻击验证与品牌标记。进一步的实验表明,采用优化模型得到的分类结果通常具有更好的识别能力,并能够实现对页面快速、精准的判定。4、提出了一种基于语义可理解的钓鱼页面识别模型。针对模板匹配的检测机制中,识别能力完全依靠样本是否完备的问题,在受到钓鱼攻击核心是语义攻击这个本质的启发下,提出了利用语义可理解的识别机制对引擎样本库中模板进行扩展的方法。通过所设计的钓鱼领域本体与对应的描述方法,分析出页面中文字之间的语义关系,并与语义模板库比对,从而将过去单一的文字相似度识别转化为灵活的语义层文字理解识别。实验数据表明,采用该机制可以有效地按照页面中的文字描述识别出钓鱼攻击,从而增强了引擎的灵活程度。5、提出了一种大规模反钓鱼识别架构,将前文各项技术的研究成果汇总整合到统一的架构中,组成了可用于现网运行的大规模反钓鱼识别引擎。通过近一年的现网运行测试,验证了该引擎在实际应用场景中具有较高的运行效率以及较为稳定的识别性能,同时表明本文的工作不仅在理论上有所创新,且体现出了一定程度的应用价值。