论文部分内容阅读
随着互联网应用的日益发展,人们的生活和工作已经越来离不开互联网。我们每天都需要通过浏览器访问网页。但是互联网上有着大量的恶意Web服务器,当用户访问到这类的服务器时,用户的计算机就会受到各种各样的攻击。一旦攻击成功,恶意网意可以使用户的计算机出现软件故障,甚至导致用户的隐私泄漏、帐户被盗等各种后果。这些恶意网站的存在,对普通用户的计算机安全是一个巨大的威胁。因此,我们需要对互联网上的恶意网页进行识别、检测和过滤,以保障人们的上网安全。
随着恶意网页识别技术的的不断研究和发展,各种类型的识别技术都已经得到研究人员的实现及具体应用。如基于动态行为特征的识别系统,启发式检测系统等。然而,如何架构一个恶意网站自动审核的系统环境,使得该系统能够以高识别率、低误判率来采集恶意网址,是仍值得这方面研究人员的继续努力的一项工作。
本论文主要分析了现有的恶意网页检测技术以及主要的网络恶意代码的攻击原理和变形隐藏技术,提出现有一些系统的不足。并基于目前主要的静态特征和动态特征识别技术,通过仔细分析恶意网页在各方面表现出的异常特征,对这些特征进行提取,从而形成一种基于异常特征的识别方法。本文重点介绍恶意网页从载入、环境准备再到利用漏洞及网页最终显示的过程中所表现出来的异常特征,并结合仿真客户端和高性能爬虫,提出一个二级马尔可夫特征链的检测算法,来构建一个恶意网站的检测和采集系统。
与传统的检测方法相比,该检测系统主要优点在于一方面不具体区分恶意网意的静态和动态特征,而是跟踪分析客户端载入网页整个过程当中所表现出来的异常特征。同时,使用二级马尔可夫链模型算法来判断网页是否为恶意网页,避免传统静态检测方法检测效果不佳,而动态检测又存在着性能瓶颈的缺陷。另一方面在检测系统中配合模拟的浏览器,能够大幅提高识别率,对传统客户端蜜罐由于资源模拟不够而造成的漏检有很好的弥补。另外,通过在后台布署一个真实的浏览器,不仅可以识别出基于下载行为驱动的恶意网页,也能够主动识别出钓鱼等仿冒网站,提高该检测系统的实用性。