论文部分内容阅读
随着互联网的迅猛发展以及信息技术的广泛应用,网络已深入各行各业以及人们的日常生活。近年来网络攻击层出不穷,网页流量劫持是其中极其常见的一种,若网页流量被劫持将对服务提供方、浏览方甚至整个互联网造成极大的影响,但是目前针对网页流量劫持发现技术的研究并不多,而且误报率高,所以针对网页流量劫持发现技术进行深入的研究具有重大意义。网页相似度比对算法可以得出网页是否被篡改的结论,比对算法需要根据URL(统一资源定位符,Uniform Resource Locator)查找出该网页的历史信息,再将历史信息与当前信息进行比对,因此URL内存索引在网页信息存储和查找过程中起到至关重要的作用。本文将从网页相似度比对算法优化和URL内存索引优化两个方面进行深入的研究。首先,对网页相似度比对算法进行优化。本文对HTML(超文本标记语言,HyperText Markup Language)进行深入研究,针对网页结构提出HTML元素的自定义分类以及影响因子等概念,为DOM(文档对象模型,Document Object Model)树的不同层级分配权重,得出结构上的相似度;针对网页内容,提出文本集合以及文本集合变化程度等概念,得出内容上的相似度;结合网站更新和篡改特征,提出重要属性等概念,最终得出相似度比对算法,并且提出了基于多点相似度比对的网页篡改判定模型。实现过程中以virtual DOM(虚拟文档对象模型,Virtual Document Object Model)来代替过于沉重的DOM。通过实验数据对比,验证了本文提出的相似度比对算法的误报率低的优点。其次,对URL内存索引进行优化。本文在TRIE树的基础上,利用URL分段的特点对索引结构进行分层处理;将多个二进制结点组合为集合结点,利用SIMD(单指令多数据流,Single Instruction Multiple Data)技术进行并行提取;提供多种存储结构,集合结点可以选择最适合的存储结构;每个集合结点固定扇出,保持较小且稳定的树高。通过实验数据对比,验证了URLS-DNT结构空间消耗少,在查找和插入方面性能优良,树的高度较低且稳定,能够实现高效的URL索引。