网页流量劫持发现技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wenlimm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展以及信息技术的广泛应用,网络已深入各行各业以及人们的日常生活。近年来网络攻击层出不穷,网页流量劫持是其中极其常见的一种,若网页流量被劫持将对服务提供方、浏览方甚至整个互联网造成极大的影响,但是目前针对网页流量劫持发现技术的研究并不多,而且误报率高,所以针对网页流量劫持发现技术进行深入的研究具有重大意义。网页相似度比对算法可以得出网页是否被篡改的结论,比对算法需要根据URL(统一资源定位符,Uniform Resource Locator)查找出该网页的历史信息,再将历史信息与当前信息进行比对,因此URL内存索引在网页信息存储和查找过程中起到至关重要的作用。本文将从网页相似度比对算法优化和URL内存索引优化两个方面进行深入的研究。首先,对网页相似度比对算法进行优化。本文对HTML(超文本标记语言,HyperText Markup Language)进行深入研究,针对网页结构提出HTML元素的自定义分类以及影响因子等概念,为DOM(文档对象模型,Document Object Model)树的不同层级分配权重,得出结构上的相似度;针对网页内容,提出文本集合以及文本集合变化程度等概念,得出内容上的相似度;结合网站更新和篡改特征,提出重要属性等概念,最终得出相似度比对算法,并且提出了基于多点相似度比对的网页篡改判定模型。实现过程中以virtual DOM(虚拟文档对象模型,Virtual Document Object Model)来代替过于沉重的DOM。通过实验数据对比,验证了本文提出的相似度比对算法的误报率低的优点。其次,对URL内存索引进行优化。本文在TRIE树的基础上,利用URL分段的特点对索引结构进行分层处理;将多个二进制结点组合为集合结点,利用SIMD(单指令多数据流,Single Instruction Multiple Data)技术进行并行提取;提供多种存储结构,集合结点可以选择最适合的存储结构;每个集合结点固定扇出,保持较小且稳定的树高。通过实验数据对比,验证了URLS-DNT结构空间消耗少,在查找和插入方面性能优良,树的高度较低且稳定,能够实现高效的URL索引。
其他文献
石油与人们的日常生活息息相关,在能源消费中有着举足轻重的地位。近年来石油工业对环境的影响也越来越严重,所以资源的有效利用和环境保护问题成为各国关注的焦点。为了了解全球石油与环境问题,就需要有大量的多语言文本供各国进行研究。因此对于此类的翻译人才也有了很大需求。本文是关于《石油和环境》(节选)的翻译实践报告,主要介绍了油气勘探、生产、加工、精炼、运输和使用过程中产生的环境问题。通过对原文本的分析,作
非国有企业在自身发展上,一则先天不足、规模小、实力弱、企业资信度较低,二则社会上没有有效的抵押担保机制为之服务,企业又缺乏相应的抵押物,致使非国有企业多年来一直没有
研究目的:重复经颅磁刺激作为一种非侵入性脑刺激方法,可以作为改善脑卒中后运动功能的治疗手段,但目前针对慢性恢复期的患者研究较少,本研究通过设置对照实验,将研究对象随