论文部分内容阅读
随着网络通信技术的不断发展,互联网的规模变得愈发庞大。现今互联网可分为表网与深网两部分,在深网中还包含有一个被称为暗网的子集,其必须通过匿名通信系统方能访问,并且能提供深网所不具备的匿名性。基于匿名通信系统Tor构建的暗网是现今规模最大的暗网实体,其本质是以Tor隐藏服务的形式承载的。Tor隐藏服务允许服务方在提供网络服务时隐藏自身的物理位置,这种强大的匿名性使得Tor暗网中充斥着大量不受监管的敏感数据。因此,实现Tor暗网的合理监管迫在眉睫。首先,本文对匿名系统Tor的通信原理及相应机制进行了分析介绍,并从Tor暗网服务发现、数据采集以及数据分类三个方面归纳总结了当前学术界针对Tor暗网数据分析展开的研究工作及成果。其次,本文对Tor暗网的软件架构进行了研究,并以此为基础,提出了基于Tor的暗网服务发现方法TWSD。本文对Tor暗网服务的设计进行了分析,指出了当前暗网服务存在的设计缺陷,并利用该缺陷对TWSD方法的架构进行了设计。TWSD方法通过部署受控隐藏目录服务实现服务发现,优化了服务发现资源高消耗的问题,同时针对暗网服务审查机制实施了规避策略。随后,通过实验验证了 TWSD方法仅需部署16台受控隐藏目录服务即可实现非公开洋葱域名的高效获取,并能有效规避暗网服务的审查机制。最后,本文针对Tor暗网敏感数据收集难、分析难的问题,设计了基于Tor的暗网敏感数据分析方案TDSA,并对该方案的总体架构、关键模块设计以及代码实现进行了详细阐述。在暗网元数据采集中,针对单例洋葱代理链路高负载引起的采集效率低下的问题,提出了基于暗网请求报文的负载均衡策略。在暗网敏感数据特征提取中,针对TF-ICF算法存在的局限性,提出了基于暗网页面位置的TF-ICF改进算法。随后,通过实验验证了 TDSA方案能够实现暗网敏感数据的自动分类,分析了不同类别敏感数据间存在的关联关系,并设计对比实验证明了TF-ICF改进算法能够提升暗网敏感数据分类的效果。