论文部分内容阅读
互联网以前所未有的广度和便利性促进了全世界人类之间的互动,但是,暗网的出现以及日趋成熟,严重威胁了我们的社会和公共安全。因此,研究如何探索暗网的网络空间具有重要的意义。暗网的域名不同于明网域名,具有不公开,存在时间较短,更新换代快的特点,因此暗网域名以及暗网市场识别较为困难,很难获取威胁情报以及复杂的内容分布情况,暗网的分析构成不明确。因此本文基于以上这些问题,对暗网进行数据收集以及内容分析。所设计的系统包括以下几个部分:(1)针对暗网数据问题,本文首先对隐藏服务内容进行爬取,其次对爬取到的内容进行分类,利用一些暗网爬虫策略,采用了Scrapy框架进行爬取,最后对暗网数据爬取进行了设计与实现。(2)针对识别暗网市场内卖方困难的问题,本文设计了暗网市场分析模型。首先进行数据源识别,采用了关键字、雪球以及Deep Weep隐藏服务方法;然后进行数据收集,通过收集的数据进行资产分析,从而能实现主动获取网络威胁情报。(3)针对域名地址收集困难的问题,本文设计了暗网域名聚合系统,使用了暗网目录聚合、Tor2Web域名关键字聚合以及社交网站聚合三种方式进行收集。首先暗网目录聚合收集是暗网域名收集的主要来源,其次提出了发现特定关键字算法,通过Tor2web进行,最后利用Scrapy爬虫框架从Reddit的社交网站的发布内容中获取域名地址。本章最后对暗网域名聚合性进行了测试,测试主要采用关键字搜索方法,搜索关键词使用了Torch、Duckduckgo、Ahmia三大搜索引擎。(4)针对KNN分类效果准确率不高,对KNN算法进行了改进。目前,在暗网数据分类采用的算法中,大部分只提取文本的单个特征值,而没有考虑文本之间关联关系,针对这个情况,提出了基于关联规则的KNN算法改进。首先对Apriori算法进行改进,然后对改进的Apriori算法进行关联规则,提取了频繁项集,确定了K近邻,最后结合KNN算法进行暗网数据分类。在本文的最后,本文所设计的系统扩大了暗网域名的收集数量,并且通过实验验证了基于关联规则的KNN算法,提高了暗网数据分类准确率,证明改进的关联规则Apriori算法,再结合KNN算法对暗网分类更有效。