基于流量分析的信息溯源关键技术研究

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:icefireren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息溯源是指采用一系列的方法和技术手段将内容、网络行为以及应用行为等追溯到其发起者。一般情况下可以通过数据连接的四元组判断信息的来源或者发起者,但是当信息发送者采用一定的手段隐藏这种关系时,如何发现信息的来源变成了一项富有挑战性的工作。匿名通信服务隐藏通信实体的地址、通信关系等,保护用户隐私。但与此同时,匿名网络也被用于掩盖网络罪犯的行踪,如何针对匿名网络的流量进行信息溯源,具有非常重要的实际意义。已有的针对匿名网络流量的信息溯源方法,在实际的应用中大都具有一定的局限性。本文针对匿名通信网络,提出一种在获取匿名网络的入口流量和出口流量的情况下,对匿名网络用户间的通信关系进行去匿名化分析,达到追踪溯源的效果的方法。本文选取匿名网络Tor做为研究对象,针对Tor的流量开展了一系列的基于流量的分析溯源工作。、首先,为了了解匿名网络流量的特征,我们针对Tor的流量进行了深入的分析与测量,通过提取并对比入口流量和对应出口的流量,分析Tor流量的特征。我们同时测量了Tor网络目的节点的国家分布以及流量长度分布等,为后续量化实验验证提供了依据。二、考虑到Tor数据采用SSL进行加密,而基于SSL的网络应用逐渐增多,从背景数据流中识别出Tor流量可以提高溯源的准确性,并且减少系统的计算量。在对Tor协议和流量进行深入研究的基础上,选取了数据包长度作为特征,以SVM分类算法作为Tor流量识别的算法。在离线环境下,使用该方法实现了对Tor流量进行分类识别,分类的准确率与召回率均可以到达90%以上。三、在以上工作的基础上设计并实现基于流量分析的信息溯源系统。选用k-means算法,对于匿名网络的入口流量和出口流量,按照选取的特征向量进行多元关联分析,以获取两部分流量之间的对应关系。并在真实网络环境下,对系统的准确性进行了评估和验证。当数据流的字节数大于200K1B时,信息溯源的准确率可以达到90%以上。
其他文献