论文部分内容阅读
社交网络即社交网络服务(Social Network Service),它提供了一个信息交流和共享的平台,反映了人与人之间的关系。社交网络的兴盛已经成为时代的趋势,同时其中巨大的潜藏利益为投机和恶意行为提供了动机。近年来,由于各类科学研究和数据共享等需要,导致大量真实社交网络数据对外发布,为了保护用户隐私,数据发布者会将代表用户的网络节点标识信息抹去,只保留代表整个网络结构的拓扑模型(Naive Anonymity)。然而,当恶意攻击者对用户周边结构有一定的认知度时,就可以通过观察网络整体拓扑确定用户在网络中对应的节点从而获取用户数据。近年来这类攻击屡见不鲜,严重威胁到社交网络稳定和用户切身利益。因此,如何设计能够有效匿名用户身份的隐私保护手段已经成为一个越来越受关注的研究方向。k匿名(k-anonymity)是一种常用的社交网络隐私保护技术,其思想是通过人为构造一定数量与目标节点拓扑结构相同的节点来降低用户被定位的概率。现有针对k匿名技术的研究大多假设攻击者只掌握一类信息并给出匿名手段,尽管这些手段在保护用户隐私方面已取得良好的成效,然而它们却忽略了现实中根据网络用户等级或重要程度攻击者掌握的用户周边结构类型可能不同的事实。因此对于攻击者可能掌握不止一类结构信息的情况,也需要考虑设计相应的混合k匿名解决方案。数据发布的目的是研究该网络的相关指标如集聚系数、平均最短距离等来分析它的特征,这些指标真实反映社交网络性质的能力可以统称为社交网络数据的效用,它直接决定了网络数据在实际研究分析中的应用价值。而k匿名过程需要对原有网络结构进行更改,从而影响原有网络数据的效用。以往工作在实现k匿名过程中以人为更改操作数量衡量效用损失,然而由于网络结构的特殊性,这种方法忽略了大量的网络拓扑信息,导致社交网络数据效用严重损失。因此在k匿名过程中需要引入适合社交网络场景的效用损失度量标准。本文以匿名社交网络用户同时减少网络效用损失为目标,引入了层次随机图技术在描述社交网络结构的同时保留网络的拓扑信息,并给出了一种基于相似性的层次随机图构造算法和一种基于贪心思想的构造算法,最后基于生成的层次随机图提出了层次群体熵概念作为k匿名过程中选择候选操作的指标。而在考虑匿名操作时,针对攻击者可能掌握用户度结构或者邻居结构的情况,提出了混合k匿名的概念。先假设网络中攻击者只拥有单一类型结构信息场景,在此基础上分别提出了基于度序列的k度匿名算法KDA和基于邻域匹配的k邻居匿名算法KNA,并对算法过程进行了详细分析。进而考虑两种类型信息同时存在的情况,结合用户可能被攻击者掌握的结构类型,利用层次随机图改进KDA和KNA算法,根据实际效用损失量对k匿名算法的候选操作进行选择并给出混合k匿名算法HKA的描述。最后在真实社交网络数据集上验证分析算法匿名效果和网络效用损失,证明本文方法在完成混合匿名用户的同时能够将数据效用损失降低到原有方法的76.4%至83.1%。本文对社交网络数据隐私保护进行了研究,考虑攻击者掌握不止一类用户结构信息的情况提出了HKA算法,使得k匿名技术能用在更现实的场景;引入了层次随机图技术作为匿名过程中效用损失的度量标准,降低了匿名社交网络的效用损失,在保护用户隐私的同时提升了社交网络数据的利用价值;最后采用真实的社交网络数据对本文提出的方法进行验证和分析,并与之前工作做效用损失对比,为针对社交网络数据k匿名技术的相关研究提供了优化的方向。