论文部分内容阅读
社交网络已经成为社会学和商业模式研究的重要数据来源,然而直接对社交网络数据进行数据分析和数据挖掘会严重威胁用户的个人隐私信息。差分隐私因为其健壮性和严格的理论定义,已经成为社交网络数据发布的隐私保护模型,差分隐私通过向原始数据集中引入随机噪声实现数据干扰从而保护个人的隐私。现有的差分隐私社交网络图数据发布方法主要集中在图合成上,但是当前图数据发布方法中隐私预算是统一由数据管理者设定的,没有充分考虑用户个体隐私需求的差异性,且发布的是社交网络数据的拓扑图数据,没有结合用户个体独立的属性信息和属性信息与边信息的相关性。针对上述问题,本文在考虑用户隐私需求的情况下,研究了社交网络属性图节点属性和边信息的相关性影响,并提出了社交网络属性图个性化差分隐私算法。主要研究内容如下:(1)提出了社交网络属性图个性化差分隐私算法PAGA,根据用户的隐私需求集计算出节点隐私预算和边隐私预算,并基于隐私预算提出了抽样算法PEA和PNA实现属性图个性化差分隐私的个体隐私需求与总体隐私预算的平衡。(2)提出了图合成算法AGMA,AGMA算法包括ANA算法、MKMS算法和CMA算法。节点属性集加噪算法ANA是针对用户之间的独立属性信息提出的,根据节点属性数据集的数据类型不一致情况,对数据集进行数据划分处理,并根据节点属性分布查询函数对节点属性进行划分和概率计算,最后根据概率分布进行节点属性的抽样。(3)针对边-边相关性和节点-边-节点相关性提出了MKMS算法和CMA算法,MKMS算法利用混合克罗内克积图模型对社交网络属性图的结构信息进行采样,计算出节点对之间边的概率信息,根据概率矩阵进行边的初抽样。边修正算法CMA利用属性边相关性及其相关概念,根据属性边相关性对节点属性集和抽样边进行边的修正,使用接受/拒绝概率对边进行二次抽样。该方法更好的还原了社交网络图的拓扑结构和内在属性相关性信息。(4)通过两个真实的社交网络数据集,将本文提出的PAGA算法和AGMA算法进行实验对比,验证了PAGA算法中的PEA和PNA算法以及AGMA算法的有效性和可用性。