论文部分内容阅读
随着数据分析和互联网技术的飞速发展,越来越多的组织部门和科研机构将收集到的大量数据公之于众,以实现数据的共享、统计和挖掘。然而,这些发布数据中大多含有个体的敏感信息,如个体的疾病、工资、兴趣偏好等信息,攻击者能够从发布数据中获得较高的信息增益。通常情况下,数据发布的过程中也会增加用户隐私泄露的风险。同时,数据发布中的隐私泄露将阻碍整个社会信息发布和信息共享,不利于维护社会的和谐、稳定发展。因此,在向公众发布数据前,数据发布者需要对涉及个体隐私的数据进行保护,以降低恶意攻击者获得用户敏感信息的几率。本文分别从面向保护效果和面向数据效用两方面对隐私保护方法开展研究,在保护发布数据的隐私安全的前提下,通过数据匿名技术和数据扰动技术对原始数据进行隐私保护处理,以满足发布数据的不同应用需求,从而实现发布数据的可用性和数据隐私安全间的平衡。本文的研究内容主要包括以下四个部分:首先,针对传统匿名模型无法抵御相关性攻击,易形成敏感值高度相关的等价类的问题,在传统l-多样性模型的基础上,提出了一种约束等价类中敏感值相关性的(s,l)-多样性模型。该模型以敏感集合中非敏感属性值的分布度量敏感值的相关性,通过等价类中敏感值相关性的约束来降低高相关性敏感值产生的信息泄露。同时,使用属性值间相关性作为距离度量基准,提出了一种(s,l)-多样性聚类算法(SLCA)来实现该匿名模型,以降低数据泛化过程中的信息损失。对比实验表明,SLCA算法具有较低的时间开销,且能够有效降低发布的等价类中敏感值的相关性,较好地抵御攻击者的相关性攻击。其次,针对t-相近性模型实现方法的性能较低,且无法较好的抵御敏感性攻击的问题,在传统t-相近性模型基础上定义了(l,t)-相近性模型,该模型放宽了t-相近性模型对等价类的约束,要求敏感等级在等价类中的分布与数据集中的分布之间的Hellinger距离不大于阈值t。同时,使用敏感值的自信息来度量敏感度以实现敏感属性的敏感等级划分,并提出了一种基于聚类的(l,t)-相近性匿名算法((l,t)-CCA),该算法通过在敏感等级桶中抽取距离最近的元组形成等价类来实现该匿名模型,以降低等价类中元组的敏感值间敏感程度的差异,并抵御攻击者的敏感性攻击。对比实验结果表明,(l,t)-CCA算法具有较小的信息损失和较低的时间代价,能够更加有效的实现数据发布中数据的可用性与隐私安全间的平衡。再次,针对多敏感属性数据发布中的隐私泄露及攻击者的敏感性攻击,在传统l-多样性的基础上,提出了一种基于属性分解,以逆聚类方法构造敏感组的多敏感属性(l1,l2,…,ld)-多样性的隐私保护方法,在满足数据表多敏感属性值多样性的同时,有效地降低了多敏感属性数据表的敏感性,增强了数据的可用性。最后,通过仿真实验验证了同等条件下,该算法能够有效的抵御攻击者的敏感性攻击,且具有较低的信息隐匿率,虽然在执行时间上与对比算法相比略高,但该算法所处理的发布数据集具有较好的隐私保护效果和数据可用性,略高的执行时间是能够被接受的。最后,针对现有数据扰动方法不能较好地维持原始数据的聚类可用性问题,提出一种面向聚类挖掘,基于数据扰动技术的隐私保护方法。该方法将具有d维属性的数据集抽象为d维空间,根据节点的k邻域分布计算节点的邻域拓扑势熵,并提出了由节点的邻域拓扑势熵将节点划分为邻域分散型节点和邻域紧密型节点的方法。同时,还提出一种根据节点的不同类型分别执行不同扰动策略的数据扰动算法DPTPE,对于邻域分散型节点,使用其k邻域节点的均值替换该节点,对于邻域紧密型节点,则在其安全邻域中随机抽取一个节点替换该节点。通过仿真实验表明,DPTPE算法能够有效地维持数据扰动后的聚类可用性,并保持发布数据的隐私安全。