论文部分内容阅读
随着大数据时代的到来,越来越多的数据正在被一些统计机构收集和发布。如何在发布数据时保护数据隐私,同时保障数据的可用性是隐私保护领域一直面临的重要挑战之一。ε-差分隐私是一种强大的隐私保护模型,它提出了目前为止最为严格的攻击者背景知识假设。但是,这个模型在隐私安全的定义上存在缺陷,同时,其参数ε的设置也令人无法准确地把握。针对ε-差分隐私定义上的缺陷,研究人员提出了ρ-差分可辨性隐私保护模型。该模型假设了与ε-差分隐私一样严格的攻击者背景知识模型,但提出了更为合理的隐私安全定义。然而,基于ρ-差分可辨性的算法,目前只有在交互式框架下的解决方案。如果直接将适用于交互式框架的算法应用于非交互式框架,将很大程度上折损数据的可用性。 因此,论文提出了一种新的隐私保护算法——Margin-Jump,它可以为列联表(一种典型的非交互式数据发布模型)的发布提供满足ρ-差分可辨性的隐私保护。该算法的基本思想是随机替换记录的敏感属性值,其重点研究工作包括如何挑选需要替换的记录,以及如何使其随机机制满足ρ-差分可辨性。为了优化该算法,论文还提出了当敏感属性值为连续性数据时的特殊替换方法,以及结合k-匿名算法以控制输出结果精确度的基于泛化的Margin-Jump算法。 通过实验分析,验证了Margin-Jump可以保证非交互式数据发布满足ρ-差分可辨性,并通过对比Basic算法,验证了Margin-Jump在同等安全级别上进行范围查询时,平均绝对误差更小,精确度更高。