论文部分内容阅读
大数据的发展,使得现代社会存在两种性质的信息,一是存在价值的所谓有效信息,二是似乎毫无价值的或重复的信息。从目前对于数据的获取、清洗、分析和发布的整个过程来看,在各阶段无论是哪种性质的数据都存在诸多隐私泄露问题亟待解决。考虑到两方面存在隐私泄露问题,一是数据本身存在关联性导致隐私可能会被恶意挖掘,二是对负责数据分析工作的第三方的不信任,因此需要对分析、发布过程中的数据隐私进行保护。本文从数据分析和数据发布过程的隐私保护问题出发,研究这两方面的数据隐私保护技术。在数据分析方面,现有研究从考虑数据关联性出发,考虑对数据降维,并且提出相关敏感度以降低相关性对数据隐私保护的影响。这其中的难点是如何找到一个近似最优子集代替原始数据集,对原始数据集降维。在数据发布方面,隐私保护的主流技术是直方图发布的隐私保护,采用的手段是对直方图重构或对添加噪声与重构的顺序做调换,这其中的难点也在于直方图的重构过程。本文针对以上问题,面向健康医疗数据,提出基于差分隐私的健康医疗数据发布技术。主要研究工作如下:(1)分析研究所涉及的实际背景和研究存在的实际意义。从三个方面描述研究现状,并分析现有工作中可能存在的不足,给出本文的主要研究工作和贡献。(2)针对健康医疗数据中多特征间的关联性、数据之间的关联性有可能会弱化差分隐私保护效果,通过删除特征降低关联性带来的隐私泄露风险。考虑现有特征删除方法中直接从两个具有共线性的特征之间随机选择一个特征,导致删除特征后的数据集可能影响数据分析的预测性能。本文提出一种从原始数据集中提取最大特征集的特征选择方法,通过Bron-Kerbosch算法求解无向图补图的极大团以得到原无向图的最大独立集的方法提取有效特征,解决由于特征之间的相关性造成信息泄露问题。实验说明了本文方法提取特征的有效性,以及与其他方法相比表现出预测性能的提升。(3)在大多数健康医疗数据中存在一段区间内由于数据量较少甚至接近零而出现“零桶现象”、“重拖尾”的现象,而在数据集中的区间内又会出现直方图“十分平缓”等隐藏直方图表达数据特征的现象。对于现有直方图无法真实地或更好地反映出数据分布的显著特征,以及在直方图添加噪声过程中存在的隐私预算分配问题。本文提出一种非等距直方图方法,根据数据稀疏性运用非均匀的经验分布函数构建非等距直方图获取每组的分界点,并根据每组组距分配隐私预算,从而有保护地实现直方图重构。通过实验对比验证本文方法的可行性与有效性。说明了本文分组和隐私预算分配的合理性,以及与其他方法相比表现出反映数据分布的明显性、长范围查询时查询精度的提升。