基于差分隐私的健康医疗统计数据发布技术

来源 :安徽工业大学 | 被引量 : 0次 | 上传用户:kang573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据的发展,使得现代社会存在两种性质的信息,一是存在价值的所谓有效信息,二是似乎毫无价值的或重复的信息。从目前对于数据的获取、清洗、分析和发布的整个过程来看,在各阶段无论是哪种性质的数据都存在诸多隐私泄露问题亟待解决。考虑到两方面存在隐私泄露问题,一是数据本身存在关联性导致隐私可能会被恶意挖掘,二是对负责数据分析工作的第三方的不信任,因此需要对分析、发布过程中的数据隐私进行保护。本文从数据分析和数据发布过程的隐私保护问题出发,研究这两方面的数据隐私保护技术。在数据分析方面,现有研究从考虑数据关联性出发,考虑对数据降维,并且提出相关敏感度以降低相关性对数据隐私保护的影响。这其中的难点是如何找到一个近似最优子集代替原始数据集,对原始数据集降维。在数据发布方面,隐私保护的主流技术是直方图发布的隐私保护,采用的手段是对直方图重构或对添加噪声与重构的顺序做调换,这其中的难点也在于直方图的重构过程。本文针对以上问题,面向健康医疗数据,提出基于差分隐私的健康医疗数据发布技术。主要研究工作如下:(1)分析研究所涉及的实际背景和研究存在的实际意义。从三个方面描述研究现状,并分析现有工作中可能存在的不足,给出本文的主要研究工作和贡献。(2)针对健康医疗数据中多特征间的关联性、数据之间的关联性有可能会弱化差分隐私保护效果,通过删除特征降低关联性带来的隐私泄露风险。考虑现有特征删除方法中直接从两个具有共线性的特征之间随机选择一个特征,导致删除特征后的数据集可能影响数据分析的预测性能。本文提出一种从原始数据集中提取最大特征集的特征选择方法,通过Bron-Kerbosch算法求解无向图补图的极大团以得到原无向图的最大独立集的方法提取有效特征,解决由于特征之间的相关性造成信息泄露问题。实验说明了本文方法提取特征的有效性,以及与其他方法相比表现出预测性能的提升。(3)在大多数健康医疗数据中存在一段区间内由于数据量较少甚至接近零而出现“零桶现象”、“重拖尾”的现象,而在数据集中的区间内又会出现直方图“十分平缓”等隐藏直方图表达数据特征的现象。对于现有直方图无法真实地或更好地反映出数据分布的显著特征,以及在直方图添加噪声过程中存在的隐私预算分配问题。本文提出一种非等距直方图方法,根据数据稀疏性运用非均匀的经验分布函数构建非等距直方图获取每组的分界点,并根据每组组距分配隐私预算,从而有保护地实现直方图重构。通过实验对比验证本文方法的可行性与有效性。说明了本文分组和隐私预算分配的合理性,以及与其他方法相比表现出反映数据分布的明显性、长范围查询时查询精度的提升。
其他文献
学位
学位
学位
随着经济的快速发展,钢铁行业作为国民经济的“支柱型”产业,在创造巨大经济效益的同时也产生了大量的污染物。目前钢铁联合企业在位于潮湿南方地区的矿山开采工程中会产生大量的高含湿量粉尘,若采用袋式除尘器处理易发生结露、糊袋的现象,导致除尘器发生故障。微孔膜除尘器由于采用疏水性高的PTFE微孔膜滤料,有效的克服了糊袋等问题,但目前常规的微孔膜除尘器大都采用机械振打方式清灰,其缺点是清灰效率低,使用寿命短;
学位
学位
学位
自然界及日常生产生活中,广泛存在液滴撞击壁面的现象,其中的流体力学、热量传递和运输机理等问题,一直是学术研究的热点。研究表明,液滴自由落体时会发生拉伸和压缩的周期性变化,使液滴在撞击壁面前呈椭球形,在气流、电场和磁场等影响因素下,液滴也会发生变形。液滴持续撞击干壁面后,会形成一层薄液膜附于壁面上,许多工况中的液膜具有一定的流动速度,随后的液滴继续撞击具有流动液膜的润湿壁面,撞击现象明显不同。由于气
抗拔桩是岩土工程中经常运用的增加结构抗拔能力的措施之一。在大量的工程案例中,抗拔桩已经得到了普遍的运用。但是,有关抗拔桩的承载特性及工作机理等方面的研究相对滞后于工程发展需求,亟需一种相对快速、便捷的抗拔桩承载特性评价手段。孔压静力触探(CPTU)测试在土分类与土层划分、获取土体原位固结特性以及渗透特性等方面已经有了成熟的应用。将CPTU测试应用于桩基承载特性预测方面也有了几十年的研究历史,相比于
学位