邻近隐私保护与集成k-匿名算法的研究

被引量 : 3次 | 上传用户:sbtlan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和数据发布是当前数据库应用的两个重要领域。一方面,数据挖掘和知识发现在各类数据应用范围中都起到非常重要的作用。数据挖掘的目的是从大量的无规律的数据中抽取出潜在的、有价值的知识、模型、规则等;另一方面,数据发布是把数据库中的数据通过相应的方式提供给用户,但在各种数据应用中,如果在数据发布过程中没有相应的方法对隐私数据进行保护,那么很有可能导致敏感信息的泄漏,因此会给数据所有者带来负面影响。例如在医院的病历数据中使用数据挖掘的相关算法进行挖掘,以进行相关疾病问题的研究。由于医院的病历数据包含了患者疾病的隐私信息,所以如何在数据的发布过程中,使用并且能够保护个人隐私成为了一个越来越严峻的问题。数据匿名化是实现隐私保护的一个有效手段,其基本思想是通过改变(概化、压缩等)原始数据中的部分数据,使改变后的数据无法和其他信息相结合而推理出关于任何个人的隐私信息。如何对针对含有隐私信息的数据进行相应的匿名化工作,现如今已经得到了越来越多的研究人员的兴趣。通常的说,实现隐私数据的保护主要是考虑以下两个问题:(1)保证数据使用的过程中不泄露用户隐私信息;(2)保证数据的实用性更好。因此,如何在保护隐私的同时获得更好的数据可用性,这是学术界和工业界都需要面对和要解决一个问题。因此,本文的主要工作重点集中在保证足够的隐私力度的前提下,如何提高数据的可用性。从匿名算法和匿名技术二个方面着手提高数据的可用性,本文研究成果主要有:(1)K-匿名模型是隐私保护中最重要的模型之一。其中概化技术是非常普遍使用的一种匿名技术。通常,基于概化的K-匿名算法共同遵守一个方法,来完成一张表的匿名化处理:把表划分成很多的分组(Ql-groups),且这些Ql-groups的大小至少是K。然而,我们发现当使用已存在的方法去匿名化和概化QI-groups时,在同一个QI-group中语义相近的一些敏感属性值的隐私会被泄露。为了解决这个问题,引入概念m-color约束,并在该概念的基础上提出相应的理论方法来防止类别属性邻近隐私的泄露,并给出了相应的概化算法。并用实验说明算法的效率和实用性,能大大的降低信息损失。(2)已有的隐私保护数据发布可被分为两类:理论类型和启发式类型。前者可从理论化的角度讨论数据发布过程中如何保证低信息损失。而后者在多数的情况下其在真实数据集上运行的效果良好,但在某些特殊的数据集上运行的效果并不理想可能会导致很大的信息损失。目前,人们已设计出大量的启发式算法满足一些隐私保护规则,如l-diversity,t-closeness等等。但是,理论类型的研究仅仅局限于k-匿名和l-diversity。基于上述问题,我们首次提出了(ε,m)-anonymity理论化问题的研究。首先,证明了(ε,m)-anonymity’*’最小化问题是一个NP-难问题,最后给出了问题的相应的算法。(3)在探讨了已有的匿名技术基础之上,提出了集成(Ensemble Algorithm for Privacy Preservation)隐私保护算法,它的特点是综合了概化(Generalization)和机器学习中的集成学习(Ensemble Learning)两种技术的特点,通过对几个k-匿名算法进行集成,最后输出由这几个算法集成而成的满足k-匿名的表,优化了数据的可用性,降低了信息损失。通过对集成隐私保护技术的分析表明,它是k-匿名技术的一种推广,能够提供比k-匿名更加好的隐私保护力度,更好地降低信息损失,应用范围也更加的广泛。
其他文献
随着中国国际地位的提高,越来越多的外国人来到中国谋求发展。由于工作原因,他们无法参加传统的课堂学习,而转投一对一的形式来学习汉语。与丰富多样的课堂教学形成鲜明对比
土壤特性的空间分布特征及与影响因素的空间相关性一直是农业水土领域的研究难点和热点。由于土壤特性在一定尺度上具有一定程度的空间变异性,同时,土壤入渗特性受到土壤质地、
小微企业是国民经济和社会发展的重要基础力量,是创业富民的重要渠道,在缓解就业压力、增加国民收入、改善民生、促进国家稳定、增加国家税收、活跃市场经济等方面具有举足轻
在高校乐团建设的茁壮成长当中,随着素质教育的落实,教学模式进行了一定的改革和创新。翻转课堂是现阶段高校乐团建设运用极其广泛的一种教学模式,它主要通过课堂主体的调换,
近年来,随着全国省直管县财政体制改革及“扩权强县”试点实践不断深入推行,省直管县体制改革成为了众多学者的关注热点。我国现行市管县体制从上世纪八十年代伴随着地区体制改
解放前,上海的旧新闻事业已经有了蓬勃的发展,在全国范围内有着举足轻重的地位。国民党反动势力通过控制新闻事业,达到其控制新闻,影响舆论的目的,从而为其腐朽的统治造势。
随着信息技术的发展以及市场竞争的日趋激烈,传统的企业结构与模式越来越不能满足市场竞争的需要,在这种情况下,以利益为目的基于多个企业核心能力的动态联合体,即虚拟企业应
丙型肝炎病毒(hepatitis C virus, HCV)是黄病毒科黄病毒属成员,为单正链RNA病毒。病毒基因组编码单一开放阅读框,其蛋白多肽前体经切割形成结构蛋白与非结构蛋白。且非结构
在金融危机的背景下,为了提振国内经济,我国政府相继出台了十大产业振兴规划,同时,并购贷款作为其金融支持手段也得以开闸放行。本文对我国商业银行开展并购贷款业务过程中存
本文对我国商业银行2004-2011年间计提贷款损失准备的影响因素以及贷款损失准备是否能缓冲资本管理和信贷投放的顺周期性进行实证研究。本文发现,当期贷款损失准备的计提与下