面向数据发布的隐私保护方法研究

来源 :哈尔滨工程大学 | 被引量 : 2次 | 上传用户:CL87781891
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据分析和互联网技术的飞速发展,越来越多的组织部门和科研机构将收集到的大量数据公之于众,以实现数据的共享、统计和挖掘。然而,这些发布数据中大多含有个体的敏感信息,如个体的疾病、工资、兴趣偏好等信息,攻击者能够从发布数据中获得较高的信息增益。通常情况下,数据发布的过程中也会增加用户隐私泄露的风险。同时,数据发布中的隐私泄露将阻碍整个社会信息发布和信息共享,不利于维护社会的和谐、稳定发展。因此,在向公众发布数据前,数据发布者需要对涉及个体隐私的数据进行保护,以降低恶意攻击者获得用户敏感信息的几率。本文分别从面向保护效果和面向数据效用两方面对隐私保护方法开展研究,在保护发布数据的隐私安全的前提下,通过数据匿名技术和数据扰动技术对原始数据进行隐私保护处理,以满足发布数据的不同应用需求,从而实现发布数据的可用性和数据隐私安全间的平衡。本文的研究内容主要包括以下四个部分:首先,针对传统匿名模型无法抵御相关性攻击,易形成敏感值高度相关的等价类的问题,在传统l-多样性模型的基础上,提出了一种约束等价类中敏感值相关性的(s,l)-多样性模型。该模型以敏感集合中非敏感属性值的分布度量敏感值的相关性,通过等价类中敏感值相关性的约束来降低高相关性敏感值产生的信息泄露。同时,使用属性值间相关性作为距离度量基准,提出了一种(s,l)-多样性聚类算法(SLCA)来实现该匿名模型,以降低数据泛化过程中的信息损失。对比实验表明,SLCA算法具有较低的时间开销,且能够有效降低发布的等价类中敏感值的相关性,较好地抵御攻击者的相关性攻击。其次,针对t-相近性模型实现方法的性能较低,且无法较好的抵御敏感性攻击的问题,在传统t-相近性模型基础上定义了(l,t)-相近性模型,该模型放宽了t-相近性模型对等价类的约束,要求敏感等级在等价类中的分布与数据集中的分布之间的Hellinger距离不大于阈值t。同时,使用敏感值的自信息来度量敏感度以实现敏感属性的敏感等级划分,并提出了一种基于聚类的(l,t)-相近性匿名算法((l,t)-CCA),该算法通过在敏感等级桶中抽取距离最近的元组形成等价类来实现该匿名模型,以降低等价类中元组的敏感值间敏感程度的差异,并抵御攻击者的敏感性攻击。对比实验结果表明,(l,t)-CCA算法具有较小的信息损失和较低的时间代价,能够更加有效的实现数据发布中数据的可用性与隐私安全间的平衡。再次,针对多敏感属性数据发布中的隐私泄露及攻击者的敏感性攻击,在传统l-多样性的基础上,提出了一种基于属性分解,以逆聚类方法构造敏感组的多敏感属性(l1,l2,…,ld)-多样性的隐私保护方法,在满足数据表多敏感属性值多样性的同时,有效地降低了多敏感属性数据表的敏感性,增强了数据的可用性。最后,通过仿真实验验证了同等条件下,该算法能够有效的抵御攻击者的敏感性攻击,且具有较低的信息隐匿率,虽然在执行时间上与对比算法相比略高,但该算法所处理的发布数据集具有较好的隐私保护效果和数据可用性,略高的执行时间是能够被接受的。最后,针对现有数据扰动方法不能较好地维持原始数据的聚类可用性问题,提出一种面向聚类挖掘,基于数据扰动技术的隐私保护方法。该方法将具有d维属性的数据集抽象为d维空间,根据节点的k邻域分布计算节点的邻域拓扑势熵,并提出了由节点的邻域拓扑势熵将节点划分为邻域分散型节点和邻域紧密型节点的方法。同时,还提出一种根据节点的不同类型分别执行不同扰动策略的数据扰动算法DPTPE,对于邻域分散型节点,使用其k邻域节点的均值替换该节点,对于邻域紧密型节点,则在其安全邻域中随机抽取一个节点替换该节点。通过仿真实验表明,DPTPE算法能够有效地维持数据扰动后的聚类可用性,并保持发布数据的隐私安全。
其他文献
长寿风险是指人们未来的平均实际寿命低于或高于预期寿命产生的风险,它分为个体长寿风险和聚合长寿风险两类。个体长寿风险是指个人在其生存年限内的花费超过了自身所积累的
随着无线通信技术的快速发展,通信系统不断对射频设备提出越来越严格的要求。系统往往被要求更便携,更小,更具性价比,功能更强大。天线作为通信系统中不可或缺的部分之一,也面临着一些新的挑战。设计者们总是希望他们体积更小,增益更高和带宽更宽等等。面对这些挑战,研究人员试图将天线和带通滤波器集成到一个模块中,从而使单个器件可以同时用作滤波器和天线。然而,所呈现的大多数设计方案都集中在单频带滤波天线上,并且其
2012年全省交通运输工作会议的主要任务是:深入贯彻落实党的十七届六中全会和中央经济工作会议精神,按照全省经济工作会议和全国交通运输工作会议部署,总结2011年交通运输工作,研
学位
<正>我国"语文教学模式"经历了很长的一段发展过程,尤其在新课改之后,更是形形色色。总结起来,新课改之后的语文教学模式大概有以下几大类:以教学理念命名的语文教学模式,如
个性化推荐作为一种有效的信息过滤手段已成功应用于电商、音乐和电影等领域,传统的推荐系统(如基于内容和协同过滤的推荐)倾向于使用相对简单高效的用户模型。然而,大多数应
住房保障,原本是政府针对特困人群以及低收入人群,提供财政与实物补贴,满足基本住房需求,达到全民住有所居的一项社会保障制度。然而伴随着经济快速发展,房价的持续上涨,新的
文章通过反思地理数据在课堂教学中的作用,突出展现地理数据鲜活生动和直观形象、有现实性和时代感、有说服力和感染力等诸多特质,以打动和震撼学生的心灵,激发与唤醒学生的
随着MOSFET尺寸的不断减小,芯片的集成度不断提高、开关速度不断加快。同时,MOSFET尺寸不断减小要求电源电压及阈值电压不断降低,由于MOSFET的亚阈值摆幅具有60mV/decade的理
构建组织工程肺(lung tissue engineering,LTE)首先需要获取理想的组织工程支架,通过种植宿主细胞,在生物反应器中进行培养,最后移植到宿主体内,形成一个具有气体交换功能的
晋北沙化区位于我国山西省北部的黄土高原农牧交错带,长期受自然因素和人类活动的综合影响,出现了土地利用变化剧烈及景观格局的空间配置不合理等问题,景观格局的变化又反作