满足本地化差分隐私的多维数据收集技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:pdiudiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网等信息技术的飞速发展以及智能手机等通信终端的日益普及,人类社会已经步入大数据时代。数据收集是获取大数据的重要手段。通过收集和分析用户数据,数据收集者(服务提供商)可以挖掘用户的群体和个人特征,进而提供更优质的用户体验和制定更适宜的发展战略。然而,用户的数据中往往包含大量的个人敏感信息,直接收集这些数据可能导致严重的个人隐私泄露问题。隐私保护的数据收集技术为解决数据收集带来的个人隐私泄露问题提供了一种可行的方案。近年来提出的本地化差分隐私(Local Differential Privacy)技术已经成为了保护数据收集过程中个人隐私的业界标准。然而,现有研究工作主要集中在满足本地化差分隐私的单维数据收集,对于满足本地化差分隐私的多维数据收集问题的研究尚处于起步阶段。因此,本文针对偏好排序数据、轨迹数据和多属性数据等三种典型的多维数据,对满足本地化差分隐私的多维数据收集问题进行了深入的研究,并取得以下创新性成果:(1)针对偏好排序数据,提出了一种基于Riffle Independent模型的满足本地化差分隐私的偏好排序数据收集方法SAFARI。其主要思想是收集基于Riffle Independent模型精心选择的小取值空间上的分布,以近似用户偏好排序数据的整体分布。通过处理小取值空间而不是大取值空间,SAFARI能够大幅度地减少所添加噪声的规模。特别地,在SAFARI中,设计了两个转化规则,来指导用户转化他们的数据,以提供小取值空间上的分布信息。本文进一步提出了一种在满足本地化差分隐私的条件下,针对多个具有小取值空间的属性的频率估计方法。实验结果表明,SAFARI方法所收集到的偏好排序数据具有较高的数据效用。(2)针对轨迹数据,提出了一种基于隐马尔可夫模型的满足本地化差分隐私的轨迹数据收集方法PrivTC。在PrivTC中,本文首先设计了一种满足本地化差分隐私的网栅构建方法,用于指导数据收集者将给定的地理区域划分成一个合理的网栅。然后,本文提出了一种满足本地化差分隐私的谱学习方法,以帮助数据收集者从根据网栅离散化后的用户轨迹数据中学习隐马尔可夫模型。最后,数据收集者从学习出的隐马尔可夫模型中抽样生成一个合成轨迹数据集,作为原始数据集的替代品。实验结果表明,PrivTC方法所收集到的轨迹数据具有较高的数据效用。(3)针对多属性数据,提出了一种基于混合网栅的满足本地化差分隐私的多属性数据收集方法HDG。特别地,该方法所收集到的数据用于支持多属性数据上一种典型的分析任务——多维区间查询。该方法的主要思想是合理地运用分箱技术将所有单个属性的一维取值空间和所有属性对的二维取值空间分别划分为一维和二维网栅,然后联合利用一维和二维网栅的信息来回答多维区间查询。为了保持HDG方法的有效性,本文在充分分析了不同来源的误差的基础上,提出了一个指导规则,以选择合适的网栅粒度。实验结果表明,与现有方法相比,HDG方法具有显著的性能提升。
其他文献
学位
子宫内膜炎是一种多病因疾病,在发展中国家的乳制品行业中,其发生率高达35-45%,因此对农场经济和健康的动物的最佳生殖潜力影响是一个重要的挑战。在病原体中,金黄色葡萄球菌(S.aureus)和大肠杆菌(E.coli)被认为是牛子宫疾病的最主要原因。由于抗生素在奶牛中的大量使用,乳制品中的药物残留已成为消费者最为关注的问题,而新的耐药性致病变异菌正在不断产生,为全球动物和人类健康安全提出了更大的挑战
“对象化(Vergegenst?ndlichung)”是一个贯穿马克思哲学探索与经济学批判的全过程的重要概念。作为一个德国哲学语境中独有的概念,它体现了马克思自德国古典哲学而来的思维方式,折射出马克思本人哲学逻辑的变革,并在其经济学批判理论中发挥了支撑性作用。由于种种原因,国内学界长期以来对这一概念的理解存在许多模糊与争论。例如马克思后期文本中的“对象化”被误解为“物化”,这影响了对“对象化”与历
学位
在热带和亚热带地区,丽赤壳属真菌(Calonectria spp.)引起的桉树焦枯病是桉树幼苗和人工幼林中的重要病害。该菌能够侵染桉树叶片和枝条等部位,导致叶片焦枯、枝枯、溃疡、落叶等症状,严重时会导致整株枯死,对桉树产业的发展造成极大的影响。然而迄今为止,人们对桉树焦枯病菌的遗传特征和致病机理知之甚少。本研究在前期研究基础上,对桉树焦枯病菌强致病菌株Ca.pseudoreteaudii YA51
水稻是我国重要的粮食作物。光合作用是水稻生存的基础,提供其所需要的物质和能量。叶片的发育直接影响光合作用的速率进而影响植物的生长。因此,研究水稻叶片发育机理尤为重要,近年来,逐渐成为研究热点。中介复合体(Mediator complex,MED)是一类在真核生物中高度保守的大的、重要的多亚基转录共激活因子。主要是介导增强子中的特异性转录因子和结合在启动子上的RNA聚合酶II,是两者信息传递的重要桥
随着城市化进程的推进和全球经济市场化程度的不断完善,城市的发展成为地区或国家发展的重要战略。体育赛事作为城市事件营销的主要手段,已成为世界范围内城市营销的战略工具。随着城市竞争与城市营销日益加剧以及城市品牌成为城市发展的战略,传统体育赛事发展已越来越显示出理论的不足和实践的困惑,发展以城市品牌为导向的体育赛事具有重要的意义。本研究从城市品牌的视角来审视体育赛事的治理,以公共物品理论、城市治理理论、
目前同位素定年方法由于测年对象(如锆石)的精度和固有误差,通常难以用于估计岩浆喷发的持续时间,本文首次利用熔岩流所记录的古地球磁场长期变化分析中国西南东川地区中晚二叠世峨眉山玄武岩的净喷发时间(不包括>500年的火山休眠期),且将轴向地心偶极子场的假说和磁性地层学研究综合起来,限定了峨眉山玄武岩正极性段的总喷发时间(包括>500年的火山休眠期)。东川地区630m厚的峨眉山玄武岩可很好的分离出特征剩
工农兵作者写作是个复杂现象,它不仅有着独特的理论基础和相对完整的发展体系,还产生了不少写作者,生产了无数文学产品,形成了文艺界的独特景观。尤其是在1949-1966年间,工农兵作者写作现象形成了一个自在的发展形态,它有着相对明晰的作者培养模式、系统的作品生产结构和广阔的发展网络,在整个过程中,国家政治与工农兵群体所生活的民间场域以及作为文学生产者的作者之间,形成了比较特殊的关系。从充分代表无产阶级
鲁西地区新太古代早期和晚期构造热事件十分发育,形成广泛分布的深成侵入岩(主要是花岗质岩石)和表壳岩系,称之为鲁西花岗一绿岩带。根据近年来的研究,鲁西太古宙基底空间上显示出明显的分带性,从东北到西南被依次划分为A、B、C三个带。A带主要为新太古代晚期(2.525~2.480Ga)未变形的二长花岗岩和正长花岗岩,B带主要出露2.75~2.60 Ga的TTG片麻岩,也有变质表壳岩和新太古代晚期花岗质岩石
尽管全球生态演变及其表现形式因地而异,但干旱、土地退化和荒漠化现象在世界各地普遍存在,已经成为一个全球性问题。蒙古国41.3%的土地为干旱和半干旱地区,很多土地退化严重,生态系统十分脆弱,这与其长期赖以生存的畜牧业关系密切,游牧业整体处于高度危险之中。大约草地总面积的70%均不同程度受到自然和人为因素相互作用的影响,其中10.3%的土地已出现退化或荒漠化。由于牲畜数量急剧增长,草地植物种类变化和水