云环境下隐私保护数据挖掘关键技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:song132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算技术的发展和普及,在给人们的生产生活带来便利的同时,也使得越来越多人担心云环境下的数据安全和隐私问题。一方面,云平台收集或者用户外包的数据中可能包含敏感数据,直接将数据交给云平台,可能会造成用户隐私泄露。另一方面,云平台自身的安全防护措施并不够完善,导致外部攻击和内部泄露时有发生。传统的随机扰动、数据匿名等技术,虽然能够一定程度上保护数据,但安全性有限,常常导致数据挖掘结果精度下降。一般加密技术虽然可以提供语义安全性,却又会使得数据在云计算平台上的可用性丧失。如何在保证数据安全和隐私的前提下,利用云计算平台,开展数据挖掘,是当前学术界和产业界共同的难题。本文深入分析了当前云环境下隐私保护数据挖掘系统设计所面临的难题,以平衡数据安全性、可用性和挖掘高效性为目标,设计能够实现隐私保护的决策树训练与分类、k近邻分类和关联规则分析等方案。本文主要工作与贡献如下:1.针对云平台利用用户数据训练决策树模型中存在的数据隐私和安全问题,本文在双云模型下,提出了三个不同安全等级,且均可在不同公钥加密的密文上实施地隐私保护决策树训练方案。在训练过程中,数据拥有者将数据上传后就无需参与中间计算。与现有工作相比,本方案中用户的计算和通信开销最小。此外,由于云平台无法在密文域分割数据集,本文提出了一种利用多向量计数代替数据集分割的决策树训练方案。通过安全性分析,我们验证了所提方案的能够对抗背景知识攻击,且在半诚实模型下是安全地。利用真实数据集测试,我们验证了方案具有较好的性能。2.针对当前云平台下的隐私保护决策树分类服务中,存在泄露决策树模型部分信息给用户,且用户计算开销较大的问题,本文在双云模型下,提出了两种安全性更高的决策树分类方案,即PPDE-DTPKC和PPDE-PSS。其中PPDE-DTPKC支持不同用户不同密钥加密的分类服务请求。在我们的方案中,用户在分类过程中保持离线。通过安全性分析,证明了提出的两个方案可以保护用户查询数据和查询结果不被云平台所获知;同时云平台的决策树模型的任何信息也不会泄露给用户。在真实数据上的测试验证了本文提出的PPDE-PSS在处理深度较深的稀疏型决策树时,具有较小的计算和通信开销。3.现有的云环境下的隐私保护k近邻分类研究中,安全性高的方案具有较低的效率,而计算效率高的方案具有较低的安全性。为了在保证高安全性的前提下,尽可能地提高方案的计算性能,本文在双云模型下,利用Paillier同态和加性秘密共享技术,设计了一种安全的k近邻分类方案。在该方案中,用户除了上传数据和接收分类结果之外,无需参加任何运算。通过安全性分析,证明了该方案在半诚实模型下的安全性,能够抵抗外部攻击。真实数据集上的实验测试表明,我们的方案与同类安全性的方案相比,计算和通信开销均显著下降。4.针对外包数据的关联规则挖掘存在的数据隐私和安全问题,提出了一种双云模型下,隐私保护频繁项挖掘和关联规则挖掘及查询方案。利用此方案,云平台可以在不需要用户协助参与计算的前提下,运行安全Apriori算法,从而挖掘出外包数据中所有的频繁项和关联规则。此外,云平台可以提供两种不同类型(即,用户定义阈值和云定义阈值)的隐私保护频繁项和关联规则查询服务。本文提出的方案,支持在不同用户不同公钥加密的数据集上进行安全挖掘和提供服务。通过安全性分析和真实数据集实验测试,验证了方案的安全性和高效性。
其他文献
传统通用处理器的设计与制造受限于功耗、散热等因素,其计算能力的持续提升遇到瓶颈,不能满足人们日益增加的计算能力需求。由通用多核处理器和专用加速器组成的异构众核系统具有很好的计算能耗比,在高性能计算领域和嵌入式计算领域都得到了越来越广泛的应用。然而,通用多核处理器与加速器间的数据搬运开销(通信开销)却成为影响异构程序性能的重要因素。多任务流技术是一项可以高效利用异构系统计算资源的编程技术。它通过对计
非合作双基地雷达利用第三方辐射源发射的信号实现目标探测,由于其本身不辐射信号,因此战场生存能力强,并且能够有效弥补传统单基地有源雷达在抗干扰和反隐身等方面的不足,具有广阔的军事应用前景。课题研究的非合作双基地雷达系统基于波形参数捷变相控阵雷达辐射源,其复杂的波形调制形式给非合作双基地雷达的信号处理带来了许多困难。本文在课题组研制的非合作双基地雷达系统样机的基础上,围绕系统在信号处理中面临的实际问题
得益于当前软硬件技术和互联网的飞速发展,云计算已经成为最具影响力的信息基础设施,在社会生产生活的各个领域都有着广泛的应用。通过将各种硬件资源整合和虚拟化,云计算为用户及其应用提供了一个灵活、高效的虚拟化存储和计算环境。然而,云计算中的虚拟化环境在给用户带来便捷服务的同时,也面临着来自不同层面的安全威胁。与此同时,日益丰富的攻击手段和虚拟化导致的攻击面拓宽,给虚拟化环境的安全保护带来了新的挑战。如何
离子具有相干时间长、保真度高等优点,因此囚禁离子系统是实现量子计算、量子模拟以及精密测量的重要平台之一。囚禁离子系统的规模化与集成化是近年来研究的热点。表面电极离子阱是解决这一问题的主要平台之一,但其研究还处于探索阶段。本文主要研究了表面电极离子阱的优化设计、离子阱的制备及囚禁离子系统的优化。主要内容与创新点如下:1、设计了具有装载区、操作区与传输区的多功能表面电极离子阱。提出了径向双势阱来作为操
随着高性能计算、大数据与人工智能的不断融合,高性能计算社区亟需同时支持这三种场景的计算系统来加速科学发现。然而,爆炸性增长的科学数据以及不同场景下应用截然不同的I/O特征促使融合应用呈现前所未有的复杂性。与此同时,不断加深的存储层次和多样化的数据定位需求进一步增加数据管理难度,导致高性能计算系统面临严峻的数据存储与管理挑战。为了在高性能计算系统上有效支持融合应用,本文结合层次式存储结构和应用特征,
随着人类社会的不断发展,软件的规模日益复杂,形式也众彩纷呈。但是软件危机就像一个如影相随的恶魔,经常在不经意中给人类造成损失。尤其是关乎国计民生的领域,对安全更加十分重视。金融、国防、航空航天等领域部署的软件,更是安全攸关。如何抵御“恶魔”?一方面,软件工程提出一整套的理论来帮助人们在软件开发过程中按照规范的流程来生产;另外一方面人们研究各种的软件质量保证技术来检测生产出来的软件是否可靠,测试、模
密码函数通常用于分组密码核心组件S盒的设计,其密码学性质的好坏直接关系到密码算法的安全性。本文围绕与分组密码S盒设计相关的密码函数进行研究,研究了具有高非线性度、高代数次数的4差分置换的构造及其CCZ等价性,m>n/2情况下具有低差分均匀度、高非线性度、高代数次数的(n,m)函数的构造,以及低重量高阶相关免疫布尔函数的构造,这些结果可以为SPN结构分组密码S盒的设计,Feistel结构分组密码S盒
近年来,自由空间涡旋光通信以其极大的通信容量和极高的频谱效率在国内外引起了广泛关注,涡旋光所携带的轨道角动量理论上取值无穷且彼此正交,能够为光通信提供新的维度资源。然而,涡旋光在自由空间传输时,不可避免地受到大气信道的影响,导致承载信息的轨道角动量态间产生串扰,造成通信系统性能下降。本文围绕自由空间涡旋光通信检测技术展开研究,首先针对轨道角动量在自由空间中的传输特性进行分析,重点研究了大气湍流、大
图像标注(Image Captioning)是指利用计算机自动生成自然语言句子来描述给定图像内容。这就要求计算机首先要全面、详细地理解图像内容,即有效表征图像包含的物体、物体属性以及物体间的相互关系;然后,将图像内容转化为一句语法、语义正确的自然语句。其中,理解图像内容隶属于计算机视觉领域,而自然语言表达是自然语言处理中的重要任务之一。因此,图像标注涉及计算机视觉和自然语言处理两大学科领域。随着深
文本问答,旨在构建能够回答任意自然语言问题的计算机系统,是自然语言处理与人工智能领域内最具难度的挑战之一。阅读理解式问答,又称机器阅读理解,是文本问答的一个子任务,在近年来受到学术界和产业界的极大关注。机器阅读理解的目标是教会机器阅读并理解人类语言文本并回答相应问题。由于该任务天然地可以被用来衡量机器自然语言理解能力,因此具有重大的研究价值。此外,阅读理解技术还能被广泛应用于问答应用、搜索引擎以及