论文部分内容阅读
随着移动互联网、大数据等信息技术的飞速发展,社会生活所产生的数据量急剧增加,其中相当一部分是带有个人隐私的敏感数据,如健康、位置、消费、用电等数据。云计算为这些大规模数据的搜集、存储和分析提供了很好的平台,使其潜在应用价值能被充分挖掘。然而,当搜集的数据外包到公有云中时,这些数据的持有者面临着严峻的隐私泄漏风险。传统的密码学技术能从理论上保证数据传输和存储过程中的安全性,但却在一定程度上限制了这些数据的共享和深入挖掘。如何在保证数据高可用性的前提下,对云环境下大规模数据的汇聚、挖掘和发布等多个阶段实现全方位的隐私保护,是大数据分析技术在各领域应用中亟需解决的一个共性问题。差分隐私是一种新提出的基于数据扰动的隐私保护技术,其安全性具有理论保证且易于实现,已成为隐私保护领域事实上的标准。本文以差分隐私技术为基础,通过结合全同态加密、安全多方计算等密码学构件,从隐私保护的数据挖掘和数据发布两个方面研究云计算环境下数据处理过程中的隐私保护问题,设计相应的隐私保护框架、算法及协议,主要成果如下。1.针对云计算环境下数据处理全过程中不同阶段的隐私保护问题,构建了云环境下多方数据隐私保护框架PMDP。该框架的设计基于多密钥全同态加密、动态安全多方计算协议和采样-聚合差分隐私机制,能为不可信云环境下的数据代理存储、计算处理和结果发布提供全生命周期的隐私保护,保证多方数据的输入隐私、计算隐私和结果隐私。安全性分析表明,该框架可以在诚实模型中以及无合谋半诚实模型中实现预期的安全目标。为克服半诚实模型中的合谋攻击,进一步提出了一个安全性增强的框架sPMDP,可以在至少一方诚实的条件下抵抗合谋攻击。性能分析表明,提出的框架在安全性保证和功能全面性方面具有优势,更适合安全的多方数据聚合和发布。2.针对汇聚后数据挖掘过程中的隐私保护问题,以数据分析领域中常用的谱聚类算法为研究对象,设计了满足差分隐私的约束谱聚类算法DP-CSC。该算法以CCS-L谱聚类算法和Wishart扰动机制为基础,利用可向样本协方差矩阵添加噪声的Wishart扰动机制,对CCS-L算法中的图拉普拉斯矩阵压缩过程进行“差分隐私化”处理。理论分析和仿真实验表明,通过合理选定参数值,DP-CSC算法在保护聚类结果隐私的同时能以可接受的效率实现与CCS-L算法相近的聚类效果。3.针对分布式数据汇聚和统计分析过程中存在的隐私安全问题,设计了差分隐私保护下的水平分布数据统计分析协议DDP-SA。通过分析SM-DDP(secure multiparty distributed differential privacy)协议的安全性缺陷,针对该协议不能抵抗合谋攻击的安全问题,以同态加密体制、零知识证明技术和分布式差分隐私模型为基础,设计了适用于允许独立计算本地统计量的统计模型的DDP-SA协议。该协议依据双盲协议的设计思想生成噪声,并将噪声的积累阶段从本地统计量的融合过程中拆分出来,同时利用同态加密体制结合随机盲化因子注入,保护了本地统计量的融合。与SM-DDP协议做对比分析,结果显示DDP-SA在安全性方面较优;将DDP-SA协议应用于线性回归问题,展示了其在保护隐私的前提下具有较强实用性。最后对全文工作进行总结,并展望下一步的研究方向。