论文部分内容阅读
云计算、物联网、车联网等新一代信息技术的快速发展使得全球进入数据经济时代,各类数据迅猛增长、广泛分布,并借助人工智能算法充分发挥其中蕴含的价值,促使各行各业走向数字化和智能化。然而,在分析处理数据的过程中,也暴露出一系列数据安全问题。首先,数据一旦对外发布后即不受控制,难以阻止某些攻击者对数据中的隐私信息进行推断和利用。其次,单个用户的数据量有限,而联合多用户进行数据协作又难以在有限的计算和通信资源下保护其数据隐私。此外,开放网络中的用户互相之间缺乏信任,可信第三方通常又面临单点故障攻击,缺乏一种去中心化的数据安全共享机制。以联邦学习、安全多方计算、可信执行环境等为代表的隐私计算技术可以实现数据的“可用不可见”,为解决上述问题提供了一个有效的思路。为此,本论文以隐私计算技术为基本工具,分别从隐私保护数据发布、高效隐私数据协作和安全可信数据共享三个方面出发,研究如何在保证数据隐私性的同时实现对数据的处理与分析,并解决其中的效率、成本、可靠性等问题。主要的贡献和创新点概括如下:(1)基于生成对抗网络的隐私保护数据发布传统的隐私数据发布方法通常需要针对每个数据集设计特定规则处理隐私属性,或者处理高维数据后导致数据可用性严重降低。为此,本文提出了一种基于生成对抗网络的差分隐私数据发布方法。利用生成对抗网络模型自动学习原始数据中的重要特征,并在模型梯度上添加差分隐私噪声,从而生成与原始数据分布接近且保护隐私的合成数据,无需针对具体数据集设计特定的脱敏规则。为了提高模型收敛速度和生成数据的质量,分别设计了动态隐私预算分配、自适应裁剪阈值选取以及权重参数聚类等三种优化策略。安全性分析和实验结果证明本方法合成的数据在具有较高可用性的同时严格满足差分隐私特性,且隐私损失与数据量无关,可适用于医疗数据、经济数据等大型数据集的隐私发布。(2)基于联邦学习的高效隐私数据协作在用户数据分布式存储的情况下,传统的数据协作方法难以有效保护数据隐私。本文以联邦学习为基本工具,通过用户侧分布式的本地训练从原始数据中抽取出特征模型,将基于原始数据的协作计算过程转化为基于特征模型的协同建模过程,从而在减小隐私泄露的同时联合多用户实现数据协作。具体而言,本文针对不同应用场景提出了两种基于联邦学习的高效隐私数据协作方法。首先,面向带宽受限的边缘计算场景如智能家居、工业物联网等,设计稀疏双向压缩算法过滤偏离全局收敛趋势的不相关梯度,并根据上传带宽通常小于下载带宽的特点,在设备端和服务器端使用不同的压缩算子以减小通信开销。为了解决原始联邦学习框架隐私保护力度不足的问题,基于秘密共享和同态加密设计了一种新的隐私保护协议,不仅保护单个设备的数据隐私,还能够抵抗部分设备的共谋攻击。其次,面向延迟较高的云计算场景如兴趣推荐、联合营销等,提出高效的联邦训练策略,通过增加本地计算量、选择性共享参数和动态选择用户,有效提高了算法的训练效率。同时,针对现有隐私保护协议计算开销大的问题,设计了一种轻量级的隐私保护协议,能够以较少的交互次数和计算开销实现了高强度的数据隐私保护,可抵抗半诚实的用户和服务器。安全性分析和实验结果证明本文提出的两种高效隐私数据协作方法严格保护了分布式用户的数据隐私,分别在数据可用性、计算开销、通信开销以及训练效率等方面优于现有方法。(3)基于区块链和联邦学习的安全可信数据共享数据共享能够有效提升资源利用率,但是却面临隐私泄露、用户间信任关系缺乏以及集中式服务器单点故障等问题。本文将区块链与联邦学习相结合,建立一种去中心化、去信任的数据共享框架,通过共享数据模型而非原始数据实现数据的“可用不可见”,同时利用区块链以透明且不可篡改的方式记录数据交易过程,实现数据共享全流程可验证、可追溯、可审计,适用于车联网、移动通信网场景。具体而言,本文针对可能出现的攻击手段提出了两种基于区块链和联邦学习的安全可信数据共享方法。首先,针对部分恶意用户的投毒攻击,设计一种梯度验证与激励机制,确保模型的可用性并鼓励可靠用户共享高质量的数据。对于链上数据公开可见与数据隐私保护要求相矛盾的问题,提出自适应差分隐私机制,在数据效用损失较小的情况下提供较强的隐私保护力度。其次,针对部分恶意矿工的篡改攻击,在共识协议中融入基于同态承诺的全局梯度验证,确保每轮训练得到的联邦学习模型的正确性。对于差分隐私机制会损失部分数据效用的问题,设计了一种基于梯度掩码和可验证秘密共享的安全聚合协议,即使部分用户意外掉线也能够保证其余用户数据的隐私安全。安全性分析和实验结果证明本文提出的两种安全可信数据共享方法能够激励可靠用户积极参与数据共享,并分别能够抵抗中毒攻击、篡改攻击、训练掉线等非安全性因素。