基于社交媒体数据的成员推理攻击方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:hanyouzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着智能手机和平板电脑广泛普及,互联网社交媒体的用户数量迅速增长,与此同时产生了海量的社交媒体数据。在这样一个信息爆炸的大数据时代,如何挖掘出海量数据背后的价值成为了众多研究者的研究方向。相较于其他数据挖掘方法而言,机器学习无疑是当前应用最广泛且最成熟的。研究人员将社交媒体和机器学习相结合,在分析公众舆论,灾害治理,市场营销等方面已经取得很大的成效。然而不可否认的是,在机器学习技术给我们带来极大便利的同时,它的安全问题和隐私问题也面临着非常严峻的挑战。本文研究的是机器学习模型的训练数据集中单条数据记录的信息泄露情况。主要关注成员推理攻击问题,即给定一条数据记录以及某个机器学习模型的黑盒访问权限,攻击者需要完成对数据归属的推测,判断此条数据记录是否属于模型的训练数据集。本文创新性提出了Vb SDG数据合成算法,由此可以生成和原始训练数据格式相同、分布相似的合成数据。此外本文提出了Gb MMC模拟模型算法,引入生成对抗网络窃取目标模型的预测性能,由此在黑盒条件下也可以训练出和目标模型具有相似预测能力的机器学习模型。本文重点关注成员推理攻击在社交媒体数据中的表现情况,也是在讨论社交媒体数据可能面临的一种隐私泄露。实验采用IDMB、Tweets和Shop三个真实的数据集以及XGBoost、Logistics、SVM、RF和神经网络五种分类模型,对合成数据算法、模拟模型算法和成员推理攻击进行多方面的评估。相较于传统合成数据算法,本文提出的Vb SDG数据合成算法可以得到质量更高的合成数据;相较于其他模拟模型算法,本文提出的Gb MMC模拟模型算法可以在更严苛的条件下窃取目标模型的预测能力,目标模型和模拟模型对于测试数据的预测结果平均相似度为84.1%,相似度的最优表现为93.1%;成员推理攻击在测试数据上准确率的最优表现为74%,精确率的最优表现为86%,实验结果证明了本文提出的成员推理攻击在社交媒体数据集合上是有效且准确的。
其他文献
当今社会,一部小小的智能手机上运行了与日常生活相关的各种业务,每种业务的顺畅运行都离不开网络通信的技术支撑。而TCP协议作为网络通信中通信协议的基石,它性能的改善能够提升人们生活与工作的效率。然而无线传输技术的发展使得通信环境发生剧变。在现代通信网络中,通信带宽越来越大,传输时延越来越长,传输过程中干扰也越来越多,使得丢包不仅发生在路由器排队过程中,也会发生在无线传输过程中,严重影响了TCP的通信
拓扑识别是复杂网络领域非常重要的研究课题之一。拓扑结构不仅在很大程度上决定了网络的动力学行为和功能,而且在网络的研究过程中也起着至关重要的作用。然而实际网络的拓扑往往是未知的或者难以探测的,外界通常只能探测到网络节点随时间的动力学演化信息。因此,如何通过已知的信息推测出网络的精确拓扑有着重要的理论研究意义和实际应用价值。近些年来,基于同步的复杂网络拓扑识别方法取得了许多研究成果。然而这个经典的方法
富互联网应用程序是一种具有传统桌面应用程序特性及功能的Web应用程序,它不仅继承了传统Web应用易于传播的特性,还可以在客户端进行数据的收发和处理。OpenJFX是针对富互联网应用提出的一个现代高效的解决方案,提供了良好的流媒体支持和流畅的动画支持,更丰富的组件和更友好的操作界面。目前,OpenJFX仅支持x86架构和ARM架构,将OpenJFX移植到国产平台有利于丰富国产处理器的软件生态。首先,
随着计算机硬件水平的飞速提升、医疗图像的海量激增,将三维实际物景转换为适合计算机处理的二维平面图像进行处理和分析,已逐渐成为趋势。不同于传统诊断方式,计算机软件系统通过对儿童手部特征图像的识别可以完成对儿童手足口病的辅助诊断。不仅能够充分利用医疗图像、大大节约医疗资源,而且能够实现异地诊断、减轻患儿负担。本文以儿童手部特征为识别对象,利用卷积神经网络模型对儿童手部特征图像进行识别,设计实现了手足口
现代无人艇作为一种高度智能化的无人控制平台,内部控制网络和相关结构单元十分复杂。其控制系统的总线类型多样且互不兼容,加大了数据在无人艇控制系统内部传输和交互的难度,也在一定程度上限制了无人艇的发展。因此,本文在不改变无人艇现有控制网络架构的基础上,提出了一种多总线转换的方案,并基于此方案,设计并实现了无人艇多总线转换及数据监控系统。本文在对团队自主研制的xx68系列无人艇控制系统进行详细分析的基础
学位
在跨境电子商务产业链中,供应链需求预测需要预测每个商品在每个仓库未来的需求量,以便将商品提前准备在全球各个市场的仓库,可有效降低物流时间,极大提升用户体验。本文以供应链需求预测为研究对象,对多种需求预测算法进行了研究,并针对其中存在的异常点检测、商品信息的向量化表示、多步预测等不足之处提出了三个创新点进行改进,提高了需求预测的准确率。首先,在数据处理方面提出一种基于Huber Loss的线性回归方
考试是选拔人才的主要途径,它要求绝对的公平公正,而替考这一考场舞弊行为严重的损害了考试的公平性。因此,如何提高考生身份识别的准确率,保证考试的公平性,具有重大的研究价值。目前的考场签到过程中,多数考场仍然采用人工比对身份证和准考证的方式来判别考生身份,这种方式存在人工开销大、判别出错几率较大的问题。基于此,本论文通过对生物识别技术中人脸识别算法的研究,设计了一套便携式考场签到设备及系统,结合人脸识
随着生活节奏的加快与社会压力的增大,人们因饮食不规律导致患胃肠道疾病的现象愈加严重。近年来,无线胶囊内镜技术已成为检查患者胃肠道的首要选择。然而,一次无线胶囊内镜检查将产生约6万张图像,带给医生后续筛查工作沉重的负担,如何快速有效地从海量图像中识别检测出病变已成为亟待解决的重要问题。神经网络在处理图像问题上有着得天独厚的优势,基于神经网络的医学影像分析为解决这一问题带来新的契机。无线胶囊内镜图像与
随着互联网逐步深入到人们的生活,网络安全问题也影响到社会生活的方方面面,其中以木马和僵尸网络所造成的危害最大。为了躲避网络边界的检测,这类恶意软件通常使用HTTP协议作为应用层协议,把自己的流量隐藏在大量HTTP背景流量当中。传统基于流量模式匹配的检测方法,在面对这类经过伪装的恶意流量时往往无能为力,研究者们开始转向使用机器学习的方法来实施恶意流量检测。而这些方法,往往针对单个HTTP请求数据流进