多方参与深度学习场景的训练数据安全研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:wdxswdxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今神经网络发展迅速,相关的机器学习任务已经广泛应用到了生产生活的方方面面。由于神经网络结构复杂,神经元数量庞大,其中能记忆很多信息,包括正常的训练信息或者恶意嵌入的信息。当有多方参与训练时,恶意的参与者可能会通过修改训练数据,从而在训练过程中往神经网络中注入非正常信息。而目前应用得较为广泛的多方参与训练的场景分别有分布式训练和第三方训练,本文针对这两种场景下的数据安全问题进行了研究。在分布式训练中,多个参与者一起训练一个模型。他们各自的数据和模型都保存到本地,通过参数服务器共享梯度更新。这样各个训练者的数据隐私看似被保护起来了,但是研究表明恶意的训练者可以通过共享的梯度更新偷取到不属于自己的某个类的数据。如果一个恶意的攻击者在本地训练GAN,并且把GAN生成的假数据加入到本地训练中,就可以促使受害者泄露更多关于目标类的信息。现在的针对这种攻击的防御方法有基于差分隐私,密码学或者可信执行环境的,这些方法有的会对模型训练的准确率造成影响,有的会带来较大的计算开销,有的因为硬件条件限制无法广泛被应用。本文的工作希望在不影响模型训练的情况下寻求解决问题的方法,因此本文首次从检测的角度思考防御基于GAN攻击的方法。提出的检测方法只需要分析训练者上传的梯度更新,不需要改变模型的训练过程。检测过程对普通的训练用户是透明的,并且能在训练开始的少量训练轮数内检测到攻击者。本文基于MNIST和AT&T设计了大量实验以证明提出的检测方法的准确性和有效性。第三方训练的场景来源于神经网络巨大的计算开销和数据存储资源开销。由于很多的普通用户难以负担起神经网络尤其是深层网络的训练开销,往往会将训练任务托付给第三方服务器。如果一个恶意的服务器对训练数据进行投毒,可以将触发器的识别模式插入到模型中,完成后门攻击。被插入了后门的模型对干净的数据分类准确,但对于带触发器的数据则会分类错误。由于后门攻击带有较大的隐蔽性和危险性,关于后门攻击及其检测的研究也很多。目前较为先进的检测后门的方法为Neural Cleanse,它是基于触发器重构和异常检测的检测方法,异常检测的标准为触发器的大小。本文提出了两种新的后门攻击,能够在不被NC检测出来的同时完成后门的插入。本文基于MNIST,GTSRB和You Tube Faces这三个数据集设计了大量实验证明了提出的攻击的隐蔽性和攻击效果。针对这两种更为隐蔽的后门攻击,本文提出了可能的防御方案,并希望通过它为未来后门攻击的检测及防御带来一些启示。
其他文献
在使用高倍物镜测量纳米标准样板时,获得高分辨率的样板整体区域的信息是十分重要的。针对高倍物镜下视场区域小的问题,本文提出了基于SIFT图像拼接算法的标准样板测量技术,
NO2作为大气中重要的痕量气体,对臭氧的形成有着重要作用;高浓度的NO2不仅导致酸雨和光化学烟雾,制约经济的可持续发展,还损害生态环境和影响人体健康。NO2监测仪器主要基于
多目标的联合分组与贴标作为计算机视觉以及模式识别领域重要的基础任务,具有广泛的应用前景,如医疗监控,人机交互,智能交通,基于内容的图像视频检索等诸多商业与医疗领域,具
近几年,以银纳米线为材料并采用取向冷冻方法合成三维结构气凝胶成为研究热点。基于此,本文采用银纳米线和石墨烯两种材料,通过取向冷冻和真空灌装方法得到了一种耐拉伸可自
汽车刹车片作为汽车制动系统中的一个重要组件,其质量好坏直接影响行车安全。基于机器视觉的汽车刹车片外观质量检测系统通过机器视觉的手段实现刹车片的字符识别和卡口尺寸
在化石能源日趋减少的情况下,太阳能作为一种清洁无污染的能源一直被我们所使用,提高太阳能的使用利用率是我们当下需要解决的重要问题。科学家研究了一系列将太阳能转化为化
当化工生产过程出现异常时,通过有效的过程监测和故障诊断模型可以准确迅速地检测出故障并确定其类型,为操作人员提供及时可靠的参考。现代流程工业系统中,生产环节之间联系
米氏酸是一类具有独特结构的有机合成中间体,由于其具有较强的亲电性,而且还可作为亲核试剂参与反应,使得米氏酸在有机合成中得到广泛的应用。米氏酸参与的分子内Friedel-Cra
截止至2014年12月31日,在我国的能源结构中火力发电仍占据总装机量的67.41%,所以,作为能够快速高效提升我国火力发电效率的直接途径,提升超临界机组的蒸汽参数这一技术手段具
在社会飞速发展、社会公众需求结构升级、移动互联网改变公众通讯生活方式的大背景下,近年来我国社会传统安全与非传统安全等社会安全领域事件的多发,让社会公众对安全资讯获