论文部分内容阅读
如今神经网络发展迅速,相关的机器学习任务已经广泛应用到了生产生活的方方面面。由于神经网络结构复杂,神经元数量庞大,其中能记忆很多信息,包括正常的训练信息或者恶意嵌入的信息。当有多方参与训练时,恶意的参与者可能会通过修改训练数据,从而在训练过程中往神经网络中注入非正常信息。而目前应用得较为广泛的多方参与训练的场景分别有分布式训练和第三方训练,本文针对这两种场景下的数据安全问题进行了研究。在分布式训练中,多个参与者一起训练一个模型。他们各自的数据和模型都保存到本地,通过参数服务器共享梯度更新。这样各个训练者的数据隐私看似被保护起来了,但是研究表明恶意的训练者可以通过共享的梯度更新偷取到不属于自己的某个类的数据。如果一个恶意的攻击者在本地训练GAN,并且把GAN生成的假数据加入到本地训练中,就可以促使受害者泄露更多关于目标类的信息。现在的针对这种攻击的防御方法有基于差分隐私,密码学或者可信执行环境的,这些方法有的会对模型训练的准确率造成影响,有的会带来较大的计算开销,有的因为硬件条件限制无法广泛被应用。本文的工作希望在不影响模型训练的情况下寻求解决问题的方法,因此本文首次从检测的角度思考防御基于GAN攻击的方法。提出的检测方法只需要分析训练者上传的梯度更新,不需要改变模型的训练过程。检测过程对普通的训练用户是透明的,并且能在训练开始的少量训练轮数内检测到攻击者。本文基于MNIST和AT&T设计了大量实验以证明提出的检测方法的准确性和有效性。第三方训练的场景来源于神经网络巨大的计算开销和数据存储资源开销。由于很多的普通用户难以负担起神经网络尤其是深层网络的训练开销,往往会将训练任务托付给第三方服务器。如果一个恶意的服务器对训练数据进行投毒,可以将触发器的识别模式插入到模型中,完成后门攻击。被插入了后门的模型对干净的数据分类准确,但对于带触发器的数据则会分类错误。由于后门攻击带有较大的隐蔽性和危险性,关于后门攻击及其检测的研究也很多。目前较为先进的检测后门的方法为Neural Cleanse,它是基于触发器重构和异常检测的检测方法,异常检测的标准为触发器的大小。本文提出了两种新的后门攻击,能够在不被NC检测出来的同时完成后门的插入。本文基于MNIST,GTSRB和You Tube Faces这三个数据集设计了大量实验证明了提出的攻击的隐蔽性和攻击效果。针对这两种更为隐蔽的后门攻击,本文提出了可能的防御方案,并希望通过它为未来后门攻击的检测及防御带来一些启示。