论文部分内容阅读
从软件时代到互联网,再到如今的大数据时代,数据的量和复杂性都经历了从量到质的改变,其中深度学习通过建立、模拟人脑的分层结构来实现对外部输入的数据进行从低级到高级的特征提取,从而能够解释外部数据。这些效果将直接体现在语音与图像的识别、检索和机器翻译等具体的互联网服务中,从而为用户提供更好的服务,吸引更多的用户。同时企业需要充分利用已有的大量非结构化数据,而深度学习应用程序无疑是帮助企业完成数据分析、风险管理等工作的好帮手。近年来的实验发现,对输入数据进行肉眼不可辨的微小改动就能够使得原本具有较强鲁棒性的深度学习模型产生谬误,而这样的微小扰动通常被称为对抗性扰动,加入对抗性扰动的输入数据则被称为对抗性样本。从实际应用上看,对抗性样本问题的发现给深度学习的应用带来极大的安全隐患。例如,使用图片分类系统识别交通指示标志的自动驾驶汽车可能被标志牌上添加的对抗性噪声误导,做出错误的判断,进而导致交通事故;图片检索系统也可能被人为的操纵,向用户传输不正确的信息。在人工智能技术被各国视为影响国家实力重要因素的今天,为保证政府、企业、个人的数据安全,深度学习中的对抗性样本问题亟待解决。从学术研究上看,对抗性扰动问题揭示了当前效果良好的机器学习模型学习到的知识与我们期盼的并不相同,对抗性样本的存在与神经网络模型的联系以及对抗性样本的边界等问题,学界在对抗性样本的成因及其解决途径等问题上依然没有达成共识。因此,为了进一步探索深度学习中的对抗性样本问题,提高深度学习系统的鲁棒性与安全型,本文从深度学习对抗性样本的生成与防御两个方面进行探索,首先通过分析白盒条件下,现存的对抗性样本生成算法特点,总结出对抗性样本算法在成功攻击深度学习网络的基础上,需要具备对抗性样本“微小性”“不可见性”以及算法的“高效”“低廉”等特点,有针对性地改进现有的对抗方法;同时针对对抗性样本的特征和生成机制,提出相应的防御方法。具体来说,本文的主要贡献总结如下:(1)在对抗性样本生成方面,重新定义了对抗性扰动的“不可见性”,在保证对抗性样本“微小性”的同时,生成了平滑的对抗性样本,补充了相关领域的空白;本文通过拉普拉斯图平滑方法,计算原始图片中像素点之间的相似程度,建立像素点间的图模型,并根据相似度定义像素点间的相关性矩阵,让噪声根据相关性矩阵在图模型上随机游走,从而实现基于图片本身的噪声平滑。实验表明,通过拉普拉斯图平滑方法定义对抗性扰动的“不可见性”,使得对抗性噪声避免在大片纯色区域加入噪点,成功生成了肉眼难以察觉的平滑的对抗性扰动。同时,实验发现,对于细节丰富的图片,平滑约束有助于生成更具“微小性”的对抗性扰动,而对于具有大量纯色背景的图片,平滑约束使得算法生成比其他算法噪声更大,却肉眼不可见的对抗性扰动。(2)通过引入对抗性问题的特征,将对抗性样本生成问题分解为“导致错误分类”和“最小化扰动”两个目标,优化搜索对抗性样本的算法,使生成对抗性样本算法“高效”地生成具备“微小性”的对抗性扰动;本文首次将对抗性样本生成问题中“导致错误分类”和“最小化扰动”拆解为算法的两个阶段。在第一阶段,搜索导致错误分类的对抗性样本为首要目标,因此算法沿着错误分类损失函数的梯度方向搜索,同时动态评估距离边界的距离,调整搜索步幅,以最快速度穿越分类边界。在当前解跨越分类边界之后,算法进度第二阶段,该阶段算法以减小扰动大小为首要目标,为避免当前解再次跨越分类边界,本文提出使其沿边界方向,即梯度的法向量方向,搜索。实验结果表明,这样的算法设计大幅提高了对抗性样本生成算法的效能,仅需20次迭代就能够生成及其微小的对抗性扰动,而其他现存算法需要至少100次迭代才能生成相应规模的对抗性扰动。(3)提出评估对抗性样本生成方法的新指标,以更为公平地比较不同类型的攻击方法之间的效能;目前对抗性样本生成方法主要有基于成功率的生成方法和基于扰动大小的生成方法。基于成功率的生成方法在保证对抗性样本导致错误分类的基础上尽量减少扰动大小;而基于扰动大小的生成方法则在给定的对抗性扰动大小范围内,搜索导致错误分类的对抗性样本。现有的工作通常通过牟定对抗性扰动大小(或错误分类概率),比较错误分类概率(或对抗性扰动大小)来评估算法效能。但这样的方法收到选定阈值的约束,极易产生偏差,无法正确地评估算法。因此本文提出通过比较对抗性扰动大小和错误分类概率之间的变化曲线作为对抗性样本生成方法的评估指标。实验表明,该方法更为全面的比较了不同类型算法之间的效能。(4)在对抗性样本的防御方面,分析和比较了对抗性扰动和随机噪声在深度学习网络中行为的异同,结合图片和深度学习网络中的特征矩阵,提出一种成本“低廉”但有效提高网络鲁棒性的切片防御方法;本文针对生成对抗性样本中学习到的经验,并进一步分析对抗性扰动和随机噪声在深度学习网络中行为的异同,发现对抗性扰动在深度网络浅层较小,而在网络深层被积累放大到特定类别。为了移除对抗性扰动的影响,文中提出一种基于图片和特征切片去噪的抵御方法。该方法首先将图片及其在深度学习网络中的特征矩阵进行切分,利用字典索引和聚类技术概括学习海量训练数据的流型,在测试使用阶段,通过匹配测试数据切片在训练数据集上的最近邻居,对测试数据切片进行替换,从而最大程度地保留测试数据中原有的语义信息,并移除对抗性扰动带来的影响。实验结果表明,该算法成本低廉,与对抗性训练防御方法和其他基于替换的防御方法相比,有效地提高了网络的鲁棒性。