论文部分内容阅读
近年来在计算机视觉和模式识别等领域,深度学习模型和算法的发展十分迅猛。伴随着这一趋势的发展,越来越多NLP(Natural Language Processing)领域的研究者开始应用新的深度学习方法。基于深度学习的自然语言处理技术在文本分类、情感分析等方面有着越来越广泛的应用,为人民生活提供了很大的便利。相比传统的基于手工构建特征的机器学习NLP系统,深度学习系统特征的构建往往需要更少的时间成本和经济成本。而在词嵌入模型与深度学习方法的帮助下,深度学习逐渐实现了多层次的自动特征表示学习。因而深度学习模型已经成为解决诸如分类,聚类,机器翻译,计算机视觉和自然语言处理等其他许多问题的利器。然而基于深度学习的神经网络在为人们带来便利的同时,其也面临大量的安全威胁。最新研究表明,基于恶意制作的对抗性输入内容会对神经网络模型的判断产生极大的影响。这种对抗性输入内容最早出现于计算机视觉领域,近年来,在NLP等领域也发现了使用对抗样本攻击模型的情况出现。通过对异常信息处理,恶意攻击者生成的对抗样本能够绕过系统的检测,把大量异常信息参杂在正常信息中进行传播,这对人们的生活造成了严重危害。这种日益严重的安全问题已逐渐成为深度学习模型安全的重要威胁之一。因而引起了学术界广泛的关注,研究者们展开对对抗样本的研究,并取得了丰硕的研究成果。作为互联网用户的主体,青少年特别是18岁以下的网民正处于生理、心理和社会价值观逐步成熟的阶段。网络非法信息的传播会对青少年造成巨大危害,并且会潜在影响了社会文化和风气。这不但会导致青少年一代思想道德滑坡、生活颓废,最终使得社会犯罪率上升。同时也会引发青少年网络成瘾等疾病,对青少年正常的作息和学习造成极大冲击并严重腐蚀青少年的价值观和思想心灵。因此,必须从培养社会主义建设者和接班人、从国家民族未来的高度,充分认识非法网络信息的危害性。开展对对抗样本的研究可以帮助研究者更好地了解不法分子传播非法信息的手段,有助于对后续防御工作的研究,并进一步建设利于青少年健康成长的网络环境。通过对现有对抗攻击研究现状分析,本文总结得出当前研究还存在以下问题:1.对中文文本的对抗攻击研究技术滞后。面向文本的对抗样本的研究目前主要集中在英语自然语言处理领域,而面向中文文本的对抗样本生成方法仍然有限,这表明亟需对中文自然语言处理系统中可能存在安全隐患进行探索。2.现有研究中生成的对抗样本可用性有待提高。当前,学术界的研究工作倾向对对原始输入样本进行字符或单词的简单替换来生成对抗样本,这种攻击策略虽然确保了对抗文本攻击成功率,但往往导致生成的对抗样本出现可用性差等问题,不能被人所识别的对抗样本缺乏实际的实用价值。3.当前研究中对抗攻击的策略实用性差。目前面向文本的对抗样本生成的研究中,大多数研究者往往假定攻击者可完全了解目标模型的结构,参数等具体信息,然而实际中大部分机器服务提供商出于对安全角度考虑会限制使用者的能力,不对使用者公开具体的模型细节信息,因此这种假设在较多情况下一般难以成立。鉴于此,针对上述问题,本文的主要工作如下。1.本文提出了一种针对中文文本的对抗攻击方案。现有的文本对抗攻击的研究工作主要集中在英文自然语言处理系统领域,因此亟需加强对面向中文神经网络模型中对抗样本的研究。此外,目前面向英文文本的对抗样本攻击广泛使用的字符型策略,这种攻击策略对中文文本的应用效果较差。这主要是因为由于中文语言与英文语言的差异性所致,当直接应用英文攻击策略时,对单个汉字的简单修改极有可能会造成句子的原始语义发生改变。因此本文参考了现有研究中针对英文文本的对抗样本攻击方法,根据中文文本的语言特点,提出了适用于中文文本的对抗样本生成方案。方案的扰动主要手段为对被扰动的词进行简繁转换、拼音替换和同义词替换等六种扰动操作。下面简要陈述攻击方案主要攻击流程:在本文所设计的攻击方案中,首先,本文使用文本增强技术EDA(Easy Data Augmentation)完成对目标数据集的扩充,这是考虑到在实际应用场景中,存在攻击者缺少对目标模型的有效数据或攻击者对目标模型访问受限的情况。其次,本文选择LSTM(Long Short-Term Memory)作为本地替代模型来对目标模型进行模拟,主要是考虑到LSTM特点具有时间循环结构,可以很好地刻画具有时空关联的序列数据,用LSTM提取文本的语义语法信息,然后和下游模型配合有着很好的效果。之后使用文本增强处理后的数据集对本地替代模型进行训练。本文选择训练本地替代模型的主要作用是为了在本地模拟目标模型,凭借对抗样本的迁移性,攻击者针对本地替代模型生成的对抗样本,对目标模型也有着显著效果。在本地替代模型完成对输入样本分词处理后,首先计算词的重要性,对前N位重要性较高的词进行扰动。扰动的主要手段为对被扰动的词进行简繁转换、同义词替换等六种扰动操作。其次,本文会分别测试不同的扰动对整体句子的置信度分数的影响,直至对抗样本使得本地替代模型出现误分类。对于被误分类的对抗样本,本文将计算该样本与原始输入样本的相似度,并且输出相似度满足初始设置扰动阈值的对抗样本。最后,本文将输出的对抗样本对目标模型进行攻击,并将对抗样本与目标攻击模型所返回的标签值作为新的数据,对本地替代模型进行优化,使本地替代模型逼近目标模型的决策边界,从而进一步提高生成对抗样本的质量。2.通过实验证明所构造的对抗文本是有效且具备高可用性的。对抗样本的目的是“欺骗”分类模型的同时,对人类阅读的影响尽可能的小。因此,需要精心设计对抗样本,谨慎考虑词语的替换策略。否则,当添加了扰动的样本虽然改变了目标模型的输出,但也影响了人类的判断时,这就违背了生成对抗性示例的初衷。实验证明,与对比方案相比,本文所提出的方案所生成的对抗样本在LSTM模型上不仅有较高成功率,而且所生成的对抗样本的可用性良好。通过与Random攻击方案和DeepWordBug攻击方案的成功率进行对比可知,本文所提出的攻击方案使得分类模型的攻击成功率下降达到30%左右,这表明该方案对分类模型的效果显著,并且通过人类测试证明这些对抗样本具备较好的可读性。同时,本文发现对于短文本样本,由于其数据总长度较少的原因,对少数文字的修改,也会造成所生成的对抗文本也会很大程度与原文本的扰动率较高,这表明设置不恰当的扰动阈值可能会一定程度上影响攻击方案在面对短文本样本数据时的攻击效果。因此,在实际应用中,可以考虑优先对长短文本进行分类,分别设置合适的扰动阈值,这有助于提高攻击方案的攻击效果。3.基于以上前提,通过设置本地替代模型来完成对目标模型的模拟,本文提出配合使用文本数据增强技术EDA,这一定程度上缓解了目标模型数据访问限制问题;此外,通过整理对目标模型攻击返回的有效数据,将该数据对本地替代模型进行优化,这将进一步提高本地替代模型与目标攻击模型的相似性,进而提高生成对抗样本的质量。此外,本文提出方案的实用性也更强。目前研究中主要研究场景都是白盒应用场景,攻击者在访问目标攻击模型的细节后,可以利用模型的梯度信息,对目标模型发起有效攻击。然而这种假设在许多实际情况下往往很难成立。近年来随着安全意识的提高,大部分机器学习服务供应商不再提供模型的具体细节并且会对用户的访问次数加以限制,攻击者需要在对目标模型数据量限制的情况下,仅仅依靠目标模型所返回的决策结果来完成对目标模型的有效攻击。本文提出的基于黑盒应用场景的攻击方案,它不依赖模型的结构和参数信息,并对攻击者的攻击能力进一步限制,更贴近真实的对抗场景。