Research on Textual Adversarial Attack Against Deep Learning Model

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:Bo_Gao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来在计算机视觉和模式识别等领域,深度学习模型和算法的发展十分迅猛。伴随着这一趋势的发展,越来越多NLP(Natural Language Processing)领域的研究者开始应用新的深度学习方法。基于深度学习的自然语言处理技术在文本分类、情感分析等方面有着越来越广泛的应用,为人民生活提供了很大的便利。相比传统的基于手工构建特征的机器学习NLP系统,深度学习系统特征的构建往往需要更少的时间成本和经济成本。而在词嵌入模型与深度学习方法的帮助下,深度学习逐渐实现了多层次的自动特征表示学习。因而深度学习模型已经成为解决诸如分类,聚类,机器翻译,计算机视觉和自然语言处理等其他许多问题的利器。然而基于深度学习的神经网络在为人们带来便利的同时,其也面临大量的安全威胁。最新研究表明,基于恶意制作的对抗性输入内容会对神经网络模型的判断产生极大的影响。这种对抗性输入内容最早出现于计算机视觉领域,近年来,在NLP等领域也发现了使用对抗样本攻击模型的情况出现。通过对异常信息处理,恶意攻击者生成的对抗样本能够绕过系统的检测,把大量异常信息参杂在正常信息中进行传播,这对人们的生活造成了严重危害。这种日益严重的安全问题已逐渐成为深度学习模型安全的重要威胁之一。因而引起了学术界广泛的关注,研究者们展开对对抗样本的研究,并取得了丰硕的研究成果。作为互联网用户的主体,青少年特别是18岁以下的网民正处于生理、心理和社会价值观逐步成熟的阶段。网络非法信息的传播会对青少年造成巨大危害,并且会潜在影响了社会文化和风气。这不但会导致青少年一代思想道德滑坡、生活颓废,最终使得社会犯罪率上升。同时也会引发青少年网络成瘾等疾病,对青少年正常的作息和学习造成极大冲击并严重腐蚀青少年的价值观和思想心灵。因此,必须从培养社会主义建设者和接班人、从国家民族未来的高度,充分认识非法网络信息的危害性。开展对对抗样本的研究可以帮助研究者更好地了解不法分子传播非法信息的手段,有助于对后续防御工作的研究,并进一步建设利于青少年健康成长的网络环境。通过对现有对抗攻击研究现状分析,本文总结得出当前研究还存在以下问题:1.对中文文本的对抗攻击研究技术滞后。面向文本的对抗样本的研究目前主要集中在英语自然语言处理领域,而面向中文文本的对抗样本生成方法仍然有限,这表明亟需对中文自然语言处理系统中可能存在安全隐患进行探索。2.现有研究中生成的对抗样本可用性有待提高。当前,学术界的研究工作倾向对对原始输入样本进行字符或单词的简单替换来生成对抗样本,这种攻击策略虽然确保了对抗文本攻击成功率,但往往导致生成的对抗样本出现可用性差等问题,不能被人所识别的对抗样本缺乏实际的实用价值。3.当前研究中对抗攻击的策略实用性差。目前面向文本的对抗样本生成的研究中,大多数研究者往往假定攻击者可完全了解目标模型的结构,参数等具体信息,然而实际中大部分机器服务提供商出于对安全角度考虑会限制使用者的能力,不对使用者公开具体的模型细节信息,因此这种假设在较多情况下一般难以成立。鉴于此,针对上述问题,本文的主要工作如下。1.本文提出了一种针对中文文本的对抗攻击方案。现有的文本对抗攻击的研究工作主要集中在英文自然语言处理系统领域,因此亟需加强对面向中文神经网络模型中对抗样本的研究。此外,目前面向英文文本的对抗样本攻击广泛使用的字符型策略,这种攻击策略对中文文本的应用效果较差。这主要是因为由于中文语言与英文语言的差异性所致,当直接应用英文攻击策略时,对单个汉字的简单修改极有可能会造成句子的原始语义发生改变。因此本文参考了现有研究中针对英文文本的对抗样本攻击方法,根据中文文本的语言特点,提出了适用于中文文本的对抗样本生成方案。方案的扰动主要手段为对被扰动的词进行简繁转换、拼音替换和同义词替换等六种扰动操作。下面简要陈述攻击方案主要攻击流程:在本文所设计的攻击方案中,首先,本文使用文本增强技术EDA(Easy Data Augmentation)完成对目标数据集的扩充,这是考虑到在实际应用场景中,存在攻击者缺少对目标模型的有效数据或攻击者对目标模型访问受限的情况。其次,本文选择LSTM(Long Short-Term Memory)作为本地替代模型来对目标模型进行模拟,主要是考虑到LSTM特点具有时间循环结构,可以很好地刻画具有时空关联的序列数据,用LSTM提取文本的语义语法信息,然后和下游模型配合有着很好的效果。之后使用文本增强处理后的数据集对本地替代模型进行训练。本文选择训练本地替代模型的主要作用是为了在本地模拟目标模型,凭借对抗样本的迁移性,攻击者针对本地替代模型生成的对抗样本,对目标模型也有着显著效果。在本地替代模型完成对输入样本分词处理后,首先计算词的重要性,对前N位重要性较高的词进行扰动。扰动的主要手段为对被扰动的词进行简繁转换、同义词替换等六种扰动操作。其次,本文会分别测试不同的扰动对整体句子的置信度分数的影响,直至对抗样本使得本地替代模型出现误分类。对于被误分类的对抗样本,本文将计算该样本与原始输入样本的相似度,并且输出相似度满足初始设置扰动阈值的对抗样本。最后,本文将输出的对抗样本对目标模型进行攻击,并将对抗样本与目标攻击模型所返回的标签值作为新的数据,对本地替代模型进行优化,使本地替代模型逼近目标模型的决策边界,从而进一步提高生成对抗样本的质量。2.通过实验证明所构造的对抗文本是有效且具备高可用性的。对抗样本的目的是“欺骗”分类模型的同时,对人类阅读的影响尽可能的小。因此,需要精心设计对抗样本,谨慎考虑词语的替换策略。否则,当添加了扰动的样本虽然改变了目标模型的输出,但也影响了人类的判断时,这就违背了生成对抗性示例的初衷。实验证明,与对比方案相比,本文所提出的方案所生成的对抗样本在LSTM模型上不仅有较高成功率,而且所生成的对抗样本的可用性良好。通过与Random攻击方案和DeepWordBug攻击方案的成功率进行对比可知,本文所提出的攻击方案使得分类模型的攻击成功率下降达到30%左右,这表明该方案对分类模型的效果显著,并且通过人类测试证明这些对抗样本具备较好的可读性。同时,本文发现对于短文本样本,由于其数据总长度较少的原因,对少数文字的修改,也会造成所生成的对抗文本也会很大程度与原文本的扰动率较高,这表明设置不恰当的扰动阈值可能会一定程度上影响攻击方案在面对短文本样本数据时的攻击效果。因此,在实际应用中,可以考虑优先对长短文本进行分类,分别设置合适的扰动阈值,这有助于提高攻击方案的攻击效果。3.基于以上前提,通过设置本地替代模型来完成对目标模型的模拟,本文提出配合使用文本数据增强技术EDA,这一定程度上缓解了目标模型数据访问限制问题;此外,通过整理对目标模型攻击返回的有效数据,将该数据对本地替代模型进行优化,这将进一步提高本地替代模型与目标攻击模型的相似性,进而提高生成对抗样本的质量。此外,本文提出方案的实用性也更强。目前研究中主要研究场景都是白盒应用场景,攻击者在访问目标攻击模型的细节后,可以利用模型的梯度信息,对目标模型发起有效攻击。然而这种假设在许多实际情况下往往很难成立。近年来随着安全意识的提高,大部分机器学习服务供应商不再提供模型的具体细节并且会对用户的访问次数加以限制,攻击者需要在对目标模型数据量限制的情况下,仅仅依靠目标模型所返回的决策结果来完成对目标模型的有效攻击。本文提出的基于黑盒应用场景的攻击方案,它不依赖模型的结构和参数信息,并对攻击者的攻击能力进一步限制,更贴近真实的对抗场景。
其他文献
自2019年12月新冠疫情爆发以来,已经对全球人类的健康和生活产生了重大影响。据约翰斯·霍普金斯大学统计数据,截止北京时间2021年1月27日,全球新冠肺炎确诊人数已经破亿,全球新冠肺炎死亡人数超过215万例。同时,病毒的传播扰乱了全球供应链,造成全球金融市场显著波动。与2020年2月中旬相比,欧洲股市已经下跌约30%,为2008年金融危机开始以来的最大单月跌幅,全球年经济增长率预计将下降2.5%
随着开关频率的逐步提升,开关电源在工作时,高速变化的瞬变电压(d V/dt)和瞬变电流(d I/dt)产生的电磁干扰(EMI)问题愈发严重。这些电磁干扰能量在低频段会在导线之间传导,进而污染电网及影响周边用电设备的正常工作;在高频段会以电磁波的形式辐射到自由空间中,不仅影响设备自身的使用寿命,对周边正在工作的用电设备造成干扰,严重者还会对人体和生态环境造成危害。为此,开关电源产品都需要经过电磁兼容
在学生自发的将原本设计用于停自行车的图书馆架空层,逐步使用成为了一个学习空间的背景下,作者注意到校园内却还有大量空间形式类似于图书馆架空层的半开放空间一直被闲置、荒废。在调研后发现图书馆架空层的热舒适感与夏季室外气候的热舒适感存在显著的差异,进而提出假设,图书馆架空层内可能存在有别于其他架空层的较为稳定而舒适的微气候。本文基于这个微气候存在的假设,运用问卷调查、软件仿真模拟和现场实测去验证图书馆架
随着数字产品在GDP中所占的比例越来越高,数字产品的非法传播给其所有者带来了严重的经济损失。为了加强对数字产品的保护,研究者们研发了许多溯源防泄密的应用,其主要原理是基于信息隐藏算法。而传统的信息隐藏方法仅仅只在其设计的领域是有效的,基本上不具备泛化能力,因此亟须一种有效的方法来加强对数字产品的保护。研究发现,神经网络对输入图像的微小扰动高度敏感,可以利用这一功能来实现信息的隐藏。为了解决图片在传
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。知识图谱的基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互连接,形成网状的知识结构。通过知识图谱,可以实现Web网页链接向概念链接的转变,知识图谱支持用户按主题而不是字符串进行检索,从而实现真正的语义搜索[25]。知识图谱在这些应用中已经显示出重要的价值:(1)问答系统:问答系统将
时空效应是基坑工程的一个重要特点,基坑的稳定性和变形深受基坑的深度、平面面积及形状的影响。作为深基坑工程,在施工过程中一直伴随着变形,为了保障深基坑的安全并及时地掌握其变形情况是有着非常重要的意义。针对上述问题,本文以重庆某深基坑为研究对象,在基于传统深基坑监测理念的基础上,融入建筑信息模型(BIM)、Web端三维模型加载引擎技术、物联网、计算机互联网云平台技术,自主设计研发基于Web的深基坑三维
伴随着经济数字化转型深入,以区块链技术为代表的多方协作技术逐渐普及,如何验证承载着多样化价值的数据有效性早已成为全行业的普遍需求。满足这一需求的关键是引入各式各样数字化契约,而支持契约中数字签名高效验证则是关键中的关键。Hyperledger Fabric是流行的开源许可区块链平台,它包含一种称为背书的机制,用于建立交易的有效性。对于块数据,每个节点都会使用其自己的私钥生成一个独立的数字签名,并将
大数据时代已经来临,海量的数据被存储在各种数据库中,如何从这些海量的数据中挖掘有价值的信息成为人们研究的重点。医疗、教育、金融、软件开发等各个行业都会在工作中频繁使用SQL语句用于数据的增删改查。对于有一定编程基础的人来说,使用SQL可能是一件比较轻松的事情,但对于更多的人来说需要学习一定的数据库和SQL语言相关专业知识并且需要在熟悉数据库模式的前提下,才能熟练进行SQL语句的编写。所以降低SQL
空气中的颗粒物在风管内表面沉降形成的沉积层会阻碍气流流动,并滋生微生物污染空气。因此,研究颗粒物在空调风管中的运动及沉降特性对改善室内空气品质有积极意义。目前,国内外学者对于风管内颗粒物的沉降迁移过程进行了较多的研究。然而,在风管系统中,弯头处的流场相比直管更复杂,颗粒物沉降特性也会发生变化。因此,本文将采用数值模拟手段对方形风管90°弯头内颗粒物运动及沉降特性及相关影响因素进行研究。首先,本文选
人类活动与气候变化极大地改变了全球河流和湖泊中的氮循环,并改变了温室气体氧化亚氮(N2O)的产生和排放规律。水动力条件和环境因素(温度、p H等)将影响河流和湖泊中溶解氧(DO)的浓度,而DO又是多种生物化学过程中影响N2O产生的重要因素。目前,这方面的研究还不深入。因此,论文通过构建沉积物-上覆水-气相系统,设置不同的搅拌转速和曝气量来改变水动力和环境条件,在体系中得到不同的DO浓度,进而研究在