基于短文本的对抗样本生成

来源 :天津理工大学 | 被引量 : 0次 | 上传用户:abwyn12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海量数据的积累以及计算能力的不断提高,基于深度学习的文本分类已经成为自然语言处理领域中许多关键技术应用实现的重要环节。然而有研究表明,基于深度神经网络的文本分类模型非常容易受到攻击者恶意构造的对抗样本的攻击。考虑到在诸如垃圾邮件检测、社会舆情分析以及有害文本检测等对安全性需求较高的任务中,深度学习模型暴露出的面对对抗样本攻击时鲁棒性不足的问题引起了国内外研究学者的广泛关注。为了进一步探索深度学习模型在实际部署过程中所面临的对抗样本攻击风险,从而研究相应的防御措施以提高模型的鲁棒性,本文以短文本为研究对象,从两个方面对文本对抗样本的生成方法进行了深入研究,本文的主要工作及创新点包括以下两个方面:(1)在短文本对抗样本生成方面:针对自然语言处理领域中对抗样本生成算法容易破坏原始文本语义完整性的问题,提出了AEST对抗样本生成算法,该算法可以在白盒设置下生成与原始文本具有较高相似度的对抗样本,并且该算法生成的对抗样本具有较高的攻击成功率和较低的单词扰动率。通过对AEST算法和基线算法生成的对抗样本进行对抗攻击对比实验,进一步验证了AEST对抗样本生成算法的有效性。(2)在DGA域名对抗样本生成方面:针对DGA域名与真实域名相似度较低的问题,提出了一种名为Dn GAN的生成式对抗网络模型,该模型可以生成与真实域名具有较高相似度的DGA域名对抗样本,使用该模型生成的对抗样本进行对抗训练可以较好的提高分类模型对未知DGA域名家族的检测准确率。通过设置多组对比实验,验证了Dn GAN模型生成的DGA域名对抗样本的对抗攻击有效性和对抗训练有效性。本文提出的对抗样本生成算法在一定程度上解决了当前对抗样本研究领域中存在的文本对抗样本与原始样本相似度较低的问题,对该领域的进一步研究工作具有一定的参考意义。
其他文献
藏茶是源于四川的特色黑茶类产品,由于具有消食降脂等保健功效,一度成为民族同胞的生命之茶,又因适应了现代社会“三高”人群的需求,市场销量越来越大。然而,由于传统的熬煮饮用方式难以适应现代社会快节奏生活需要,且其风味单调,难以吸引年轻消费群体,从而限制了藏茶的市场空间。本研究以藏茶为原料,对藏茶浓缩液进行澄清处理,以澄清后的茶汤吸光度、茶汤风味作为主要评价指标,茶多酚、氨基酸、咖啡碱、干物质重量、可溶
学位
近年来,中国境内企业纷纷从美国、中国香港等境外资本市场通过私有化方式退市,进而准备回归A股上市。本文以万达商业作为研究对象,对上述问题进行案例分析,以期探讨发生上述现象的原因。根据万达商业披露的信息,其在香港资本市场上市仅仅15个月后即宣布考虑私有化从H股退市,管理层将原因归结为H股的市值相较于A股被严重低估。为了判断万达商业在H股的市值是否被低估,本文采用市场法对万达商业在A股的市值大小进行评估
第三波民主化以来,许多转型国家的选举政治并未实现和平的权力交替,反而频频曝出选举舞弊、大众抗议和选后军事政变等民主乱象。本文以“定量定性的嵌套式混合研究”为研究方法,探讨选后抗议之所以发生,而又为何升级为暴力冲突的因果机制。在文章结构设计上,首先阐明选举暴力的研究背景及选题意义,然后对本文写作框架进行了简要概括。其次,对代议制民主、威权选举和政治抗争的进行概念界定,在对选举暴力做出概念区分的基础上
“什么是时代感,这就是时代感,成长更是一种浪漫……”作为迎春曲,虎年春晚上的一首《时代感》唱响新征程。2022年伊始,“依法带娃”一词不就承载着满满的“时代感”吗?随着城镇化进程的推进、工业化和信息化的融合发展,中国社会已经并正在发生深刻复杂的变化,这对家庭关系产生了深远的影响。
期刊
学位
学位
学位
我国长期处于一个和平时期,这导致很多青年对于服兵役的义务属性和拒服兵役行为的违法属性并不了解,拒绝服兵役的案例日益增多。这无疑是对我国国防力量的减损,不可任其发展。要想解决这一问题,必须从法律层面入手,我国虽然在《中华人民共和国兵役法》第五十七条和第五十八条对拒服兵役行为以及惩戒作出了相关规定,但是在对拒服兵役行为的界定,以及对拒服兵役行为的惩戒和救济等方面还存在模糊不清的问题,各地的地方立法也存