论文部分内容阅读
目前机器学习方法已经被广泛地应用到安全相关的应用中,如入侵检测,恶意软件检测,垃圾邮件过滤和隐写分析等。传统的机器学习假设训练数据和测试数据具有相同的分布。然而在安全应用中,这一假设通常不成立。因为这些应用中通常存在恶意的攻击者,它们通过修改训练集或测试集的数据来误导分类器的决策。目前研究表明只要对样本进行较小的改动就能显著地降低机器学习系统的性能,这严重威胁着这些应用的安全性。传统的机器学习不能有效地防御对抗攻击。本研究深入分析对抗性环境中的三种不同类型的攻击,即诱发性攻击、探索性攻击和隐私窃取,提升系统对这三种攻击的鲁棒性。同时我们也会讨论两个实际的应用,即隐写分析和网页浏览。本学位论文的主要贡献包括以下四个方面:1)提出一种基于数据复杂度的诱发性攻击检测算法。目前对抗诱发性攻击的防御措施通常牺牲分类器在无攻击情况下的泛化能力来提升系统的鲁棒性。因此,这些防御措施应当在训练数据受到攻击的情况下才使用。然而,目前还没有检测训练数据中是否存在攻击的相关研究。诱发性攻击会改变一个数据集的几何特征。因此可以使用描述数据集几何特征的数据复杂度来检测诱发性攻击。在本文中,诱发性攻击的检测被构造成一个二类和多类分类问题,从而检测数据集中是否存在以及存在何种攻击。实验结果表明基于数据复杂度的方法能够有效地区分无攻击数据集和被不同攻击方法篡改的数据集。2)针对探索性攻击,提出结合单类和二类分类器的多分类器系统。尽管单类分类器对探索性攻击具有较强的鲁棒性,然而在无攻击的情况下它的泛化能力较差。与之相反,二类分类器在无攻击的情况下具有较强的分类能力,然而它在探索性攻击的情况下性能较差。本文中提出一种混合的方法,即1.5类分类器。该方法结合单类和二类分类器,在不明显降低分类器在无攻击情况下的准确率的前提下,在特征空间中学习一个能更紧密地包围正常样本的决策函数。在垃圾邮件和恶意软件数据集上的实验表明,所提出的方法能够较好地提升分类器在探索性攻击下的安全性。3)提出对训练和测试JPEG图片量化表的差异具有较强鲁棒性的隐写分析系统。目前的隐写分析系统在训练和测试图片的量化表存在差异时性能较差。攻击者这一缺陷进行探索性攻击,使隐写图片逃脱系统的检测。然而,使用所有可能的量化表来训练系统是不现实和不可行的。我们提出把图片量化表差异所引起的隐写分析特征的变化定义为特征扰动,并定义由特征扰动导致的分类器输出变化平方的期望为随机敏感度。最后训练一个最小化训练误差和随机敏感度的隐写分析分类器,从而提升系统对量化表差异的鲁棒性。4)提出一种针对网页浏览的信息泄露量化技术。目前的大部分信息泄露量化技术都聚焦于Web应用。这些技术由于时间复杂度大和特定的假设前提,并不适用于度量网页浏览中的信息泄露量。我们从模式分类的角度来研究信息泄露问题,并使用数据复杂度来量化网页浏览中的信息泄露。此外,网站指纹识别防御措施中的参数对其性能有较大的影响。本文提出了基于信息泄露量化技术的参数选择模型,并把它应用到两种具有代表性的依赖型和独立型防御措施中。