Skip to main content
QUICK REVIEW

[论文解读] On the (Statistical) Detection of Adversarial Examples

Kathrin Grosse, Praveen Manoharan|arXiv (Cornell University)|Feb 21, 2017
Adversarial Robustness in Machine Learning参考文献 34被引用 375
一句话总结

本文表明对抗样本在统计上与合法数据不同,可以使用基于核的两样本检验来检测;并通过增加的离群类实现对每个输入的检测,在 MNIST、DREBIN 和 MicroRNA 上进行评估。

ABSTRACT

Machine Learning (ML) models are applied in a variety of tasks such as network intrusion detection or Malware classification. Yet, these models are vulnerable to a class of malicious inputs known as adversarial examples. These are slightly perturbed inputs that are classified incorrectly by the ML model. The mitigation of these adversarial inputs remains an open problem. As a step towards understanding adversarial examples, we show that they are not drawn from the same distribution than the original data, and can thus be detected using statistical tests. Using thus knowledge, we introduce a complimentary approach to identify specific inputs that are adversarial. Specifically, we augment our ML model with an additional output, in which the model is trained to classify all adversarial inputs. We evaluate our approach on multiple adversarial example crafting methods (including the fast gradient sign and saliency map methods) with several datasets. The statistical test flags sample sets containing adversarial inputs confidently at sample sizes between 10 and 100 data points. Furthermore, our augmented model either detects adversarial examples as outliers with high accuracy (> 80%) or increases the adversary's cost - the perturbation added - by more than 150%. In this way, we show that statistical properties of adversarial examples are essential to their detection.

研究动机与目标

  • 证明对抗样本在统计上与合法训练数据分布不同。
  • 评估一种统计检验(基于 MMD)在多数据集与多种攻击下检测对抗性分布的效果。
  • 提出一种综合防御,通过在模型中增加离群类来检测单个对抗输入。
  • 评估在白盒和黑盒对抗情景下所提出防御的鲁棒性。

提出的方法

  • 使用基于核的两样本检验(高斯核的 MMD)在自举的零假设分布下区分对抗分布和良性分布。
  • 测量从训练分布中抽取的样本与对抗性扰动数据之间的最大均值差异(MMD)和能量距离(ED)。
  • 在 MNIST、DREBIN(Android 恶意软件)和 MicroRNA 数据集上,评估在多种对抗构造方法(FGSM、JSMA、SVM 攻击、DT 攻击)下的检测性能。
  • 为模型增加额外的离群类并训练将对抗输入分类为该类,从而在测试时实现对每个输入的检测。
  • 比较在白盒和黑盒威胁模型下的性能,包括自适应攻击。

实验结果

研究问题

  • RQ1统计检验是否能在样本量较小的情况下,将对抗分布与模型的训练分布区分开?
  • RQ2带有离群类的增强模型在测试时是否能可靠地检测对抗输入?
  • RQ3所提出的防御对自适应/黑盒对手的鲁棒性如何?
  • RQ4在使用离群类方法时,对抗攻击对检测成本(扰动增量)和误分类的影响有多大?

主要发现

操作参数MMDED
原始-0.105130.85
FGSMε=0.070.281157.904
FGSMε=0.2750.603213.967
JSMA-0.14137.63
DT 攻击-0.1130.71
SVM 攻击ε=0.250.524186.32
翻转-0.306135.0
子采样45 像素2.159102.7
高斯模糊4 像素1.021128.52
  • 基于核的检验(MMD 和 ED)在大多数情况下可用最小为 50 个输入的样本量检测对抗分布。
  • 当存在对抗输入时,两样本检验拒绝原假设,而良性样本被正确识别,约有 95% 的概率接受良性假设。
  • 带离群类的增强模型在两个数据集上检测超过 80% 的对抗样例,并将攻击扰动成本提高超过 150% 以误导模型。
  • 在黑盒/自适应攻击下,防御保持鲁棒,最坏情况下对手检测率为 60%,在许多情境中常常超过 90%;未被检测的对抗输入往往需要更大的扰动。
  • 对于某些攻击/数据集(如 MNIST 上的 JSMA 或 MNIST 的 DT 攻击),检测的信心较低,与这些对手观察到的统计发散较弱一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。