Skip to main content
QUICK REVIEW

[论文解读] Detecting Adversarial Samples from Artifacts

Reuben Feinman, Ryan R. Curtin|arXiv (Cornell University)|Mar 1, 2017
Adversarial Robustness in Machine Learning参考文献 17被引用 376
一句话总结

提出一种两特征检测器,用于对抗样本,利用最后一层特征空间的密度估计和 dropout 的贝叶斯不确定性;将它们在逻辑回归中结合,以检测跨多种攻击和数据集的对抗输入。

ABSTRACT

Deep neural networks (DNNs) are powerful nonlinear architectures that are known to be robust to random perturbations of the input. However, these models are vulnerable to adversarial perturbations--small input changes crafted explicitly to fool the model. In this paper, we ask whether a DNN can distinguish adversarial samples from their normal and noisy counterparts. We investigate model confidence on adversarial samples by looking at Bayesian uncertainty estimates, available in dropout neural networks, and by performing density estimation in the subspace of deep features learned by the model. The result is a method for implicit adversarial detection that is oblivious to the attack algorithm. We evaluate this method on a variety of standard datasets including MNIST and CIFAR-10 and show that it generalizes well across different architectures and attacks. Our findings report that 85-93% ROC-AUC can be achieved on a number of standard classification tasks with a negative class that consists of both normal and noisy samples.

研究动机与目标

  • 动机:说明需要检测对抗样本,而不仅限于针对特定攻击的防御。
  • 提出两种与攻击无关的特征,揭示对抗扰动的痕迹。
  • 演示一个将密度和不确定性结合起来以检测对抗输入的简单分类器。
  • 评估在多数据集、不同网络结构和攻击下的泛化能力。
  • 分析对抗扰动如何将输入从数据流形移出,进入高不确定性区域。

提出的方法

  • 在最后一个隐藏层特征空间中使用核密度估计,衡量一个样本距离类别流形的远近。
  • 利用基于 dropout 的贝叶斯不确定性估计,来自贝叶斯神经网络,用于识别低置信区域。
  • 计算一个包含两特征的输入(不确定性、密度),并训练一个逻辑回归检测器,将对抗样本与正常/嘈杂样本区分开。
  • 通过 ROC-AUC 指标评估多种攻击(FGSM、BIM、JSMA、C&W)和数据集(MNIST、CIFAR-10、SVHN)。
  • 通过似然驱动的选择固定密度带宽,并在训练检测器前对特征应用 z-score 归一化。

实验结果

研究问题

  • RQ1是否可以利用最后一层特征空间中的基于流形的密度估计,将对抗样本与正常及嘈杂样本区分开?
  • RQ2通过 dropout 获得的贝叶斯神经网络不确定性,是否能揭示仅靠密度无法捕捉的对抗输入?
  • RQ3在跨越多种攻击和数据集时,将密度和不确定性特征结合起来的简单逻辑回归检测器性能如何?
  • RQ4所提出的特征是否可在不同架构和攻击类型之间实现泛化,而无需针对特定攻击进行训练?
  • RQ5在 MNIST、CIFAR-10 和 SVHN 上,对抗检测的可检测性能(ROC-AUC)是多少?

主要发现

  • 一个结合密度估计和贝叶斯不确定性的检测器在跨攻击和数据集上达到较高的 ROC-AUC(例如,在 MNIST 上,当负类包含正常和嘈杂样本时,最高可达 92.6%)。
  • 相对于正常样本,对抗样本的密度估计趋于下降,不确定性趋于增加。
  • 结合的不确定性+密度检测器在单一特征时的表现之上,尤其在 JSMA、BIM-A 和 C&W 攻击中表现更好。
  • 在 MNIST、CIFAR-10 和 SVHN 上的实验显示,在 FGSM、BIM、JSMA 和 C&W 攻击下均有强的 ROC-AUC 性能。
  • 当负类同时包含正常和嘈杂样本时,对抗检测仍然有效,表明对扰动类型变异具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。