Skip to main content
QUICK REVIEW

[论文解读] Feature Squeezing Mitigates and Detects Carlini/Wagner Adversarial Examples

Weilin Xu, David Evans|arXiv (Cornell University)|May 30, 2017
Adversarial Robustness in Machine Learning参考文献 6被引用 41
一句话总结

本论文表明,简单的特征压缩——特别是2×2中值平滑——可显著提升深度学习模型对MNIST和CIFAR-10上最先进的Carlini/Wagner对抗攻击的鲁棒性。它将定向攻击的成功率从接近100%降低至6%以下,并通过原始输入与压缩输入预测结果之间的L1差异分数,在MNIST上实现98.80%的准确率、在CIFAR-10上实现87.50%的准确率来检测对抗样本。

ABSTRACT

Feature squeezing is a recently-introduced framework for mitigating and detecting adversarial examples. In previous work, we showed that it is effective against several earlier methods for generating adversarial examples. In this short note, we report on recent results showing that simple feature squeezing techniques also make deep learning models significantly more robust against the Carlini/Wagner attacks, which are the best known adversarial methods discovered to date.

研究动机与目标

  • 评估简单特征压缩是否能缓解并检测最先进的对抗攻击,特别是Carlini/Wagner的L2、L∞和L0方法。
  • 评估经特征压缩增强的深度学习模型对定向与非定向对抗样本的鲁棒性。
  • 探究将特征压缩作为轻量级、正交防御机制的可行性,且无需重新训练模型。
  • 开发并评估基于原始输入与压缩输入预测差异的检测框架。

提出的方法

  • 在分类前将2×2中值平滑作为输入图像的预处理步骤,使用SciPy实现,采用反射填充并保持中值选择的一致性。
  • 通过计算模型在原始输入与压缩输入上的预测结果之间的L1范数差值来计算检测分数:score = |f(x) − f(squeeze(x))|₁。
  • 设定L1分数的阈值以将输入分类为对抗样本(高分)或合法样本(低分),阈值通过在训练集上最大化检测准确率来选择。
  • 通过测量在Carlini/Wagner的L2、L∞和L0攻击生成的对抗样本上的准确率,评估鲁棒性,对比有无特征压缩的情况。
  • 使用Carlini的代码以默认参数在MNIST和CIFAR-10上分别训练独立模型,并由于计算成本限制,仅在前1,000张测试图像上生成对抗样本。
  • 将数据集划分为训练集和验证集,以调整检测阈值并在未见数据上评估性能。

实验结果

研究问题

  • RQ1特征压缩能否有效降低深度学习模型在对抗攻击中对Carlini/Wagner定向攻击的成功率?
  • RQ2特征压缩对MNIST和CIFAR-10上合法输入的准确率有何影响?
  • RQ3原始输入与压缩输入之间模型预测的L1差异能否可靠检测对抗样本?
  • RQ4检测性能是否因数据集的模型准确率水平不同(如MNIST与CIFAR-10)而有所差异?
  • RQ5尽管扰动极小,特征压缩是否对最先进的对抗攻击方法(包括L2、L∞和L0)有效?

主要发现

  • 在MNIST和CIFAR-10上,使用2×2中值平滑的特征压缩将三种Carlini/Wagner攻击变体(L2、L∞、L0)的定向攻击成功率从接近100%降至6%以下。
  • 在MNIST上,应用特征压缩后,非定向攻击的对抗样本准确率从0%提升至90.4%,定向攻击则提升至87.9%。
  • 在CIFAR-10上,应用特征压缩后,非定向攻击的对抗样本准确率从0%提升至68.2%,定向攻击则提升至66.1%。
  • 检测框架在MNIST上实现了98.80%的准确率,真阳性率为99.33%,假阳性率为1.73%,阈值为0.1147。
  • 在CIFAR-10上,检测准确率为87.50%,曲线下面积(ROC-AUC)为0.8711,可能由于模型在合法输入上的基线准确率较低(78.3%)。
  • 该方法在合法输入上保持了高准确率——MNIST为99.4%,CIFAR-10为93.2%,表明性能下降可忽略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。