Skip to main content
QUICK REVIEW

[论文解读] Bypassing Feature Squeezing by Increasing Adversary Strength

Yash Sharma, Pin‐Yu Chen|arXiv (Cornell University)|Mar 27, 2018
Adversarial Robustness in Machine Learning参考文献 12被引用 31
一句话总结

本论文表明,特征压缩(feature squeezing)这一防御机制通过结合多种输入变换以检测对抗样本,可被通过提高 C&W 和 EAD 攻击中的更高置信度边界($\kappa$)以及 I-FGSM 攻击中的更大 $L_\infty$ 扰动($\epsilon$)来绕过。在 MNIST 和 CIFAR-10 上,具有最小视觉失真的对抗样本对联合检测框架实现了接近 100% 的攻击成功率,揭示了防御机制必须在更强的对抗配置下进行验证,才能保持有效性。

ABSTRACT

Feature Squeezing is a recently proposed defense method which reduces the search space available to an adversary by coalescing samples that correspond to many different feature vectors in the original space into a single sample. It has been shown that feature squeezing defenses can be combined in a joint detection framework to achieve high detection rates against state-of-the-art attacks. However, we demonstrate on the MNIST and CIFAR-10 datasets that by increasing the adversary strength of said state-of-the-art attacks, one can bypass the detection framework with adversarial examples of minimal visual distortion. These results suggest for proposed defenses to validate against stronger attack configurations.

研究动机与目标

  • 评估特征压缩防御在更强对抗攻击下的鲁棒性。
  • 探究在 C&W 和 EAD 攻击中提高置信度边界($\\kappa$)是否可绕过联合检测框架。
  • 评估在 I-FGSM 攻击中提高 $L_\\infty$ 扰动($\epsilon$)对特征压缩防御的有效性。
  • 确定在更强攻击配置下,具有最小视觉失真的对抗样本是否仍能逃避检测。
  • 主张在保持视觉相似性的同时,对防御机制进行最大强度对手的验证。

提出的方法

  • 本研究使用 EAD 攻击,即带有弹性网络正则化的 C&W $L_2$ 攻击的推广,以最小化 $L_1$ 和 $L_2$ 失真。
  • 系统性地提高置信度参数 $\\kappa$,以增加目标类别与非目标类别概率之间的所需边界。
  • 对于 $L_\\infty$ 攻击,采用 I-FGSM 方法并逐步增加 $\\epsilon$ 值以控制扰动幅度。
  • 联合检测框架结合了多种特征压缩器——颜色位深降低与平滑(局部与非局部)——并使用 $L_1$ 范数比较原始输入与压缩输入上的预测结果。
  • 检测阈值基于 Xu 等人(2017)定义的原始模型输出与压缩模型输出之间的 $L_1$ 距离设定。
  • 实验在 MNIST 和 CIFAR-10 的预训练模型上进行,使用 100 张测试图像,涵盖非目标攻击与目标攻击(分别针对下一类与最不可能类)。

实验结果

研究问题

  • RQ1在 C&W 和 EAD 攻击中提高置信度边界($\\kappa$)是否可绕过联合特征压缩检测框架?
  • RQ2在 I-FGSM 攻击中提高 $L_\\infty$ 扰动($\\epsilon$)是否允许对抗样本以最小视觉失真逃避检测?
  • RQ3在更高攻击强度下生成的对抗样本是否仍保持视觉上不可察觉,同时成功绕过检测?
  • RQ4如果特征压缩防御在更强攻击配置下失效,是否仍可认为其具备鲁棒性?
  • RQ5当对抗样本以最大强度生成但保持视觉相似性时,联合检测框架在多大程度上会失效?

主要发现

  • 在 MNIST 上,EAD 攻击将 $\\kappa$ 提高至 40 时,对联合检测器实现了 100% 的攻击成功率(ASR),$L_\\infty$ 失真为 0.997,表明视觉失真极小。
  • 在 CIFAR-10 上,EAD 攻击将 $\\kappa$ 提高至 70 时,实现了 100% 的 ASR,$L_\\infty$ 失真为 0.502,表明在极低感知变化下仍能有效绕过检测。
  • 对于 I-FGSM 攻击,将 $\\epsilon$ 提高至 MNIST 的 0.3 和 CIFAR-10 的 0.008 时,实现了 100% 的 ASR,但仅在 CIFAR-10 上样本保持了最小视觉失真。
  • 在较低 $\\kappa$ 值下,EAD 攻击在最小化 $L_1$ 和 $L_2$ 失真方面优于 C&W $L_2$ 攻击,表明其对检测具有更强的鲁棒性。
  • 在目标攻击设置下,MNIST 上 EAD 攻击将 $\\kappa$ 提高至 40 时,实现了 100% 的 ASR,$L_\\infty$ 失真为 0.939,证实了在强攻击下仍具备绕过能力。
  • 结果表明,当在更强对手下测试时,即使对抗样本与原始输入视觉相似,特征压缩防御仍易受攻击。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。