Skip to main content
QUICK REVIEW

[论文解读] Breaking certified defenses: Semantic adversarial examples with spoofed robustness certificates

Amin Ghiasi, Ali Shafahi|arXiv (Cornell University)|Mar 19, 2020
Adversarial Robustness in Machine Learning参考文献 30被引用 23
一句话总结

本文提出了阴影攻击(Shadow Attack),一种新型对抗性样本方法,通过生成大范数、语义自然的扰动,欺骗经过认证的鲁棒分类器。该方法同时利用分类器的预测标签及其鲁棒性证书生成器,导致误分类,同时生成一个‘伪造’的高置信度证书,表明认证鲁棒性在实践中并不能保证正确性或安全性。

ABSTRACT

To deflect adversarial attacks, a range of "certified" classifiers have been proposed. In addition to labeling an image, certified classifiers produce (when possible) a certificate guaranteeing that the input image is not an $\\ell_p$-bounded adversarial example. We present a new attack that exploits not only the labelling function of a classifier, but also the certificate generator. The proposed method applies large perturbations that place images far from a class boundary while maintaining the imperceptibility property of adversarial examples. The proposed "Shadow Attack" causes certifiably robust networks to mislabel an image and simultaneously produce a "spoofed" certificate of robustness.

研究动机与目标

  • 揭示依赖鲁棒性证书作为安全保证的可认证鲁棒分类器中存在一个关键漏洞。
  • 开发一种攻击方法,同时导致误分类并生成虚假的安全感,通过产生高置信度但错误的证书。
  • 挑战认证鲁棒性意味着模型行为可靠的假设,尤其是在语义扰动下。
  • 证明大范围、不可察觉的扰动可以绕过最先进认证鲁棒模型的认证区域,同时保持视觉合理性。

提出的方法

  • 阴影攻击使用大范数、语义有意义的扰动构造对抗性样本,这些扰动在视觉上自然且不可察觉。
  • 该方法同时针对分类器的预测结果和证书生成器,采用结合交叉熵损失、总变差损失以及鲁棒性边界正则化项的损失函数。
  • 该方法利用基于IBP的认证防御(如CROWN-IBP)的训练目标,生成被错误分类但仍在大认证半径内的图像。
  • 通过贪婪的HSV空间变换最小化感知度,同时最大化扰动的范数,从而实现对认证区域的逃逸。
  • 该攻击在白盒设置下执行,使用基于梯度的优化方法,并采用自定义损失函数,以同时实现误分类和强证书生成。
  • 实验在CIFAR-10数据集上训练的CROWN-IBP模型上进行,ε = 2/255 和 ε = 8/255,专注于1通道攻击以提高效率。

实验结果

研究问题

  • RQ1是否可以构造对抗性样本,使其同时误导分类器并生成虚假的、高置信度的鲁棒性证书?
  • RQ2大范数、语义自然的扰动是否能够绕过最先进认证鲁棒模型的认证区域?
  • RQ3强证书的存在是否是模型鲁棒性或正确性的可靠指标?
  • RQ4证书生成过程本身是否可被利用,为对抗性输入生成‘伪造’证书?
  • RQ5当证书被人为增强时,对抗性样本的鲁棒性误差与自然图像相比如何?

主要发现

  • 当 ε = 2/255 时,阴影攻击生成的对抗性样本有 45.90% 至 65.74% 的概率被认证,表明伪造证书频繁生成。
  • 当 ε = 8/255 时,攻击的认证率(63.43% 至 71.16%)高于模型的自然鲁棒性误差(71.28% 至 73.66%),意味着对抗性样本比干净图像更可能被认证。
  • 该攻击生成的对抗性样本具有大于认证半径的 ℓ∞-范数扰动,但仍保持视觉自然性和不可察觉性。
  • 在 ε = 8/255 设置下,自然图像的鲁棒性误差高于攻击样本,表明攻击成功操纵了证书生成器。
  • 该攻击成功的原因在于证书生成器被误导,认为扰动后的图像具有鲁棒性,尽管模型已将其错误分类。
  • 结果表明,认证鲁棒性并不意味着正确性,因为错误分类的输入也可以生成伪造证书。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。