Skip to main content
QUICK REVIEW

[论文解读] Evaluating and Understanding the Robustness of Adversarial Logit Pairing

Logan Engstrom, Andrew Ilyas|arXiv (Cornell University)|Jul 26, 2018
Adversarial Robustness in Machine Learning参考文献 11被引用 85
一句话总结

本文在 ImageNet 上的白盒定向攻击中评估 Adversarial Logit Pairing (ALP) 的鲁棒性,结果显示 ALP 并不鲁棒,且可被强的 PGD 攻击绕过;还分析 ALP 的目标函数和损失景观。

ABSTRACT

We evaluate the robustness of Adversarial Logit Pairing, a recently proposed defense against adversarial examples. We find that a network trained with Adversarial Logit Pairing achieves 0.6% accuracy in the threat model in which the defense is considered. We provide a brief overview of the defense and the threat models/claims considered, as well as a discussion of the methodology and results of our attack, which may offer insights into the reasons underlying the vulnerability of ALP to adversarial attack.

研究动机与目标

  • 评估 Adversarial Logit Pairing (ALP) 在 ImageNet 上白盒定向对抗攻击下的鲁棒性。
  • 将 ALP 声称的鲁棒性与经验性攻击进行比较,并给出攻击成功的上界。
  • 分析 ALP 的损失公式相对于鲁棒优化(Madry 等人)的差异。
  • 检查 ALP 引入的损失景观和攻击收敛行为,以理解脆弱性。
  • 提出基于经验鲁棒性和损失景观分析的对抗性防御评估方法。

提出的方法

  • 使用投影梯度下降(PGD)最多 1000 步来复现并扩展 ALP 的评估。
  • 评估有目标和无目标攻击,并在扰动下测量攻击者成功率和模型准确性。
  • 在不同扰动预算(ε)下,将 ALP 训练的模型与基线(自然训练)模型进行比较。
  • 分析 ALP 损失目标与 Madry 等人(Equation 1)中的鲁棒优化目标的对比。
  • 对测试点周围的损失景观进行可视化,以表征 ALP 诱导的优化地形。
  • 检查攻击收敛行为以评估基于梯度的鲁棒性。

实验结果

研究问题

  • RQ1在标准扰动下,ALP 对 ImageNet 的白盒定向对抗攻击有多鲁棒?
  • RQ2随着扰动强度的增加,ALP 与基线模型在攻击者成功率和模型准确性上有何比较?
  • RQ3ALP 的损失公式与 Madry 等人的鲁棒优化目标有何不同?
  • RQ4ALP 会引入哪些损失景观特征,它们如何影响攻击收敛?
  • RQ5经验鲁棒性分析与损失景观可否作为对抗性防御的通用评估工具?

主要发现

  • 在 epsilon = 16/255 的白盒定向攻击下,攻击成功率为 98.6%,ALP 的准确度为 0.6%。
  • 在 epsilon = 16/255 的无目标攻击下,ALP 的准确性下降到 0.1%。
  • ALP 目标函数与鲁棒优化目标的区别在于在自然输入上进行训练,并在训练期间使用定向对抗样本。
  • ALP 的损失景观可能更颠簸且局部下沉,表明输入周围的优化动力学被改变。
  • 对 ALP 的攻击收敛需要更多的梯度步数,但最终仍能击败防御。
  • 作者提供了评估代码库,并建议将他们的方法作为评估对抗性防御的一般做法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。