QUICK REVIEW
[论文解读] Evaluating and Understanding the Robustness of Adversarial Logit Pairing
Logan Engstrom, Andrew Ilyas|arXiv (Cornell University)|Jul 26, 2018
Adversarial Robustness in Machine Learning参考文献 11被引用 85
一句话总结
本文在 ImageNet 上的白盒定向攻击中评估 Adversarial Logit Pairing (ALP) 的鲁棒性,结果显示 ALP 并不鲁棒,且可被强的 PGD 攻击绕过;还分析 ALP 的目标函数和损失景观。
ABSTRACT
We evaluate the robustness of Adversarial Logit Pairing, a recently proposed defense against adversarial examples. We find that a network trained with Adversarial Logit Pairing achieves 0.6% accuracy in the threat model in which the defense is considered. We provide a brief overview of the defense and the threat models/claims considered, as well as a discussion of the methodology and results of our attack, which may offer insights into the reasons underlying the vulnerability of ALP to adversarial attack.
研究动机与目标
- 评估 Adversarial Logit Pairing (ALP) 在 ImageNet 上白盒定向对抗攻击下的鲁棒性。
- 将 ALP 声称的鲁棒性与经验性攻击进行比较,并给出攻击成功的上界。
- 分析 ALP 的损失公式相对于鲁棒优化(Madry 等人)的差异。
- 检查 ALP 引入的损失景观和攻击收敛行为,以理解脆弱性。
- 提出基于经验鲁棒性和损失景观分析的对抗性防御评估方法。
提出的方法
- 使用投影梯度下降(PGD)最多 1000 步来复现并扩展 ALP 的评估。
- 评估有目标和无目标攻击,并在扰动下测量攻击者成功率和模型准确性。
- 在不同扰动预算(ε)下,将 ALP 训练的模型与基线(自然训练)模型进行比较。
- 分析 ALP 损失目标与 Madry 等人(Equation 1)中的鲁棒优化目标的对比。
- 对测试点周围的损失景观进行可视化,以表征 ALP 诱导的优化地形。
- 检查攻击收敛行为以评估基于梯度的鲁棒性。
实验结果
研究问题
- RQ1在标准扰动下,ALP 对 ImageNet 的白盒定向对抗攻击有多鲁棒?
- RQ2随着扰动强度的增加,ALP 与基线模型在攻击者成功率和模型准确性上有何比较?
- RQ3ALP 的损失公式与 Madry 等人的鲁棒优化目标有何不同?
- RQ4ALP 会引入哪些损失景观特征,它们如何影响攻击收敛?
- RQ5经验鲁棒性分析与损失景观可否作为对抗性防御的通用评估工具?
主要发现
- 在 epsilon = 16/255 的白盒定向攻击下,攻击成功率为 98.6%,ALP 的准确度为 0.6%。
- 在 epsilon = 16/255 的无目标攻击下,ALP 的准确性下降到 0.1%。
- ALP 目标函数与鲁棒优化目标的区别在于在自然输入上进行训练,并在训练期间使用定向对抗样本。
- ALP 的损失景观可能更颠簸且局部下沉,表明输入周围的优化动力学被改变。
- 对 ALP 的攻击收敛需要更多的梯度步数,但最终仍能击败防御。
- 作者提供了评估代码库,并建议将他们的方法作为评估对抗性防御的一般做法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。