QUICK REVIEW

[论文解读] Evaluating and Understanding the Robustness of Adversarial Logit Pairing

Logan Engstrom, Andrew Ilyas|arXiv (Cornell University)|Jul 26, 2018

Adversarial Robustness in Machine Learning参考文献 11被引用 85

一句话总结

本文在 ImageNet 上的白盒定向攻击中评估 Adversarial Logit Pairing (ALP) 的鲁棒性，结果显示 ALP 并不鲁棒，且可被强的 PGD 攻击绕过；还分析 ALP 的目标函数和损失景观。

ABSTRACT

We evaluate the robustness of Adversarial Logit Pairing, a recently proposed defense against adversarial examples. We find that a network trained with Adversarial Logit Pairing achieves 0.6% accuracy in the threat model in which the defense is considered. We provide a brief overview of the defense and the threat models/claims considered, as well as a discussion of the methodology and results of our attack, which may offer insights into the reasons underlying the vulnerability of ALP to adversarial attack.

研究动机与目标

评估 Adversarial Logit Pairing (ALP) 在 ImageNet 上白盒定向对抗攻击下的鲁棒性。
将 ALP 声称的鲁棒性与经验性攻击进行比较，并给出攻击成功的上界。
分析 ALP 的损失公式相对于鲁棒优化（Madry 等人）的差异。
检查 ALP 引入的损失景观和攻击收敛行为，以理解脆弱性。
提出基于经验鲁棒性和损失景观分析的对抗性防御评估方法。

提出的方法

使用投影梯度下降（PGD）最多 1000 步来复现并扩展 ALP 的评估。
评估有目标和无目标攻击，并在扰动下测量攻击者成功率和模型准确性。
在不同扰动预算（ε）下，将 ALP 训练的模型与基线（自然训练）模型进行比较。
分析 ALP 损失目标与 Madry 等人（Equation 1）中的鲁棒优化目标的对比。
对测试点周围的损失景观进行可视化，以表征 ALP 诱导的优化地形。
检查攻击收敛行为以评估基于梯度的鲁棒性。

实验结果

研究问题

RQ1在标准扰动下，ALP 对 ImageNet 的白盒定向对抗攻击有多鲁棒？
RQ2随着扰动强度的增加，ALP 与基线模型在攻击者成功率和模型准确性上有何比较？
RQ3ALP 的损失公式与 Madry 等人的鲁棒优化目标有何不同？
RQ4ALP 会引入哪些损失景观特征，它们如何影响攻击收敛？
RQ5经验鲁棒性分析与损失景观可否作为对抗性防御的通用评估工具？

主要发现

在 epsilon = 16/255 的白盒定向攻击下，攻击成功率为 98.6%，ALP 的准确度为 0.6%。
在 epsilon = 16/255 的无目标攻击下，ALP 的准确性下降到 0.1%。
ALP 目标函数与鲁棒优化目标的区别在于在自然输入上进行训练，并在训练期间使用定向对抗样本。
ALP 的损失景观可能更颠簸且局部下沉，表明输入周围的优化动力学被改变。
对 ALP 的攻击收敛需要更多的梯度步数，但最终仍能击败防御。
作者提供了评估代码库，并建议将他们的方法作为评估对抗性防御的一般做法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。