[论文解读] Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks
本文介绍 AutoAttack,一种参数无关的多种攻击组合(APGD CE、APGD DLR、FAB、Square Attack),在不进行超参数调优的情况下可靠评估对抗性鲁棒性,并展示其能够识别超过 50 个模型中较弱的防御。
The field of defense strategies against adversarial attacks has significantly grown over the last years, but progress is hampered as the evaluation of adversarial defenses is often insufficient and thus gives a wrong impression of robustness. Many promising defenses could be broken later on, making it difficult to identify the state-of-the-art. Frequent pitfalls in the evaluation are improper tuning of hyperparameters of the attacks, gradient obfuscation or masking. In this paper we first propose two extensions of the PGD-attack overcoming failures due to suboptimal step size and problems of the objective function. We then combine our novel attacks with two complementary existing ones to form a parameter-free, computationally affordable and user-independent ensemble of attacks to test adversarial robustness. We apply our ensemble to over 50 models from papers published at recent top machine learning and computer vision venues. In all except one of the cases we achieve lower robust test accuracy than reported in these papers, often by more than $10\%$, identifying several broken defenses.
研究动机与目标
- 动机与修正因超参数调优和攻击弱点导致的对抗性防御评估不可靠的问题。
- 提出一个强健的、参数无关的评估协议,结合互补的攻击。
- 表明该集合在鲁棒性上的准确率低于顶级会议报道的许多防御,凸显出已失效的防御。
- 展示在数据集(MNIST、CIFAR-10/100、ImageNet)和威胁模型(l_infty、l_2)上的可扩展性与普遍性。
提出的方法
- 将 PGD 扩展为 Auto-PGD(APGD),消除选择步长的需要以及对步长进行预算感知自适应。
- 引入一种损失函数变体(DLR 损失),其对平移与重新缩放不变,以减轻梯度掩蔽效应。
- 将 APGD CE、APGD DLR 与白盒 FAB 和黑盒 Square Attack 结合成一个名为 AutoAttack 的参数无关集成。
- 使用固定的迭代与重启预算,确保跨模型和数据集的参数无关运行。
- 攻击变体包括 APGD CE、APGD T DLR(定向)、FAB T 和 Square Attack,每次运行 100 次迭代。
- AutoAttack 选择其组成攻击中的最劣鲁棒准确率来估计鲁棒性。
实验结果
研究问题
- RQ1一个参数无关的攻击集合是否能够在不同模型和数据集上可靠地估计对抗性鲁棒性?
- RQ2较新的 PGD 变体(APGD)与梯度不变损失(DLR)是否在攻击效果和鲁棒性估计方面优于标准 PGD?
- RQ3将 APGD CE、APGD DLR、FAB 与 Square Attack 结合是否足以揭示之前被报道为鲁棒的防御的薄弱环节?
- RQ4AutoAttack 在 MNIST、CIFAR-10/100、ImageNet 的 l_infty 和 l_2 威胁模型下的表现如何?
- RQ5该集合是否能够识别出失效的防御并降低对已评审论文中鲁棒性过高的估计?
主要发现
- AutoAttack 相对文献中报道的许多防御降低鲁棒性,在大多数情况下下降超过 10 个点。
- 在多个模型上,APGD 在 CE、CW 和 DLR 损失下的表现优于带动量的标准 PGD。
- DLR 损失比交叉熵更稳定,且常与 CW 损失相当,失效情况较少。
- 在 CIFAR-10/ImageNet 基准上,APGD DLR 的定向版本和 FAB 的定向版本通常比非定向变体产生更强的攻击和更低的鲁棒性。
- 在 50+ 个分类器、来自 35 种防御的场景中,AutoAttack 使用有限的预算且无需超参数调优,提供可靠的鲁棒性估计。
- AutoAttack 识别出若干失效的防护,并为新防御提供一个实用的最小测试。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。