Skip to main content
QUICK REVIEW

[论文解读] Accurate, reliable and fast robustness evaluation

Wieland Brendel, Jonas Rauber|arXiv (Cornell University)|Jul 1, 2019
Adversarial Robustness in Machine Learning参考文献 25被引用 31
一句话总结

本文提出了一类新型基于梯度的对抗攻击方法,在 $L_0$、$L_1$、$L_2$ 和 $L_\infty$ 范数下,其攻击成功率、查询效率以及对超参数调优的鲁棒性均优于当前最先进方法。该方法通过从远离对抗样本的点沿对抗边界移动,保持了可靠的梯度信息,并仅需极少的超参数调优,显著提升了鲁棒性评估的可靠性。

ABSTRACT

Throughout the past five years, the susceptibility of neural networks to minimal adversarial perturbations has moved from a peculiar phenomenon to a core issue in Deep Learning. Despite much attention, however, progress towards more robust models is significantly impaired by the difficulty of evaluating the robustness of neural network models. Today's methods are either fast but brittle (gradient-based attacks), or they are fairly reliable but slow (score- and decision-based attacks). We here develop a new set of gradient-based adversarial attacks which (a) are more reliable in the face of gradient-masking than other gradient-based attacks, (b) perform better and are more query efficient than current state-of-the-art gradient-based attacks, (c) can be flexibly adapted to a wide range of adversarial criteria and (d) require virtually no hyperparameter tuning. These findings are carefully validated across a diverse set of six different models and hold for L0, L1, L2 and Linf in both targeted as well as untargeted scenarios. Implementations will soon be available in all major toolboxes (Foolbox, CleverHans and ART). We hope that this class of attacks will make robustness evaluations easier and more reliable, thus contributing to more signal in the search for more robust machine learning models.

研究动机与目标

  • 为解决深度神经网络中不可靠且低效的鲁棒性评估这一关键挑战。
  • 克服现有基于梯度的攻击方法的局限性,例如梯度遮蔽以及对超参数的敏感性。
  • 开发一种在保持高攻击成功率的同时更具查询效率且对调优依赖性更低的方法。
  • 提供一种可靠、快速且灵活的工具,用于在多种模型和范数下评估对抗鲁棒性。
  • 使研究者能够更准确地区分文献中有效与无效的防御方法。

提出的方法

  • 该攻击从一个远离的对抗样本出发,沿对抗边界向干净输入方向移动,确保始终处于具有可靠梯度信息的区域。
  • 在每一步中,通过求解一个二次优化问题,基于给定的 $L_p$ 范数和像素边界,利用边界的局部平面近似,找到最优下降方向。
  • 该方法使用梯度估计来近似对抗与非对抗区域之间的边界,避免依赖代理损失函数。
  • 引入单一信任区域超参数,消除了 C&W 中常见的权衡参数或 PGD 中固定范数球的需要。
  • 只要边界能以可微等式约束描述,该算法即可适应多种对抗攻击目标。
  • 设计上具有查询效率高且对次优超参数设置具有鲁棒性,几乎无需调优。

实验结果

研究问题

  • RQ1基于梯度的攻击是否能在不进行大量超参数调优的情况下,于多种 $L_p$ 范数下实现高于 PGD 和 C&W 的攻击成功率?
  • RQ2该方法在对抗训练模型上的表现如何?此类模型通常被认为难以攻击。
  • RQ3与 C&W 和 PGD 相比,该方法在超参数设置次优时的鲁棒性如何?
  • RQ4当攻击沿对抗边界进行而非从邻近起点开始时,该方法是否仍能保持高查询效率?
  • RQ5该方法是否足够灵活,可适用于多种模型和数据集中的定向与非定向攻击场景?

主要发现

  • 所提出的攻击在所有 $L_p$ 范数($L_0$、$L_1$、$L_2$、$L_\infty$)下,无论在定向还是非定向设置中,其攻击成功率均优于 PGD 和 C&W。
  • 在约 10 次查询后,该方法的攻击成功率高于 PGD 和 AdamPGD,尽管 PGD 初始阶段因更快发现边界而略有优势。
  • 该攻击对超参数调优具有极高的鲁棒性:信任区域变化两个数量级时,性能下降不足 15%;相比之下,C&W 在单个数量级偏差下性能下降接近 50%。
  • 即使仅进行一次重复且仅使用一个超参数,该方法仍能保持高性能,优于 C&W 和 PGD 在此类设置下的表现。
  • 该攻击在对抗训练模型(如 Madry-MNIST)上尤为有效,展现出卓越的鲁棒性评估能力。
  • 该方法几乎无需超参数调优,单一信任区域值在所有测试模型中均表现良好。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。