[论文解读] Sign-OPT: A Query-Efficient Hard-label Adversarial Attack
本文提出 Sign-OPT,一种查询效率更高的硬标签黑盒对抗攻击方法,利用单次查询的 oracle 来估计方向导数的符号,从而在比当前最先进方法快 5–10 倍的查询次数下实现更快收敛。该方法在 MNIST、CIFAR-10 和 ImageNet 上实现了更小的扰动,并始终优于现有方法。
We study the most practical problem setup for evaluating adversarial robustness of a machine learning system with limited access: the hard-label black-box attack setting for generating adversarial examples, where limited model queries are allowed and only the decision is provided to a queried data input. Several algorithms have been proposed for this problem but they typically require huge amount (>20,000) of queries for attacking one example. Among them, one of the state-of-the-art approaches (Cheng et al., 2019) showed that hard-label attack can be modeled as an optimization problem where the objective function can be evaluated by binary search with additional model queries, thereby a zeroth order optimization algorithm can be applied. In this paper, we adopt the same optimization formulation but propose to directly estimate the sign of gradient at any direction instead of the gradient itself, which enjoys the benefit of single query. Using this single query oracle for retrieving sign of directional derivative, we develop a novel query-efficient Sign-OPT approach for hard-label black-box attack. We provide a convergence analysis of the new algorithm and conduct experiments on several models on MNIST, CIFAR-10 and ImageNet. We find that Sign-OPT attack consistently requires 5X to 10X fewer queries when compared to the current state-of-the-art approaches, and usually converges to an adversarial example with smaller perturbation.
研究动机与目标
- 为解决在仅可访问模型预测结果(而非 logits 或概率)的硬标签黑盒对抗攻击中查询效率的问题。
- 减少生成对抗样本所需的查询次数,这对实际且隐蔽的攻击至关重要。
- 开发一种新颖的优化方法,仅通过每次评估一次查询即可利用方向导数的符号信息。
- 为所提出的 Sign-OPT 算法在硬标签设置下的理论收敛性提供保证。
- 通过实证结果证明其在查询效率和扰动幅度方面优于现有方法。
提出的方法
- 该方法采用 Cheng 等人(2019)的公式,将硬标签攻击重新表述为一个平滑优化问题,从而支持基于梯度的优化。
- 提出一种新颖的单次查询 oracle,通过比较两个符号相反的扰动输入上的模型预测结果,来估计方向导数的符号。
- 该算法将此符号 oracle 集成到零阶优化框架中,具体采用一种结合了随机方向向量大小的 signSGD 变体。
- 优化过程通过迭代更新扰动来实现,利用估计的方向梯度符号进行更新,并在适当假设下提供了收敛性分析。
- 该方法避免了函数评估中的二分查找,将每次迭代的查询成本从数十次降低至仅一次查询。
- 该算法被应用于攻击 MNIST、CIFAR-10 和 ImageNet 上的模型,并与 Boundary、OPT 及基于 ZO-SignSGD 的攻击方法进行比较。
实验结果
研究问题
- RQ1是否可以仅通过一次模型查询来估计硬标签黑盒攻击中方向导数的符号?
- RQ2使用单次查询符号 oracle 是否能显著减少对抗攻击的总查询次数?
- RQ3所提出的 Sign-OPT 方法是否能在更小的扰动(更低的 $L_2$ 失真)下优于现有查询效率高的攻击方法?
- RQ4Sign-OPT 在硬标签设置下的收敛行为与现有零阶优化方法相比如何?
- RQ5单次查询符号 oracle 是否能普遍提升其他基于优化的攻击方法在硬标签设置下的性能?
主要发现
- 与当前最先进的 OPT 攻击相比,Sign-OPT 在 MNIST、CIFAR-10 和 ImageNet 上将查询次数减少了 5–10 倍。
- 在 MNIST 上,Sign-OPT 以 14,000 次查询实现 94% 的成功率,平均 $L_2$ 失真为 1.09,优于 OPT 和 Boundary 攻击。
- 在 CIFAR-10 上,Sign-OPT 以 12,000 次查询实现 95% 的成功率,平均 $L_2$ 失真为 0.13,显著低于 OPT 和 Boundary 攻击。
- 在 ImageNet(ResNet-50)上,Sign-OPT 以 160,000 次查询实现 90% 的成功率,平均 $L_2$ 失真为 1.21,而 OPT 在相同查询预算下为 4.27。
- 单次查询符号 oracle 不仅提升了 Sign-OPT,还改善了 ZO-SignSGD 等其他方法,证明了其通用有效性。
- 即使在查询次数相等的情况下,Sign-OPT 仍能持续找到比先前方法更小扰动的对抗样本。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。