[论文解读] HopSkipJumpAttack: A Query-Efficient Decision-Based Attack
本论文提出 HopSkipJumpAttack,一族基于决策的对抗攻击,通过使用二进制信息在决策边界处估计梯度方向,在无目标和有目标攻击在 l2 和 linf 范数下实现高查询效率。
The goal of a decision-based adversarial attack on a trained model is to generate adversarial examples based solely on observing output labels returned by the targeted model. We develop HopSkipJumpAttack, a family of algorithms based on a novel estimate of the gradient direction using binary information at the decision boundary. The proposed family includes both untargeted and targeted attacks optimized for $\ell_2$ and $\ell_\infty$ similarity metrics respectively. Theoretical analysis is provided for the proposed algorithms and the gradient direction estimate. Experiments show HopSkipJumpAttack requires significantly fewer model queries than Boundary Attack. It also achieves competitive performance in attacking several widely-used defense mechanisms. (HopSkipJumpAttack was named Boundary Attack++ in a previous version of the preprint.)
研究动机与目标
- 在仅有预测标签可用的决策威胁模型下,推动对模型进行鲁棒性评估。
- 开发仅使用边界信息来估计梯度方向以构造对抗样本的方法。
- 创建一族无目标(l2)和有目标(linf)的攻击,具备可证明的收敛性质。
- 展示较低的查询复杂度及与常见防御的鲁棒性评估竞争力。
- 为研究者提供实用指导,将该攻击用作防御鲁棒性评估的第一步工具。
提出的方法
- 将基于决策的攻击表述为带有边界指示 S_x*(x) 的优化问题。
- 提出一个迭代算法(HopSkipJumpAttack),在边界投影、梯度方向估计和步长搜索之间交替。
- 利用二进制查询的蒙特卡洛平均,推导在边界处的新颖且渐近无偏的梯度方向估计。
- 引入一个二分搜索程序来逼近决策边界,以及用于步长整定的几何级数进度。
- 通过相应的投影/更新规则将方法扩展到 ell2 与 ell-infinity 距离。
- 引入方差下降基线以提高梯度估计的稳定性。
实验结果
研究问题
- RQ1一个仅凭标签输出来有效地进行对抗样本构造的决策基攻击是否可行?
- RQ2如何在二进制反馈下估计决策边界处的梯度方向?
- RQ3在 ell2 与 ell-infinity 指标下,所提出的 HopSkipJumpAttack 的收敛性保证和查询复杂度是多少?
- RQ4与基线的决策基方法相比,该攻击在对常见防御的表现如何?
主要发现
- HopSkipJumpAttack 在多个数据集上显著减少了对模型的查询次数,优于 Boundary Attack、Opt Attack 与 Limited Attack。
- 在边界处提出的梯度方向估计渐近无偏,并使边界优化变得高效。
- 该算法在无目标与有目标设定下,对 ell2 与 ell-infinity 指标具有具有竞争力或更优的成功率与扰动距离。
- 经验结果显示对防御措施(如防御蒸馏、基于区域的分类、对抗训练以及输入二值化)的鲁棒性评估。
- 该方法提供实用、对超参数依赖低的指南,适合作为第一步的鲁棒性评估工具。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。