[论文解读] Query-Efficient Hard-label Black-box Attack:An Optimization-based Approach
引入一种基于优化框架的硬标签黑盒对抗攻击方法,该方法在避免使用梯度的同时提供收敛性保证,并在 MNIST、CIFAR 和 ImageNet 上针对 CNNs 和 GBDT 展现了查询有效的成功案例。
We study the problem of attacking a machine learning model in the hard-label black-box setting, where no model information is revealed except that the attacker can make queries to probe the corresponding hard-label decisions. This is a very challenging problem since the direct extension of state-of-the-art white-box attacks (e.g., CW or PGD) to the hard-label black-box setting will require minimizing a non-continuous step function, which is combinatorial and cannot be solved by a gradient-based optimizer. The only current approach is based on random walk on the boundary, which requires lots of queries and lacks convergence guarantees. We propose a novel way to formulate the hard-label black-box attack as a real-valued optimization problem which is usually continuous and can be solved by any zeroth order optimization algorithm. For example, using the Randomized Gradient-Free method, we are able to bound the number of iterations needed for our algorithm to achieve stationary points. We demonstrate that our proposed method outperforms the previous random walk approach to attacking convolutional neural networks on MNIST, CIFAR, and ImageNet datasets. More interestingly, we show that the proposed algorithm can also be used to attack other discrete and non-continuous machine learning models, such as Gradient Boosting Decision Trees (GBDT).
研究动机与目标
- 在硬标签黑盒设置下,模型仅能观察到最终决策,从而动机说明其脆弱性。
- 将硬标签攻击重新表述为一个连续的实值优化问题,以便采用 zeroth-order 优化。
- 提供一个具有收敛性保证的理论基础算法,用于在有限查询下找到对抗样本。
- 在 CNNs 和 Gradient Boosting Decision Trees (GBDT) 上展示有效性与查询效率。
提出的方法
- 将攻击重新表述为一个边界基的实值目标函数 g(θ),它将搜索方向映射到沿该方向到最近对抗样本的距离。
- 通过一个两阶段过程使用硬标签查询来计算 g(θ):在 θ 方向上进行细粒度搜索和二分搜索以定位决策边界。
- 应用 Randomized Gradient-Free (RGF) 优化以最小化 g(θ) 对 θ 的影响,使用基于 g 的嘈杂评估的零阶梯度估计。
- 在每次迭代中使用多次随机高斯扰动来稳定梯度估计,并通过回溯线搜索来调整步长。
- 给出理论收敛保证:在 ∇g 满足 Lipschitz 条件且评估误差 ε 在受控范围内的前提下,该算法在 O(d/δ^2) 次迭代中达到近似驻点。
- 证明该方法不仅适用于神经网络,还可扩展到离散模型如 Gradient Boosting Decision Trees (GBDT)。
实验结果
研究问题
- RQ1硬标签黑盒对抗攻击是否能够被表述为一个适合 zeroth-order 方法的实值优化问题?
- RQ2在此设定下使用 Randomized Gradient-Free 优化时的收敛性保证和查询复杂度是多少?
- RQ3与现有的基于决策的黑盒攻击相比,该方法在扭曲度和查询效率方面的表现如何?
- RQ4该方法是否适用于非可微模型如 GBDT,在严格的查询预算下能找到哪些对抗样本?
主要发现
- 边界基重述 g(θ) 提供了一个适合 zeroth-order 优化的连续目标。
- 在 Lipschitz 梯度假设和受控误差下,RGF 结合近似函数评估能够收敛到驻点。
- 在未定向场景中,该方法在 MNIST、CIFAR-10、ImageNet 上的对比攻击中,以更少的查询实现了更低或相当的扭曲度。
- 在定向攻击中,该方法在 MNIST 和 CIFAR-10 上以更少的查询达到具有竞争力的扭曲度,在 ImageNet 上在更多查询情况下仍然可行。
- 该方法以约 30,000 次查询成功攻击 Gradient Boosting Decision Trees (GBDT),显示了对非可微模型的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。