[论文解读] Black-box Adversarial Attacks with Bayesian Optimization
该论文提出 Bayes-Attack,一种基于贝叶斯优化(BO)在低维潜在空间中进行查询高效的黑盒对抗攻击方法,结合最近邻上采样技术生成对抗样本。该方法在最多减少 80% 查询次数的情况下实现了最先进(SOTA)的成功率,尤其在严格查询预算(100–200 次查询)下表现优异。
We focus on the problem of black-box adversarial attacks, where the aim is to generate adversarial examples using information limited to loss function evaluations of input-output pairs. We use Bayesian optimization~(BO) to specifically cater to scenarios involving low query budgets to develop query efficient adversarial attacks. We alleviate the issues surrounding BO in regards to optimizing high dimensional deep learning models by effective dimension upsampling techniques. Our proposed approach achieves performance comparable to the state of the art black-box adversarial attacks albeit with a much lower average query count. In particular, in low query budget regimes, our proposed method reduces the query count up to $80\%$ with respect to the state of the art methods.
研究动机与目标
- 为解决在极端有限查询预算下黑盒对抗攻击的挑战,现有方法通常需要数万个查询。
- 通过利用已知可最小化函数评估次数的贝叶斯优化技术,提升黑盒攻击的查询效率。
- 弥合高维深度学习输入与贝叶斯优化实际限制之间的差距,后者在高维搜索空间中表现不佳。
- 评估标准贝叶斯优化方法(结合有效的降维与上采样技术)是否可作为低查询黑盒攻击的强基线。
提出的方法
- 该方法在从输入图像导出的低维潜在空间中执行贝叶斯优化,显著降低搜索维度。
- 采用最近邻上采样技术将优化后的潜在扰动映射回原始输入空间,同时保持对抗性属性。
- 攻击框架仅依赖损失函数评估(如 logits 或预测结果),适用于无梯度访问的黑盒设置。
- 使用高斯过程代理模型与采集函数(如期望改进)优化潜在空间,实现查询高效的搜索。
- 该方法应用于 ImageNet 和 MNIST 分类器,使用预训练模型和标准对抗攻击协议,设置 ℓ∞ 约束。
- 在 MNIST 上,比较了多种上采样方法(包括 VAE 和自编码器),最近邻方法在无需大规模预训练数据的情况下表现出色。
实验结果
研究问题
- RQ1贝叶斯优化能否有效适配于高维输入空间中,以生成查询高效的黑盒对抗攻击?
- RQ2上采样方法的选择(如最近邻 vs. VAE)如何影响攻击的成功率与查询效率?
- RQ3在黑盒对抗攻击中,贝叶斯优化的最优潜在维度是多少?其对性能有何影响?
- RQ4在低查询预算下,简单的标准 BO 方法是否能超越更复杂、专门设计的查询高效攻击方法?
- RQ5所提方法是否在大幅降低平均与中位查询次数的同时,实现与最先进基线相当或更优的成功率?
主要发现
- 在 ImageNet 上,查询预算为 200 时,Bayes-Attack 仅用平均 22 次查询与中位 6 次查询,实现了 62.95% 的成功率,比次优方法(Parsimonious)的查询效率高出 80%。
- 在低预算场景(少于 200 次查询)下,Bayes-Attack 相比最先进方法将平均查询次数减少了高达 80%,同时保持或超越其成功率。
- 最近邻上采样在 MNIST 上实现了与基于 VAE 的解码器相当的性能,且无需大规模预训练,更具实用性和效率。
- 该方法在多种架构(包括 ResNet50、Inception-v3 和 VGG16-bn)上均表现出鲁棒性,适用于 ℓ∞ 无目标攻击且 ε=1.0。
- 潜在维度分析表明,较低维度(如 d′=16)优于较高维度(如 d′=256),而 d′=9 过低,难以找到有效扰动。
- 结果表明,贝叶斯优化应被视为黑盒对抗攻击的基准方法,尤其在低查询设置下。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。