[论文解读] Hybrid Batch Attacks: Finding Black-box Adversarial Examples with Limited Queries
本文将基于迁移的和基于优化的黑盒攻击结合为混合攻击,通过从本地模型对手的对抗样本开始优化并用优化结果对本地模型进行调整,显著降低查询成本并提高成功率。
We study adversarial examples in a black-box setting where the adversary only has API access to the target model and each query is expensive. Prior work on black-box adversarial examples follows one of two main strategies: (1) transfer attacks use white-box attacks on local models to find candidate adversarial examples that transfer to the target model, and (2) optimization-based attacks use queries to the target model and apply optimization techniques to search for adversarial examples. We propose hybrid attacks that combine both strategies, using candidate adversarial examples from local models as starting points for optimization-based attacks and using labels learned in optimization-based attacks to tune local models for finding transfer candidates. We empirically demonstrate on the MNIST, CIFAR10, and ImageNet datasets that our hybrid attack strategy reduces cost and improves success rates. We also introduce a seed prioritization strategy which enables attackers to focus their resources on the most promising seeds. Combining hybrid attacks with our seed prioritization strategy enables batch attacks that can reliably find adversarial examples with only a handful of queries.
研究动机与目标
- 在实际约束条件下理解黑盒对抗攻击的查询效率。
- 提出利用本地模型起点和基于优化的细化的混合攻击。
- 研究种子优先级排序,以在有限查询下实现批量攻击。
- 在 MNIST、 CIFAR-10 和 ImageNet 上对普通目标和图像鲁棒目标评估效果。
提出的方法
- 使用本地模型的集合通过白盒攻击生成候选对抗样本。
- 从本地候选样本出发进行黑盒优化,以对目标模型设计对抗样本。
- 使用在优化过程中生成的带标签输入重新训练或微调本地模型,以提高迁移性。
- 引入种子优先化策略,在批量设置中将查询聚焦于最有前景的种子。
- 衡量在 MNIST、CIFAR-10 和 ImageNet 上攻击成功率和查询成本的改进。
实验结果
研究问题
- RQ1将迁移攻击与优化攻击混合是否能够在黑盒设置中减少找到对抗样本所需的查询次数?
- RQ2来自本地模型的候选对抗样本是否是优化攻击的更好起点?
- RQ3基于优化得到的标签是否能改进本地模型以增强对目标模型的迁移性?
- RQ4在有限查询预算下,种子优先化在批量攻击中的效果如何?
主要发现
- 混合攻击在 MNIST、CIFAR-10 和 ImageNet 上相比纯迁移或纯优化方法提升了成功率并降低了查询成本。
- 从本地模型对抗样本出发进行优化显著降低了每个对抗样本的查询数和每个种子的查询数。
- 用于微调本地模型的优化得到的标签在许多情况下提升了迁移性。
- 种子优先化在批量攻击中大幅度降低查询量(例如,在 ImageNet 上从 100 个种子中寻找 10 个对抗样本时的显著节省)。
- 对于 ImageNet,单一本地模型的基线迁移率甚至低至 3.4%,而混合攻击在显著减少查询量的同时接近 100% 的成功率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。