[论文解读] Output Diversified Initialization for Adversarial Attacks
本文提出输出多样化采样(ODS),一种基于梯度的初始化策略,在对抗攻击初始化阶段最大化目标模型的输出多样性。通过生成促使模型产生多样化预测的扰动,ODS 提升了白盒与黑盒攻击的效率,在 ImageNet 上将查询次数减少高达 50%。
Adversarial attacks often involve random perturbations of the inputs drawn from uniform or Gaussian distributions, e.g., to initialize optimization-based white-box attacks or generate update directions in black-box attacks. These simple perturbations, however, could be sub-optimal as they are agnostic to the model being attacked. To improve the efficiency of these attacks, we propose Output Diversified Sampling (ODS), a novel sampling strategy that attempts to maximize diversity in the target model's outputs among the generated samples. While ODS is a gradient-based strategy, the diversity offered by ODS is transferable and can be helpful for both white-box and black-box attacks via surrogate models. Empirically, we demonstrate that ODS significantly improves the performance of existing white-box and black-box attacks. In particular, ODS reduces the number of queries needed for state-of-the-art black-box attacks on ImageNet by a factor of two.
研究动机与目标
- 解决标准随机扰动在对抗攻击中缺乏模型感知初始化所导致的低效问题。
- 通过在初始扰动中利用输出多样性,提升白盒与黑盒对抗攻击的性能。
- 开发一种可跨攻击类型迁移的基于梯度的采样策略,即使在使用替代模型时也有效。
- 减少黑盒攻击中所需的查询次数,特别是在 ImageNet 等大规模数据集上。
提出的方法
- ODS 通过优化目标模型在多个样本上的输出 logits 的高多样性来生成初始扰动。
- 它使用基于梯度的优化方法,采样能最大化模型预测熵或方差的扰动。
- 该方法设计为与白盒和黑盒攻击框架兼容,尤其适用于依赖替代模型的场景。
- ODS 在初始化后无需访问真实模型的梯度,因此适用于查询高效的黑盒攻击。
- 多样性目标基于模型的输出概率或 logits 计算,以鼓励探索不同的误分类方向。
- 该方法对后续使用的具体攻击算法保持无关性,支持即插即用的集成。
实验结果
研究问题
- RQ1初始扰动中的输出多样性是否能提升对抗攻击的成功率?
- RQ2与标准随机初始化相比,ODS 在黑盒攻击中的查询效率如何?
- RQ3ODS 所诱导的多样性在不同攻击设置和替代模型之间具有多大程度的可迁移性?
- RQ4ODS 是否能有效提升大规模基准测试(如 ImageNet)上的攻击性能?
- RQ5ODS 是否能与现有的白盒和黑盒攻击方法有效结合?
主要发现
- ODS 显著提升了 SOTA 黑盒攻击在 ImageNet 上的查询效率,将查询次数减少了一半。
- 促进多样性的初始化策略在白盒与黑盒攻击场景中均实现了更快的收敛速度和更高的成功率。
- 即使在黑盒攻击中使用替代模型,ODS 依然有效,表现出强大的可迁移性。
- 该方法在攻击阶段无需额外的梯度计算即可提升攻击性能。
- 实证结果证实,初始扰动中的输出多样性能带来更有效的对抗方向探索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。