[论文解读] Rethinking the Backward Propagation for Adversarial Transferability
论文展示了非线性层中的梯度截断会损害对抗样本的可迁移性,并提出 Backward Propagation Attack (BPA) 通过对 ReLU 使用基于 SiLU 的梯度、对最大池化使用基于 softmax 的梯度来缓解这一问题,从而提升跨模型和跨攻击的可迁移性。
Transfer-based attacks generate adversarial examples on the surrogate model, which can mislead other black-box models without access, making it promising to attack real-world applications. Recently, several works have been proposed to boost adversarial transferability, in which the surrogate model is usually overlooked. In this work, we identify that non-linear layers (e.g., ReLU, max-pooling, etc.) truncate the gradient during backward propagation, making the gradient w.r.t. input image imprecise to the loss function. We hypothesize and empirically validate that such truncation undermines the transferability of adversarial examples. Based on these findings, we propose a novel method called Backward Propagation Attack (BPA) to increase the relevance between the gradient w.r.t. input image and loss function so as to generate adversarial examples with higher transferability. Specifically, BPA adopts a non-monotonic function as the derivative of ReLU and incorporates softmax with temperature to smooth the derivative of max-pooling, thereby mitigating the information loss during the backward propagation of gradients. Empirical results on the ImageNet dataset demonstrate that not only does our method substantially boost the adversarial transferability, but it is also general to existing transfer-based attacks. Code is available at https://github.com/Trustworthy-AI-Group/RPA.
研究动机与目标
- 识别反向传播过程中的非线性层如何截断梯度并因此损害对抗样本的可迁移性。
- 提出 BPA 以保留梯度信息并改善跨模型的可迁移性。
- 在 ImageNet 上对无目标和有目标攻击以及针对防御的情形,验证 BPA 的有效性。
提出的方法
- 展示反向传播过程中 ReLU 和最大池化导致的梯度截断抑制了损失对输入的相关性。
- 提出 Backward Propagation Attack (BPA) 以通过以下方式缓解截断:a) 对 ReLU 的反向计算使用 SiLU 的导数;b) 使用带温度参数的 softmax 来计算最大池化的导数。
- 给出修改后梯度的公式:将 ReLU 梯度替换为基于 SiLU 的导数 ∂zi+1/∂zi = σ(zi) · (1 + zi · (1 − σ(zi)));在每个窗口内通过 softmax 计算最大池化的梯度:∂zk+1/∂zk = exp(t · zk,i,j) / sum_{υ∈w} exp(t · υ) ,其中 t 为温度。
- 通过在 ImageNet 上对多种代理模型和 victim 模型进行广泛实验来验证 BPA。
- 将 BPA 与基线方法 SGM、LinBP、Ghost 进行比较,显示 BPA 在无目标和有目标情境下提升攻击的可迁移性。
实验结果
研究问题
- RQ1非线性层的梯度截断是否会降低在模型之间的对抗样本可迁移性?
- RQ2通过修改反向传播以保留梯度信息是否能改善对抗样本的可迁移性?
- RQ3BPA 在 ImageNet 上对无目标和有目标攻击以及对防御的表现如何?
主要发现
- BPA 在 ImageNet 的九个 victim 模型上持续优于基线,提升可迁移性。
- 在无目标攻击(PGD、MI-FGSM、VMI-FGSM、ILA、SSA)中,BPA 相较现有基于模型的方法取得显著提升。
- BPA 在优化 logit 损失时也能提升有目标攻击的效果,优于所有基线。
- 消融研究显示修改最后一层 ReLU 能显著提升可迁移性,且将 ReLU 与最大池化的修改结合可获得最佳结果。
- BPA 提升了对如 HGD、R&P、NIPS-r3、JPEG、RS、NRP 等防御的对抗鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。