[论文解读] Transfer of Adversarial Robustness Between Perturbation Types
本文研究了在深度神经网络中,对抗性鲁棒性是否在不同扰动类型(例如,$L_∞$、$L_2$、$L_1$、弹性形变、JPEG)之间具有迁移性。基于一个100类ImageNet子集进行对抗性训练,结果表明,对某一类扰动的鲁棒性并不能可靠地迁移到其他类型,且针对某些类型(如弹性形变)进行鲁棒性训练甚至可能降低对其他类型的鲁棒性。主要贡献在于建议在多种扰动类型和大小下评估防御方法,以确保全面的鲁棒性评估。
We study the transfer of adversarial robustness of deep neural networks between different perturbation types. While most work on adversarial examples has focused on $L_\infty$ and $L_2$-bounded perturbations, these do not capture all types of perturbations available to an adversary. The present work evaluates 32 attacks of 5 different types against models adversarially trained on a 100-class subset of ImageNet. Our empirical results suggest that evaluating on a wide range of perturbation sizes is necessary to understand whether adversarial robustness transfers between perturbation types. We further demonstrate that robustness against one perturbation type may not always imply and may sometimes hurt robustness against other perturbation types. In light of these results, we recommend evaluation of adversarial defenses take place on a diverse range of perturbation types and sizes.
研究动机与目标
- 研究在一种扰动类型上训练的对抗性鲁棒性是否能泛化到其他自然扰动类型。
- 评估不同扰动幅度($\varepsilon$)对不同攻击类型之间鲁棒性迁移的影响。
- 评估针对特定攻击(如 $L_2$)进行对抗性训练是否比广泛使用的 $L_\infty$ 训练具有更好的泛化能力。
- 证明对某一类扰动的鲁棒性并不意味着对其他扰动也具有鲁棒性,且在某些情况下可能反而降低对其他攻击的性能。
- 为评估对抗性防御方法提供实证指导,建议使用多样化的扰动类型和大小。
提出的方法
- 在ImageNet的一个100类子集上,对ResNet-50模型使用五类扰动类型($L_\infty$、$L_2$、$L_1$、弹性形变、JPEG)的32种攻击进行了对抗性训练。
- 针对每类攻击,使用了多个 $\varepsilon$ 值,并采用几何缩放以确保各类扰动的攻击强度相当。
- 对 $L_\infty$ 和 $L_2$ 攻击使用了投影梯度下降(PGD)方法,对 $L_1$ 攻击则采用Frank-Wolfe优化。
- 弹性形变攻击通过使用可学习参数的空间变换实现,JPEG 攻击则采用标准图像压缩并调节不同质量因子。
- 在所有32种攻击配置下评估了模型的鲁棒性,包括定向攻击和随机目标类别。
- 鲁棒性以每种攻击类型和 $\varepsilon$ 值下的干净准确率衡量,并分析了不同 $\varepsilon$ 范围下的结果。
实验结果
研究问题
- RQ1在一种扰动类型(如 $L_\infty$)上训练的对抗性鲁棒性是否能有效迁移到其他自然扰动类型(如 $L_2$、$L_1$、弹性形变或JPEG)?
- RQ2选择 $\varepsilon$(扰动幅度)如何影响不同攻击类型之间对抗性鲁棒性的可迁移性?
- RQ3针对特定攻击类型(如弹性形变)进行对抗性训练,是否会降低对其他攻击类型的鲁棒性?
- RQ4$L_2$ 基于的对抗性训练是否比 $L_\infty$ 基于的训练更能有效提升泛化鲁棒性?
- RQ5仅在单一扰动类型和 $\varepsilon$ 值下评估鲁棒性,是否会导致对模型真实鲁棒性的错误结论?
主要发现
- 对弹性形变攻击的鲁棒性无法迁移到其他扰动类型;在弹性攻击下训练的模型在 $L_\infty$、$L_2$ 和 $L_1$ 攻击下准确率反而更低。
- 使用 $\varepsilon \geq 4$ 进行弹性形变攻击的对抗性训练,虽提升了对弹性形变攻击的鲁棒性,但显著降低了对其他所有攻击类型的准确率,表明存在负面迁移效应。
- 使用 $\varepsilon = 4800$ 进行 $L_2$ 攻击的对抗性训练,其鲁棒性与自适应 $\varepsilon$ 的 $L_\infty$ 训练相比,甚至更优,尤其在更强攻击下表现更佳。
- 仅使用单一 $\varepsilon$ 值评估鲁棒性可能导致误导性结论;鲁棒性迁移对 $\varepsilon$ 范围的选择极为敏感。
- 在 $L_\infty$ 攻击下训练出的鲁棒性模型,并不意味着能泛化到 $L_2$ 或 $L_1$ 攻击,反之亦然,表明 $L_p$ 范数之间的迁移能力有限。
- 本研究证明,对某一类扰动(尤其是非 $L_p$ 类型,如JPEG或弹性形变)的鲁棒性,不能假设其能泛化到其他类型,即使在精心选择 $\varepsilon$ 的情况下也是如此。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。