[论文解读] Proper Network Interpretability Helps Adversarial Robustness in Classification
本文提出了一种新型的可解释性感知防御方法,通过直接促进模型的鲁棒可解释性来增强对抗鲁棒性,采用 $ε$-鲁棒 $Ø_1$-范数可解释性差异度量。结果表明,仅依靠鲁棒可解释性即可超越当前最先进的对抗训练方法,尤其在大扰动下表现更优,实现鲁棒分类与鲁棒可解释性,且无需进行对抗损失最小化。
Recent works have empirically shown that there exist adversarial examples that can be hidden from neural network interpretability (namely, making network interpretation maps visually similar), or interpretability is itself susceptible to adversarial attacks. In this paper, we theoretically show that with a proper measurement of interpretation, it is actually difficult to prevent prediction-evasion adversarial attacks from causing interpretation discrepancy, as confirmed by experiments on MNIST, CIFAR-10 and Restricted ImageNet. Spurred by that, we develop an interpretability-aware defensive scheme built only on promoting robust interpretation (without the need for resorting to adversarial loss minimization). We show that our defense achieves both robust classification and robust interpretation, outperforming state-of-the-art adversarial training methods against attacks of large perturbation in particular.
研究动机与目标
- 探究网络可解释性与对抗鲁棒性之间的关系,特别是鲁棒可解释性是否能增强鲁棒分类能力。
- 解决对抗样本逃避可解释性的问题,表明在合适的度量下,可解释性差异本质上难以避免。
- 提出一种以促进鲁棒可解释性为主要目标的防御机制,而非依赖对抗损失最小化。
- 通过实证验证,鲁棒可解释性能够提升对大扰动对抗攻击的鲁棒性。
- 为将可解释性差异用作对抗鲁棒性的代理指标提供理论依据。
提出的方法
- 引入一种 $Ø_1$-范数二分类可解释性差异度量,用于量化对抗扰动相对于良性输入对可解释性图的影响程度。
- 理论上证明,约束该差异度量可增强对抗鲁棒性,为可解释性与鲁棒性之间建立原则性联系。
- 提出两种可解释性感知的训练方法 Int 和 Int2,通过 $Ø_1$-范数差异损失优化鲁棒可解释性。
- 采用类别判别性定位方法(如 CAM)生成可解释性图,并通过 Kendall’s Tau 相关系数衡量其扰动敏感性。
- 使用标准交叉熵损失结合 $Ø_1$-范数可解释性差异惩罚项进行模型训练,训练过程中不引入对抗损失。
- 在 MNIST、CIFAR-10 和受限 ImageNet 上,通过标准攻击与强对抗攻击验证该方法的有效性。
实验结果
研究问题
- RQ1仅依靠鲁棒网络可解释性是否可作为对抗攻击的防御机制?
- RQ2在使用合适差异度量时,理论上和实证上是否可行防止对抗样本逃避可解释性?
- RQ3在大扰动下,可解释性感知训练与对抗训练在鲁棒性方面有何对比?
- RQ4能否通过鲁棒可解释性提升泛化能力与鲁棒性,而无需对抗数据增强?
- RQ5促进鲁棒可解释性是否能导致与对抗训练相似的、感知对齐的鲁棒特征?
主要发现
- 所提出的 Int 和 Int2 方法在对抗鲁棒性上优于当前最先进的方法(如 Adv、TRADES 和 IG-Norm),尤其在大扰动下(MNIST 上 $\epsilon \geq 0.3$,R-ImageNet 上 $\epsilon \geq 8/255$)。
- 在 MNIST 上 $\epsilon = 0.4$ 时,Int2 在对抗可解释性攻击(AAI)下的 Kendall’s Tau 相关系数达到 0.351,优于 IG-Norm(0.094)和 TRADES(0.115)。
- 在 R-ImageNet 上 $\epsilon = 10/255$ 时,Int2 保持 Kendall’s Tau 为 0.939,显著优于 Normal(0.619)和 Adv(0.858)。
- 特征可视化显示,Int 和 Int2 学习到与对抗训练(Adv)相似的、感知对齐且对纹理鲁棒的特征,而 Normal 和 IG-Norm 则不具备此特性。
- 该方法在无需对抗损失最小化的情况下,同时实现了鲁棒分类与鲁棒可解释性,计算开销低于基于梯度的鲁棒归因训练方法。
- 在所有数据集和扰动水平下,Int 和 Int2 的可解释性鲁棒性均保持一致更高,证实了所提差异度量的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。