[论文解读] Certifiably Robust Interpretation in Deep Learning
本文提出了一种基于稀疏化SmoothGrad的可认证鲁棒性解释方法,通过在随机输入扰动上平均梯度并强制执行稀疏性,实现了对显著性图的对抗性攻击的理论鲁棒性认证。该方法在ImageNet和CIFAR-10数据集上通过实证验证,证明其在对抗性扰动下仍能保持可靠的解释能力,相比标准梯度和SmoothGrad方法展现出更优的鲁棒性。
Deep learning interpretation is essential to explain the reasoning behind model predictions. Understanding the robustness of interpretation methods is important especially in sensitive domains such as medical applications since interpretation results are often used in downstream tasks. Although gradient-based saliency maps are popular methods for deep learning interpretation, recent works show that they can be vulnerable to adversarial attacks. In this paper, we address this problem and provide a certifiable defense method for deep learning interpretation. We show that a sparsified version of the popular SmoothGrad method, which computes the average saliency maps over random perturbations of the input, is certifiably robust against adversarial perturbations. We obtain this result by extending recent bounds for certifiably robust smooth classifiers to the interpretation setting. Experiments on ImageNet samples validate our theory.
研究动机与目标
- 解决梯度基显著性图在医疗和自动驾驶等高风险应用中对对抗性扰动的脆弱性问题。
- 开发一种可提供解释输出正式、可认证鲁棒性的方法,而不仅限于分类标签。
- 将先前用于分类任务的可认证鲁棒平滑技术扩展至解释设置,特别针对显著性图。
- 证明标准对抗性训练在分类任务中无法带来解释输出的鲁棒性,从而凸显为解释任务开发新型防御机制的必要性。
- 提供一种实用且可扩展的方法,在对抗性输入扰动下保持解释的保真度,并具备理论性能保证。
提出的方法
- 提出SmoothGrad的稀疏化版本,其中显著性图通过输入的随机扰动的梯度期望计算得出,并通过松弛化的top-k选择实现稀疏性。
- 使用平滑函数定义为 $\bar{\mathbf{g}}(\mathbf{x}) = \mathbb{E}[\mathbf{g}(\mathbf{x} + \epsilon)]$,其中 $\epsilon \sim \mathcal{N}(0, \sigma^2\mathbf{I})$,并通过温度控制的松弛方法施加稀疏性。
- 通过将可认证鲁棒平滑分类器的边界扩展至解释设置,推导出理论鲁棒性认证,确保显著性图结构在有界扰动下保持稳定。
- 采用top-K重叠度量 $R(\mathbf{x}, \tilde{\mathbf{x}}, K)$ 对鲁棒性进行实证评估,衡量原始与扰动后显著性图之间的相似性。
- 在CIFAR-10和ImageNet上对ResNet-18模型应用该方法,并使用 $L_2$-范数对抗攻击测试其在扰动下的鲁棒性。
- 通过理论边界和实证评估相结合的方式验证该方法,与基线SmoothGrad及缩放SmoothGrad变体进行对比。
实验结果
研究问题
- RQ1能否在形式化保证下使基于梯度的显著性图对对抗性扰动具备鲁棒性?
- RQ2用于分类任务的标准对抗性训练是否能转移到解释输出的鲁棒性?
- RQ3可认证鲁棒平滑的理论框架能否适配至显著性图解释设置?
- RQ4SmoothGrad的稀疏化如何影响解释图的鲁棒性与保真度?
- RQ5在对抗性攻击下,所提方法的实证性能与现有解释技术相比如何?
主要发现
- 在ImageNet样本上,稀疏化SmoothGrad方法的鲁棒性认证值显著高于基线SmoothGrad和缩放SmoothGrad方法,当 $q=8192$ 个扰动时,中位数鲁棒性认证值超过0.5。
- 实证评估表明,即使在 $L_2$ 对抗攻击幅度为0.5个标准差时,稀疏化SmoothGrad仍能保持显著性图区域的top-K重叠度高于0.6,优于标准梯度和SmoothGrad方法。
- 该方法表明,标准分类对抗性训练无法提升解释的鲁棒性,因为显著性图对微小扰动仍高度敏感。
- 对缩放SmoothGrad和二次SmoothGrad的理论边界为平凡(vacuous),但所提出的稀疏化变体可产生非平凡且有意义的鲁棒性认证。
- 与Lecuyer等人(2018)的朴素应用相比,该方法推导出的鲁棒性认证更紧密且更具信息量。
- 在CIFAR-10实验中,稀疏化SmoothGrad在 $T=5$ 次迭代的 $L_2$ 攻击下仍能保持高解释保真度,在144个测试样本上表现出稳定性能,置信区间狭窄。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。