Skip to main content
QUICK REVIEW

[论文解读] Robust Attribution Regularization

Jiefeng Chen, Xi Wu|arXiv (Cornell University)|May 23, 2019
Adversarial Robustness in Machine Learning参考文献 19被引用 26
一句话总结

本文提出了一种名为鲁棒归因正则化(Robust Attribution Regularization)的新颖训练框架,通过结合鲁棒优化原则,提升了神经网络中积分梯度(Integrated Gradients, IG)归因的鲁棒性。通过在小幅度输入扰动下最小化归因偏移,利用不确定性集与分布鲁棒性模型,该方法显著增强了显著性图的稳定性和可靠性,在扰动输入上的top-100交并比最高提升83%,Kendall相关系数达0.83,显著优于自然训练模型。

ABSTRACT

An emerging problem in trustworthy machine learning is to train models that produce robust interpretations for their predictions. We take a step towards solving this problem through the lens of axiomatic attribution of neural networks. Our theory is grounded in the recent work, Integrated Gradients (IG), in axiomatically attributing a neural network's output change to its input change. We propose training objectives in classic robust optimization models to achieve robust IG attributions. Our objectives give principled generalizations of previous objectives designed for robust predictions, and they naturally degenerate to classic soft-margin training for one-layer neural networks. We also generalize previous theory and prove that the objectives for different robust optimization models are closely related. Experiments demonstrate the effectiveness of our method, and also point to intriguing problems which hint at the need for better optimization techniques or better neural network architectures for robust attribution training.

研究动机与目标

  • 解决模型解释在微小输入扰动下缺乏鲁棒性的问题,这些扰动会显著改变归因图。
  • 将此前仅应用于模型预测的鲁棒优化原则,拓展至特征归因的鲁棒性。
  • 形式化一个有原则的训练目标,确保IG归因在邻近输入间保持一致。
  • 将现有鲁棒训练目标推广至归因空间,同时保持IG的理论特性。
  • 通过实证验证,鲁棒训练模型在对抗性归因攻击下可生成更可靠、更稳定的显著性图。

提出的方法

  • 提出两阶段目标:在数据分布上最小化标准损失,并确保IG归因在输入扰动下保持稳定。
  • 使用不确定性集模型,通过在每个输入周围的ε-球内最大化IG归因大小来强制实现鲁棒性。
  • 采用分布鲁棒性模型,利用Wasserstein耦合来约束扰动分布下IG归因差异的期望。
  • 采用大小函数s(·),如ℓ2范数,用于度量IG归因的幅值以实现正则化。
  • 推导出不同鲁棒优化模型之间的理论联系,表明在归因框架下它们密切相关。
  • 推广至单层网络,此时方法退化为标准软边缘训练,验证了与已有工作的兼容性。

实验结果

研究问题

  • RQ1鲁棒优化原则能否有效从模型预测扩展到特征归因?
  • RQ2如何在输入扰动下正式定义并强制实现IG归因的鲁棒性?
  • RQ3当应用于归因正则化时,不同鲁棒优化模型之间的理论关系是什么?
  • RQ4鲁棒归因正则化在多大程度上提升了对抗攻击下显著性图的稳定性?
  • RQ5所提出的方法是否在增强鲁棒性的同时,保持了IG的理论公理?

主要发现

  • 采用鲁棒归因正则化训练的模型,在原始与扰动显著性图之间达到最高83%的top-100交并比与0.8338的Kendall相关系数,而自然训练模型仅为43%与0.1293。
  • IG-NORM与IG-SUM-NORM变体在所有测试数据集(包括ImageNet与CIFAR-10)上均优于自然模型,在等级相关系数与交并比方面均有稳定提升。
  • 在ImageNet-1k数据集上,该方法在Tigerlily类别上实现了63.4%的top-1000交并比与0.8201的Kendall相关系数,显著优于自然模型的6.8%与0.4653。
  • 该方法保持了理论一致性,在单层情况下退化为标准软边缘训练,证实其与现有鲁棒学习框架的一致性。
  • 实验表明,鲁棒归因训练即使在极小扰动下也能生成视觉上与定量上更稳定的归因,而自然模型则易受干扰。
  • 结果表明,当前的优化技术与网络架构可能仍限制了鲁棒归因训练的全部潜力,提示仍需进一步的方法论突破。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。