QUICK REVIEW

[论文解读] Towards Interpretable Deep Neural Networks by Leveraging Adversarial Examples

Yinpeng Dong, Fan Bao|arXiv (Cornell University)|Jan 25, 2019

Adversarial Robustness in Machine Learning参考文献 33被引用 88

一句话总结

本文定义了神经元一致性指标，揭示对抗样本中学习特征的歧义，并展示一种带有一致性损失的对抗训练方法，在提升神经元可解释性的同时会在准确度上有一定损失。

ABSTRACT

Sometimes it is not enough for a DNN to produce an outcome. For example, in applications such as healthcare, users need to understand the rationale of the decisions. Therefore, it is imperative to develop algorithms to learn models with good interpretability (Doshi-Velez 2017). An important factor that leads to the lack of interpretability of DNNs is the ambiguity of neurons, where a neuron may fire for various unrelated concepts. This work aims to increase the interpretability of DNNs on the whole image space by reducing the ambiguity of neurons. In this paper, we make the following contributions: 1) We propose a metric to evaluate the consistency level of neurons in a network quantitatively. 2) We find that the learned features of neurons are ambiguous by leveraging adversarial examples. 3) We propose to improve the consistency of neurons on adversarial example subset by an adversarial training algorithm with a consistent loss.

研究动机与目标

在高风险应用中需要可解释的DNN的动机，因为单独的神经元在概念对齐上可能存在歧义。
引入一个用于神经元跨概念的一致性定量度量，并利用对抗样本评估歧义。
提出一个带有一致性（特征匹配）损失的对抗训练框架，以在对抗子集上改善神经元的一致性。

提出的方法

定义基于 Pr(x contains c | x activates n) 的神经元-概念一致性度量 consis(n,c)。
使用基于 WordNet 的相关矩阵 A 计算神经元一致性，得到 consis(n)=p^T A p。
显示在对抗样本与真实图像的评估中，神经元表现出歧义。
提出一个训练目标，带有一致性损失，最小化真实与对抗样本的分类损失以及真实与对抗表示之间的特征距离项。
使用 FGSM 生成对抗样本，并用组合损失 L(θ) = αℓ(θ,x,y) + (1−α)ℓ(θ,x*,y) + β d(φθ(x), φθ(x*)) 进行训练，其中 x* 是对抗样本，φθ(·) 是特征表示。
在 ImageNet 和 Broden 数据集上评估，以衡量一致性和概念对齐。

实验结果

研究问题

RQ1在对抗输入下，神经元是否表现出概念歧义？
RQ2在不严重损害准确率的前提下，是否存在一个一致的对抗训练目标能够减少对抗子集上的神经元歧义？
RQ3对抗训练如何影响不同架构中神经元与语义概念的对齐？
RQ4神经元一致性对 Broden 风格概念对齐的可解释性度量有何影响？
RQ5强制一致性是否在维持竞争鲁棒性的同时提升可解释性？

主要发现

带有一致性损失的对抗训练在跨架构的对抗图像子集上提高了神经元的一致性。
在对抗性训练的模型中，神经元在对抗输入下的可解释激活比常规训练的模型更高。
在 Broden 上，对抗性训练的模型在真实和对抗图像上的神经元与语义概念的对齐度更高。
存在权衡：对抗训练将标准准确率降低约10个百分点，但提高对抗攻击的鲁棒性。
使用一致性损失训练的模型在对抗样本的最高激活可视化中歧义性降低（如 VGG-16-Adv 对真实与对抗输入的概念更相似）。
所提指标量化了神经元一致性变化，支持通过对抗引导的训练提升可解释性的主张。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。