QUICK REVIEW

[論文レビュー] Towards Interpretable Deep Neural Networks by Leveraging Adversarial Examples

Yinpeng Dong, Fan Bao|arXiv (Cornell University)|Jan 25, 2019

Adversarial Robustness in Machine Learning参考文献 33被引用数 88

ひとこと要約

本論文はニューロンの一貫性指標を定義し、敵対的例を通じて学習特徴の曖昧さを明らかにし、一貫性損失を用いた敵対的トレーニング手法がニューロンの解釈性を改善する一方で精度を若干犠牲にすることを示す。

ABSTRACT

Sometimes it is not enough for a DNN to produce an outcome. For example, in applications such as healthcare, users need to understand the rationale of the decisions. Therefore, it is imperative to develop algorithms to learn models with good interpretability (Doshi-Velez 2017). An important factor that leads to the lack of interpretability of DNNs is the ambiguity of neurons, where a neuron may fire for various unrelated concepts. This work aims to increase the interpretability of DNNs on the whole image space by reducing the ambiguity of neurons. In this paper, we make the following contributions: 1) We propose a metric to evaluate the consistency level of neurons in a network quantitatively. 2) We find that the learned features of neurons are ambiguous by leveraging adversarial examples. 3) We propose to improve the consistency of neurons on adversarial example subset by an adversarial training algorithm with a consistent loss.

研究の動機と目的

高リスク用途における解釈可能な DNN の必要性を、個々のニューロンが概念整合性において曖昧になり得ることから動機づける。
概念を跨いだニューロンの定量的な一貫性指標を導入し、敵対的サンプルを用いて曖昧さを評価する。
実データと敵対的サンプルに対して一貫性のある（特徴マッチング）損失を用いる敵対的トレーニングフレームワークを提案し、敵対的サブセットでのニューロンの一貫性を向上させる。

提案手法

ニューロン-概念の一貫性指標 consis(n,c) を、Pr(x contains c | x activates n) に基づいて定義する。
WordNetベースの相関行列 A を用いてニューロンの一貫性を計算し、consis(n)=p^T A p を得る。
ニューロンが敵対的サンプルと実画像で評価した場合に曖昧さを示すことを示す。
実データと敵対的サンプルの分類損失を最小化し、実表現と敵対的表現間の特徴距離項を加えた一貫性損失を含む学習目的を提案する。
FGSM を用いて敵対的例を生成し、結合損失 L(θ) = αℓ(θ,x,y) + (1−α)ℓ(θ,x*,y) + β d(φθ(x), φθ(x*)) を用いて学習する。ここで x* は敵対的、φθ(·) は特徴表現。
一貫性と概念整合性を測るために ImageNet および Broden データセットで評価する。

実験結果

リサーチクエスチョン

RQ1敵対的入力で評価したとき、ニューロンは概念の曖昧さを示すか。
RQ2一貫性のある敵対的トレーニング目的は、精度を大幅に犠牲にすることなく、敵対的サブセットでのニューロンの曖昧さを減らせるか。
RQ3敵対的トレーニングは、異なるアーキテクチャにおけるニューロンと意味概念の整合性にどう影響するか。
RQ4Broden 型の概念整合性に基づく解釈性指標への影響。
RQ5一貫性を強制することで解釈性が向上し、競争力のある堅牢性を維持できるか。

主な発見

一貫性損失を用いた敵対的トレーニングは、アーキテクチャを問わず敵対的画像サブセットでのニューロンの一貫性を高める。
敵対的トレーニングされたモデルのニューロンは、敵対的入力下で通常のトレーニングモデルより解釈可能な活性化を維持する。
Broden で、敵対的トレーニングモデルは実画像・敵対画像の両方で意味概念との整合性が高い。
トレードオフ: 敵対的トレーニングは標準精度を約10ポイント低下させるが敵対的攻撃に対する堅牢性を向上させる。
一貫性損失で訓練されたモデルは、敵対的サンプルの最大活性化視覚化の曖昧性が低減（例: VGG-16-Adv は実入力と敵対入力でより類似した概念を示す）。
提案された指標はニューロンの一貫性の変化を定量化し、敵対的ガイドトレーニングを通じて解釈性を高められるという主張を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。