Skip to main content
QUICK REVIEW

[論文レビュー] Compositional Explanations of Neurons

Jesse Mu, Jacob Andreas|arXiv (Cornell University)|Jun 24, 2020
Explainable Artificial Intelligence (XAI)参考文献 38被引用数 50
ひとこと要約

本論文は、個々のニューロンを説明するために論理概念を組み合わせて説明を作成する方法を導入し、視覚と NLP のニューロンにおける知覚的抽象と浅いヒューリスティックの両方を明らかにし、これらの説明が性能とどのように関連するかを示し、標的を定めた敵対的な摂動を導く手がかりとなることを示します。

ABSTRACT

We describe a procedure for explaining neurons in deep representations by identifying compositional logical concepts that closely approximate neuron behavior. Compared to prior work that uses atomic labels as explanations, analyzing neurons compositionally allows us to more precisely and expressively characterize their behavior. We use this procedure to answer several questions on interpretability in models for vision and natural language processing. First, we examine the kinds of abstractions learned by neurons. In image classification, we find that many neurons learn highly abstract but semantically coherent visual concepts, while other polysemantic neurons detect multiple unrelated features; in natural language inference (NLI), neurons learn shallow lexical heuristics from dataset biases. Second, we see whether compositional explanations give us insight into model performance: vision neurons that detect human-interpretable concepts are positively correlated with task performance, while NLI neurons that fire for shallow heuristics are negatively correlated with task performance. Finally, we show how compositional explanations provide an accessible way for end users to produce simple "copy-paste" adversarial examples that change model behavior in predictable ways.

研究の動機と目的

  • 視覚と言語処理(NLP)において、ニューロンが意味のある組み合わせ概念を学習しているのか、あるいは多義的/無関係な活性化であるのかを識別する。
  • 組み合わせ的な説明がタスク横断でモデルの性能とどのように関連しているかを評価する。
  • ニューロンの説明が、標的入力を通じてモデルの挙動を予測可能に操作できるかを示す。

提案手法

  • 入力上のバイナリ検出器として原始概念の空間を定義する(例:画像領域、語彙特徴)。
  • ニューロンの活性化をバイナリマスクに変換し、概念との IoU で類似性を測定する。
  • Or、And、Not、Neighbors 演算子を用いて、L(C) を作成する組み合わせ論理形へ拡張する。
  • IoU を最大化する長さ制限(N)付きのビーム探索で、組み合わせ空間から最適な説明 L を探索する。
  • 本手法を画像分類(Places365 上の ResNet-18、Broden アノテーション)と自然言語推論(SNLI、BiLSTM + MLP を用い、前提/仮説の語と重なりを検証)に適用する。
  • 異なる式長における説明品質(IoU)を比較し、組み合わせ性と解釈可能性を評価する。

実験結果

リサーチクエスチョン

  • RQ1視覚とNLPモデルにおいて、ニューロンはどのような組み合わせ概念を学習するのか。
  • RQ2ニューロンの説明の解釈可能性が、タスクを横断するモデルの精度とどのように関連するのか。
  • RQ3標的入力を通じて、組み合わせ的なニューロンの説明を用いてモデルの挙動を予測・影響させることができるか。

主な発見

  • ニューロンはしばしば組み合わせ概念を学習する。いくつかの検出器は意味のある抽象を捕捉するが、他は多義的であったり、関連のない特徴に依存している。
  • IoU ベースの説明品質は、式長が長くなるにつれて向上し、画像分類では N=1 の平均 0.059 から N=10 の 0.099 へと増加(有意な増加;p=2e-9)。
  • 視覚領域では、解釈性が高いニューロン(IoU が高いほど)が、ニューロンが活性化しているときに精度が高いと相関する(r=0.31, p<1e-13)、式長が長くなるほど相関が強くなる。
  • NLI では、説明はしばしば浅い語彙ヒューリスティック(例:性別、重複)を反映し、逆説的に、より解釈性の高いニューロンはタスク性能と逆相関する傾向がある(r=-0.60, p<1e-08)、多くの説明が偽りの相関を捉えていることを示唆している。
  • この手法は、説明的ニューロンを標的とする“コピー&ペースト”型の敵対的サンプルを作成できることを可能にし、視覚と NLI の両方で予測可能なモデル影響摂動を実証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。