QUICK REVIEW

[論文レビュー] Hierarchical interpretations for neural network predictions

Chandan Singh, William J. Murdoch|arXiv (Cornell University)|Jun 14, 2018

Explainable Artificial Intelligence (XAI)参考文献 44被引用数 69

ひとこと要約

ACDは階層的でグループベースの解釈を生み出す凝集的文脈分解を導入し、DNN予測の階層的な解釈を提供し、NLPとビジョンタスク全体でフレーズ/パッチレベルの洞察と堅牢な可視化を可能にします。

ABSTRACT

Deep neural networks (DNNs) have achieved impressive predictive performance due to their ability to learn complex, non-linear relationships between variables. However, the inability to effectively visualize these relationships has led to DNNs being characterized as black boxes and consequently limited their applications. To ameliorate this problem, we introduce the use of hierarchical interpretations to explain DNN predictions through our proposed method, agglomerative contextual decomposition (ACD). Given a prediction from a trained DNN, ACD produces a hierarchical clustering of the input features, along with the contribution of each cluster to the final prediction. This hierarchy is optimized to identify clusters of features that the DNN learned are predictive. Using examples from Stanford Sentiment Treebank and ImageNet, we show that ACD is effective at diagnosing incorrect predictions and identifying dataset bias. Through human experiments, we demonstrate that ACD enables users both to identify the more accurate of two DNNs and to better trust a DNN's outputs. We also find that ACD's hierarchy is largely robust to adversarial perturbations, implying that it captures fundamental aspects of the input and ignores spurious noise.

研究の動機と目的

DNN予測の単一特徴の重要性を超えた解釈可能な説明の必要性を動機付ける。
任意のDNNアーキテクチャの特徴グループ間の相互作用を抽出する一般的な方法を開発する。
複数の粒度で予測的相互作用を表示する階層的可視化フレームワークを作成する。
ACDの有用性を、誤予測の診断、データセットバイアスの検出、信頼性/敵対的堅牢性の評価において実証する。

提案手法

ロジット g(x) を層ごとに beta(x) と gamma(x) に分解することにより、任意のDNNに対してContextual Decomposition (CD)を一般化する（式 1–6）。
畳み込み層のバイアスを分割し、ReLUと最大プーリングの分解規則を適用して層ごとのCD成分を生成する（式 5–11）。
CDスコアを結合指標として用い、階層的解釈を構築する凝集的クラスタリングを定義する（アルゴリズム1）。
トップスコアのグループを反復的に追加し（トップのk%以内）、現在のグループを隣接する特徴量（テキスト）やパッチ（画像）で拡張して候補グループを生成する。
アプリケーション固有の基準に従って階層を終了する（例：感情分析のため全ての語が選択されると停止；画像の場合は事前定義された反復回数で停止）。
この手法は、クラスタリングを導くグループレベルの重要度スコア関数（CD）を必要とすることを除けば、モデルに依存しない。

実験結果

リサーチクエスチョン

RQ1DNNが学習した非線形な特徴間相互作用を階層的なグループベースの説明は明らかにできるか？
RQ2アグロメレーティブ文脈分解（ACD）はNLPとビジョンモデル全体で直感的で信頼できる解釈を生み出すか？
RQ3非階層的な解釈と比較してACD階層は敵対的摂動に対して頑健か？
RQ4SST、MNIST、ImageNetなどの実データセットで誤predictやデータセットバイアスの診断にACDは役立つか？

主な発見

長さ	ポジティブなフレーズ	ネガティブなフレーズ
1	快楽的な、セクシーな、栄光の	どこにもない、グロテスク、睡眠
3	素晴らしい業績。、とても楽しい。	陰鬱で絶望的、露骨に欠けている。
5	かなり素晴らしい業績。	結局は無意味な試み。
8	忘れられない視覚的な華麗さをもって提示する。	私の一語の反応: 失望。

ACDは予測に寄与する意味のあるフレーズや画像パッチを明らかにする直感的な可視化を生み出す。
人間の研究は、ACDがユーザーにより正確なモデルを特定させ、ACDを従来の方法より信頼できると評価することを示している。
ACDの階層は敵対的摂動に対して頑健であることを示しており、ノイズではなく基本的な入力特徴を捉えていることを示す。
定性的な例はSSTの誤予測を診断し、ImageNetのデータセットバイアスを特定する（例：スケートの特徴がパック分類を助ける）。
Table 1 はSSTでACDにより発見された長さの異なる上位スコアのフレーズを示す（正例と負例の例）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。