QUICK REVIEW

[論文レビュー] Causal Learning and Explanation of Deep Neural Networks via Autoencoded Activations

Michael Harradon, Jeff Druce|arXiv (Cornell University)|Feb 2, 2018

Explainable Artificial Intelligence (XAI)参考文献 17被引用数 49

ひとこと要約

論文は、オートエンコーダを用いて人が解釈できる概念を抽出し、それぞれの概念がDNN出力に及ぼす因果影響を定量化・可視化するためのCNNの因果説明可能性フレームワークを提案する。

ABSTRACT

Deep neural networks are complex and opaque. As they enter application in a variety of important and safety critical domains, users seek methods to explain their output predictions. We develop an approach to explaining deep neural networks by constructing causal models on salient concepts contained in a CNN. We develop methods to extract salient concepts throughout a target network by using autoencoders trained to extract human-understandable representations of network activations. We then build a bayesian causal model using these extracted concepts as variables in order to explain image classification. Finally, we use this causal model to identify and visualize features with significant causal influence on final classification.

研究の動機と目的

DNNにおける因果説明の必要性を動機付ける，特に安全-critical領域で。
入力・概念・出力を関連付けるDNNの人間が解釈できる因果モデルを提案する。
活性化から低次元で解釈可能な概念を抽出する教師なし手法を開発する。
コード化された概念の因果効果を定量化するベイジアンネットワークを構築する。
出力に対して因果影響が大きい概念の可視化と問合せを実証する。

提案手法

浅い再構成、下流出力に対するKLダイバージェンス、解釈可能性項（スパース性、クロスエントロピー、総変動）を組み合わせた損失で、複数のCNN層にオートエンコーダを訓練し、活性化から低次元で解釈可能な概念を抽出する。
訓練済みのオートエンコーダをネットワークに挿入し、 raw活性化ではなくコード化された概念に介入を可能にして統計的関係を保持する。
概念Cが活性化から得られ、入力Pと出力Oをコード化された概念への介入を介して関連付ける因果モデルP(O, P, C)を構築する。
概念特徴画像をゼロにする介入を行い、層間の因果依存関係を捉えるベイジアンネットワークを適合させるデータを収集する。
介入が概念または入力に対して出力予測へ及ぼす期待因果効果を定義・計算する（式6）。
期待因果効果でトップの概念を可視化し、解釈を補助する近傍の文脈を提供する。

実験結果

リサーチクエスチョン

RQ1人間が理解できる概念を用いて、DNNを生のニューロンではなく因果的にモデル化することは可能か。
RQ2オートエンコードされた活性化から得られる概念が解釈可能であり、それらを介入すると出力に対する因果影響を明らかにするか。
RQ3概念の因果影響をどのように定量化・可視化するか。
RQ4概念上のベイジアンネットワークを構築することは、誤分類の説明性とデバッグを強化するか。

主な発見

変数	期待される因果効果
level4_feat6	0.174704302
level3_feat3	0.09731648
level2_feat10	0.056770524
level1_feat3	0.028265387
level1_feat17	0.023817493
level0_feat27	0.016577831
level2_feat27	0.01370528
level0_feat1	0.0123624
level4_feat3	0.007728
level4_feat22	0.007587164
level0_feat14	0.006091733
level4_feat21	0.002876711
level1_feat28	0.001066667
level3_feat28	0.000724

人間が理解できる概念上で動作するDNNの因果モデルは、説明可能性のために実現可能で有益である。
オートエンコードを用いた無监督の概念抽出手法は、複数のネットワーク層にまたがる低次元で解釈可能な特徴を生み出す。
オートエンコードされた概念への介入により、ベイジアンネットワークを介して出力への因果効果を推定できる。
出力への期待因果効果が高いトップ概念を同定・可視化して分類の説明に用いることができる。
本手法はVGG16/19アーキテクチャに対してBirds200およびInria Pedestrianデータセットで実証され、頭部の輪郭や体特徴といった解釈可能な因果要因が明らかになった。
論文はデータセット間の平均的な因果影響に基づく概念特徴の定量的ランキングを提供している（例はFigure 9に示す）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。