QUICK REVIEW

[論文レビュー] Towards Robust Interpretability with Self-Explaining Neural Networks

David Alvarez-Melis, Tommi Jaakkola|arXiv (Cornell University)|Jun 20, 2018

Explainable Artificial Intelligence (XAI)参考文献 22被引用数 419

ひとこと要約

論文は自己説明的ニューラルネットワーク（Senn）を提案し、解釈可能性をモデルに埋め込むために、解釈可能な基盤概念と局所性に基づく正則化を用い、訓練中に明示的で忠実かつ安定した説明を課す。

ABSTRACT

Most recent work on interpretability of complex machine learning models has focused on estimating $\textit{a posteriori}$ explanations for previously trained models around specific predictions. $\textit{Self-explaining}$ models where interpretability plays a key role already during learning have received much less attention. We propose three desiderata for explanations in general -- explicitness, faithfulness, and stability -- and show that existing methods do not satisfy them. In response, we design self-explaining models in stages, progressively generalizing linear classifiers to complex yet architecturally explicit models. Faithfulness and stability are enforced via regularization specifically tailored to such models. Experimental results across various benchmark datasets show that our framework offers a promising direction for reconciling model complexity and interpretability.

研究の動機と目的

説明の三つの核心的デジデラタを定義する：明示性、忠実性、安定性。
アーキテクチャ的に解釈可能で局所的に線形な Learner basis を持つ自己説明モデルを開発する。
忠実で安定した説明を課しつつ予測性能を維持する正則化を導入する。
自明な人間理解可能な説明を提供するために autoencoder を用いて解釈可能な基盤概念を学習し、プロトタイプを grounding する。

提案手法

f(x)=theta(x)^T h(x) のように線形モデルを一般化する。ただし theta は入力 x に依存し、h(x) は解釈可能な基盤概念である。
theta_i(x) h_i(x) の項全体に対して集合化関数 g を導入し、性質として単調性、加法性、非モデレーティブな相互作用（P1-P5）を満たす。
局所関係を課すことで局所的な安定性を強制する：f の勾配が近傍で theta(x0) を近似する（L_theta 正則化）。
h(x) を生データ入力として、あるいはオートエンコーダによる高レベルの概念として学習し、 grounding と多様性制約（L_h）およびプロトタイプ grounding を導入する。
端から端で訓練し、結合損失 L_y + lambda L_theta + xi L_h（および他の正則化項を含む可能性あり）を用いる。
オプションとして theta をニューラルネットワークで実現し、概念レベルでの解釈性を維持しつつ高いモデリング能力を保持する。

実験結果

リサーチクエスチョン

RQ1説明が明示的で忠実かつ安定して設計されたモデルをどのように構築できるか。
RQ2入力依存の係数と解釈可能な基盤概念を通じて、線形の解釈可能性を複雑なモデルへ拡張できるか。
RQ3勾配ベースの正則化が、概念ベースの説明に合わせてモデルの感度を整合させ、頑健性を向上させつつ精度を損なわないか。
RQ4オートエンコーダーベースの grounding とプロトタイプ grounding が、予測を説明する解釈可能なユニットとしてどれだけ有用か。

主な発見

自己説明型モデルは、学習した概念とそれらの関連スコアを通じて、説明を即時かつ解釈可能に提供する。
提案された勾配正則化 L_theta は説明の安定性と忠実性を改善し、λ によるトレードオフが生じる。
プロトタイプとオートエンコーダーに基づく grounding は、人間にとって意味のある解釈可能な説明を提供する。
MNIST、UCI、Compas の各データセットを通じて、Senn は解釈不能なベースラインと同等の精度を維持しつつ概念ベースの頑健な説明を提供する。
Senn は LIME、SHAP、occlusion などの後付け解釈法よりも、入力摂動に対する説明の頑健性で上回る。
このフレームワークはエンドツーエンドの訓練と、高レベル概念の取り込みを柔軟にサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。