QUICK REVIEW

[論文レビュー] Regularizing Black-box Models for Improved Interpretability

Gregory Plumb, Maruan Al-Shedivat|arXiv (Cornell University)|Feb 18, 2019

Explainable Artificial Intelligence (XAI)参考文献 36被引用数 37

ひとこと要約

ExpO はトレーニング中にブラックボックスモデルを正則化し、局所的な説明忠実度と安定性を改善します。これにより、精度を大きく犠牲にすることなく、解釈性の高い事後説明を得られ、ユーザー調査で検証されました。

ABSTRACT

Most of the work on interpretable machine learning has focused on designing either inherently interpretable models, which typically trade-off accuracy for interpretability, or post-hoc explanation systems, whose explanation quality can be unpredictable. Our method, ExpO, is a hybridization of these approaches that regularizes a model for explanation quality at training time. Importantly, these regularizers are differentiable, model agnostic, and require no domain knowledge to define. We demonstrate that post-hoc explanations for ExpO-regularized models have better explanation quality, as measured by the common fidelity and stability metrics. We verify that improving these metrics leads to significantly more useful explanations with a user study on a realistic task.

研究の動機と目的

局所的な説明の忠実度を改善する、微分可能でモデルに依存しない正則化項 ExpO-Fidelity を導入する。
モデルファミリを制約せず、精度と解釈性の間の補間を許容する。
後付け説明法（LIME、MAPLE）を用いて、回帰および分類タスクで ExpO を経験的に評価する。
ExpO が説明品質を向上させ、予測精度をわずかに改善するか、維持できることを示す。
実用的な有用性を示す人間のユーザー調査を通じて解釈可能性の向上を検証する。

提案手法

解釈性正則化付き目的関数を最小化する形で定義する：L(f, x_i, y_i) + gamma R(f, N_x_i^{reg})。
ExpO-Fidelity を、N_x^{reg} のサンプルに対して局所線形近似を用いて局所の説明忠実度を近似する、微分可能で近傍ベースの正則化項として使用する（アルゴリズム1）。
コストを抑えた近似のため、単一の特徴次元を摺動させて忠実度を近似する高速版 ExpO-1D-Fidelity を提供する。
拡張損失で標準の SGD/Adam を用いてモデルを訓練し、ExpO-正則化モデルを得る。
LIME および MAPLE の説明下で、点ごとの忠実度 PF、近傍忠実度 NF、および安定性指標を用いて評価する。
通常の訓練ベースラインと比較し、予測精度と説明品質の変化を評価する。）

実験結果

リサーチクエスチョン

RQ1ExpO-Fidelity はブラックボックスモデルの事後説明の忠実度と安定性を改善しますか？
RQ2ExpO 正則化は解釈性を高めつつ、予測精度を維持または改善しますか？
RQ3ExpO-正則化された説明は訓練点からテスト点へ一般化しますか？
RQ4現実的なタスクで、ExpO の説明は人間の利用価値が高いと感じられますか？

主な発見

ExpO-Fidelity は Interpretability 指標を頻繁に 25% 以上、ケースによっては 50% 超まで改善します。
ExpO-正則化モデルは、なしの場合と比べて同程度またはわずかに改善したテスト精度を示すことが多い。
ExpO-1D-Fidelity も解釈性指標を改善し、精度の平均的な向上は小さい。
ExpO-正則化モデルのポストホック説明（LIME、MAPLE）は、テスト点でのモデル挙動に対してより単純で忠実である。
ユーザー調査では、ExpO の説明を用いたタスクがより少ない手順で完了し、より有用でモデル挙動と整合すると受け止められた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。