QUICK REVIEW

[論文レビュー] Interpretable & Explorable Approximations of Black Box Models

Himabindu Lakkaraju, Ece Kamar|arXiv (Cornell University)|Jul 4, 2017

Explainable Artificial Intelligence (XAI)被引用数 29

ひとこと要約

この論文では、忠実度、解釈可能性、明確なルールカバレッジを同時に最適化することで、ブラックボックス分類器のグローバルで忠実かつ解釈可能な近似を生成するモデルに依存しないフレームワークBETAを紹介する。特徴空間の異なる非重複領域にわたり、モデルの挙動を説明するコンパクトな意思決定集合を学習するために、新規なサブモジュラ最適化アプローチを用い、ユーザーのインタラクティブな探索を支援することで、現実世界の意思決定文脈における理解の向上と効率化を実現する。

ABSTRACT

We propose Black Box Explanations through Transparent Approximations (BETA), a novel model agnostic framework for explaining the behavior of any black-box classifier by simultaneously optimizing for fidelity to the original model and interpretability of the explanation. To this end, we develop a novel objective function which allows us to learn (with optimality guarantees), a small number of compact decision sets each of which explains the behavior of the black box model in unambiguous, well-defined regions of feature space. Furthermore, our framework also is capable of accepting user input when generating these approximations, thus allowing users to interactively explore how the black-box model behaves in different subspaces that are of interest to the user. To the best of our knowledge, this is the first approach which can produce global explanations of the behavior of any given black box model through joint optimization of unambiguity, fidelity, and interpretability, while also allowing users to explore model behavior based on their preferences. Experimental evaluation with real-world datasets and user studies demonstrates that our approach can generate highly compact, easy-to-understand, yet accurate approximations of various kinds of predictive models compared to state-of-the-art baselines.

研究の動機と目的

ブラックボックス分類器のグローバルな説明フレームワークを構築し、元のモデルに高い忠実度を保ちつつ解釈可能であることを保証すること。
非重複する特徴空間領域にわたり、忠実度、解釈可能性、明確なルールカバレッジを同時に最適化すること。
ユーザーが指定した特徴の好みに基づいて、モデル挙動のインタラクティブな探索を可能にすること。
予測精度を損なわせることなく、最先端のベースラインと比較して説明の複雑さを低減すること。
人間のユーザーがBETAによって生成された説明を用いて、モデル挙動をより正確かつ迅速に推論できるかどうかを評価すること。

提案手法

忠実度（ブラックボックスの予測を一致させる）、解釈可能性（ルール数と述語数の最小化）、非重複するルールカバレッジを組み合わせた新しい最適化問題を定式化する。
マトロイド制約付きの非正規化・非単調なサブモジュラ関数として最適化問題をモデル化し、証明可能な近似最適解を可能にする。
NP困難な問題を効率的に解くために、1/5近似保証を持つ近似局所探索アルゴリズムを採用する。
特徴空間を分割し、クラスラベルを明確に割り当てるコンパクトな意思決定集合（if-thenルール）を生成する。
ユーザーが関心を持つ特徴を指定できるようにし、関連する部分空間に焦点を当てて説明を動的に精緻化するインタラクティブな探索を支援する。
ユーザーのフィードバックを統合し、ユーザーの質問に関連する特徴を優先するように近傍記述子を適応的に変更する。

実験結果

リサーチクエスチョン

RQ1グローバルな説明フレームワークとして、ブラックボックスモデルの説明において忠実度、解釈可能性、明確なルールカバレッジを同時に最適化できるか？
RQ2BETAによって生成された説明の複雑さは、最先端のベースラインと比較して、ルール数および述語数の観点でどの程度異なるか？
RQ3インタラクティブな探索は、モデル挙動に関する人間の理解力と推論速度をどの程度向上させるか？
RQ4他の手法と比較して、ユーザーはBETAによって生成された近似を用いて、正確かつ迅速にモデル挙動を推論できるか？
RQ5実世界のデータセットにおいて、BETA、LIME-DS、IDS、BDLの各手法における忠実度と解釈可能性のトレードオフはどのように異なるか？

主な発見

BETAは平均して1ルールあたり10個の述語でブラックボックスモデルと85％の一致率を達成し、他の手法が同じ忠実度に到達するためには最低でも1ルールあたり20個の述語が必要であった。
5つの近傍のみでBETAは85％の一致率を達成したが、LIMEは同程度の忠実度に到達するまでに約20個の近傍を必要とした。
ユーザー研究では、BETAは94.5％の人的正確性と1問あたり平均160.1秒の応答時間を達成し、IDS（89.2％の正確性、231.1秒）およびBDL（83.7％の正確性、368.5秒）を大きく上回った。
インタラクティブな探索を有効化した場合、平均応答時間は78.3秒に低下し、非インタラクティブな設定と比較してほぼ半減した。
BETAによって生成された説明は、低ルール重複率（1–2％）と高カバレッジ（95–98％）を示しており、ルール分割における精度と包括性の両方を満たしている。
インタラクティブ版BETAは、人的正確性を98.3％まで向上させ、非インタラクティブ設定と比較して平均応答時間を50％以上短縮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。

[論文レビュー] Interpretable &amp; Explorable Approximations of Black Box Models