QUICK REVIEW

[論文レビュー] Explaining Latent Representations with a Corpus of Examples

Jonathan Crabbé, Zhaozhi Qian|arXiv (Cornell University)|Oct 28, 2021

Explainable Artificial Intelligence (XAI)被引用数 7

ひとこと要約

SimplEx は、統合ヤコビアンを用いて特徴レベルの寄与度を割り当てることで、テスト例のブラックボックスモデルの潜在表現をユーザーが選択したコーパス例の重み付き混合として分解する後処理型の説明手法である。この手法は、多様なタスクにおいて、パーソナライズ可能で、頑健かつ解釈可能な説明を可能にし、潜在空間および出力空間の再構成において、Deep k-NN やレプゼンター定理といったベースラインを上回る性能を発揮する。

ABSTRACT

Modern machine learning models are complicated. Most of them rely on convoluted latent representations of their input to issue a prediction. To achieve greater transparency than a black-box that connects inputs to predictions, it is necessary to gain a deeper understanding of these latent representations. To that aim, we propose SimplEx: a user-centred method that provides example-based explanations with reference to a freely selected set of examples, called the corpus. SimplEx uses the corpus to improve the user's understanding of the latent space with post-hoc explanations answering two questions: (1) Which corpus examples explain the prediction issued for a given test example? (2) What features of these corpus examples are relevant for the model to relate them to the test example? SimplEx provides an answer by reconstructing the test latent representation as a mixture of corpus latent representations. Further, we propose a novel approach, the Integrated Jacobian, that allows SimplEx to make explicit the contribution of each corpus feature in the mixture. Through experiments on tasks ranging from mortality prediction to image classification, we demonstrate that these decompositions are robust and accurate. With illustrative use cases in medicine, we show that SimplEx empowers the user by highlighting relevant patterns in the corpus that explain model representations. Moreover, we demonstrate how the freedom in choosing the corpus allows the user to have personalized explanations in terms of examples that are meaningful for them.

研究の動機と目的

複雑なブラックボックスモデルに対するパーソナライズ可能でユーザー中心の説明が不足している問題に対処するため、ユーザーが自らの参照例（コーパス）を定義できるようにすること。
モデル出力の範囲を超えて、コーパスからの意味のある人間が理解可能な成分に分解することで、潜在表現の解釈性を向上させること。
コーパス例がモデルの予測にどのように寄与しているかを特徴レベルで明示的に説明することで、例ベースの説明と特徴重要度説明のギャップを埋めること。
コーパス混合による潜在空間および出力空間の再構成を、忠実度と安定性の両面で、既存手法を上回る精度と頑健性を実現すること。

提案手法

SimplEx は、テスト例の潜在表現を、ユーザーが定義したコーパス例の潜在表現の重み付き混合として構築する。
潜在空間における再構成誤差を最小化するコーパス重みを計算するための、新しい微分可能最適化フレームワークを用いる。
統合ヤコビアン技術を用いて、各コーパス例の各特徴が潜在混合に与える寄与度を一般化し、定量的に評価する。
ユーザーが任意の例のセット（トレーニングデータに限定されない）を選択可能であるため、柔軟なコーパス選択が可能で、パーソナライズされた説明が可能である。
アーキテクチャの変更を必要としないため、後処理型として、多様な機械学習モデルに広く適用可能である。
潜在空間と出力空間の両方における再構成精度を同時に最適化することで、両空間における忠実度を保証する。

実験結果

リサーチクエスチョン

RQ1ユーザー定義のコーパス例を用いることで、固定またはデフォルトの参照セットと比較して、ブラックボックスモデルの潜在表現の解釈性が向上するか？
RQ2潜在空間の分解において、コーパス例の特徴レベル寄与度を明示的に定量化することで、モデルの透明性がどのように向上するか？
RQ3SimplEx が、潜在空間および出力空間の再構成において、Deep k-Nearest Neighbors やレプゼンター定理といった既存手法をどの程度上回るか？
RQ4臨床的リスク予測などの現実世界の意思決定文脈において、ユーザーはコーパス重みと特徴寄与度の価値をどのように評価するか？
RQ5パーソナライズ可能なコーパスを選択できる自由が、高リスク分野におけるモデル予測に対するユーザーの信頼と理解をどのように向上させるか？

主な発見

SimplEx は、MNIST および SEER データセットにおいて、潜在空間再構成の R² スコアが 0.85～0.92 に達し、Deep k-Nearest Neighbors やレプゼンター定理を著しく上回った。
SimplEx におけるコーパス重みの使用は、均一な重み付けよりも再構成の正確性と頑健性を向上させ、再構成忠実度が 20～30% 向上した。
ユーザースタディにおいて、臨床医はコーパス重みを重要であると評価した（平均同意度：4.0/5）、うち 60% が均一な重み付けが貴重な情報を隠蔽していると同意した。
ヤコビアンプロジェクションは解釈性において不可欠であると評価され、臨床医の 90% が（平均：4.6/5）「類似性を駆動する特徴を知ることは不可欠である」と同意した。
40% の臨床医が、パーソナライズ可能なコーパス選択の自由が有益であると評価したが、この自由は追加コストを伴わず、性能を損なわず、カスタマイズ可能な説明を可能にした。
臨床ユースケースでは、臨床医が SimplEx の説明によって予測に対する自信が変化したと報告した。60% が、例（例：Bill が生存した）の結果が変われば、Joe に対するモデル予測に疑問を呈すると回答した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。