QUICK REVIEW

[論文レビュー] xGEMs: Generating Examplars to Explain Black-Box Models

Shalmali Joshi, Oluwasanmi Koyejo|arXiv (Cornell University)|Jun 22, 2018

Explainable Artificial Intelligence (XAI)参考文献 27被引用数 18

ひとこと要約

xGEMsは、データの背後にある多様体に沿ってデータポイントを摂動することで、ブラックボックス分類器を説明する多様体ガイド付きエグジンプレを生成するフレームワークを導入する。これにより、モデルバイアスの検出、訓練中の意思決定境界のシフト可視化、精度指標を超えたモデル比較が可能になる。本手法は、データ多様体の代理として非教師付き暗黙的生成モデルを用い、信頼度多様体を活用して意思決定境界を越えてモデルの挙動を定量化する。

ABSTRACT

This work proposes xGEMs or manifold guided exemplars, a framework to understand black-box classifier behavior by exploring the landscape of the underlying data manifold as data points cross decision boundaries. To do so, we train an unsupervised implicit generative model -- treated as a proxy to the data manifold. We summarize black-box model behavior quantitatively by perturbing data samples along the manifold. We demonstrate xGEMs' ability to detect and quantify bias in model learning and also for understanding the changes in model behavior as training progresses.

研究の動機と目的

刑事裁判や医療などハイリスク分野におけるブラックボックスモデル意思決定の信頼性が高く現実的である説明の不足に対処すること。
既存の説明手法が訓練/テストサンプルや敵対的例に依存するという限界を克服すること。
パフォーマンスと解釈可能性のトレードオフを仮定せずに、データ多様体全体にわたるモデル挙動を診断するツールを提供すること。
特に性別や人種といった保護属性に関してバイアスの検出を可能とし、モデルのキャリブレーションと意思決定境界ダイナミクスの比較を可能とすること。

提案手法

背後にあるデータ多様体の代理として、非教師付き暗黙的生成モデルを訓練する。
多様体に沿った勾配ベースの摂動を用いて、ブラックボックス分類器の意思決定境界を越えるエグジンプレを生成する。
元のサンプルから意思決定境界までの距離を関数として分類器の予測確率を測定することで、'信頼度多様体'を構築する。
信頼度多様体にロジスティック関数をフィットさせ、訓練中の意思決定境界の傾きと信頼度シフトを定量化する。
クラスと保護属性（例：性別）ごとに層別化された2次元ヒストグラムを用いて、グループレベルでのモデル比較を実施する。
信頼度多様体と信頼性図を可視化・分析し、モデルキャリブレーションの評価と誤分類パターンの特定を実施する。

実験結果

リサーチクエスチョン

RQ1多様体ガイド付きエグジンプレは、性別や人種といった保護属性に関して、ブラックボックスモデルのバイアスを検出し、定量化できるか？
RQ2データ多様体に沿った信頼度多様体は、訓練中のモデル挙動の変化、特に意思決定境界の鋭さと信頼度シフトをどのように明らかにするか？
RQ3信頼度多様体とロジスティックフィットパラメータは、精度や信頼性図といった標準指標よりも、より情報豊かなモデル比較を可能にするか？
RQ4異なるモデルアーキテクチャ（例：ResNet 対 CNN+lrn）は、多様体ガイド付きエグジンプレによってプローブされた際、どのように異なる意思決定境界ダイナミクスを示すか？
RQ5多様体ガイド付きエグジンプレは、局所的近似や敵対的例に依存せずに、モデルキャリブレーションと耐性の診断ツールとしてどれほど有効に機能するか？

主な発見

同じ精度を示すモデル間でも、特定のサンプルに対する信頼度多様体は顕著に異なることが判明し、意思決定境界挙動の差を示している。
モデル2（CNN+lrn）は、モデル1（ResNet）よりも急な信頼度多様体を示しており、意思決定境界を越える予測信頼度の急激な変化を示唆している。
金髪の男性に対して、両モデルともロジスティックフィットにおける$x_0$値が低く、予測に対する信頼度が低いことが示され、キャリブレーションの問題を示唆している。
両モデルにおいて、訓練時間の経過に伴い$x_0$が減少したことは、意思決定境界が特定のサンプル（例：サンプル2：金髪の顔）に近づいていることを示しており、動的境界学習を示している。
ロジスティックフィットパラメータの2次元ヒストグラムは、性別とクラスグループごとの意思決定境界挙動の層別差を明らかにし、バイアス検出を可能にした。
信頼性図と信頼度多様体分析の組み合わせにより、精度指標だけでは不十分な場合でも、モデルキャリブレーションに関する補足的洞察が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。