[論文レビュー] Explaining black box decisions by Shapley cohort refinement
この論文では、ターゲットインスタンスの周囲に類似度に基づくコhortを形成することで、観測済みデータのみを用いてブラックボックスモデルの意思決定を説明する、新しい変数重要度手法であるコホート・シャープレーを提案する。ベースライン・シャープレーとは異なり、予測子の類似度に基づいて被験者の含む/含まないを調整することでコホートを精緻化することで、非現実的な反事後的仮定を回避し、より信頼性が高く直感的な重要度スコアを提供する。これにより、間接的影響を捉え、同一の予測子に対して等しい重要度を保証することができる。
We introduce a variable importance measure to quantify the impact of individual input variables to a black box function. Our measure is based on the Shapley value from cooperative game theory. Many measures of variable importance operate by changing some predictor values with others held fixed, potentially creating unlikely or even logically impossible combinations. Our cohort Shapley measure uses only observed data points. Instead of changing the value of a predictor we include or exclude subjects similar to the target subject on that predictor to form a similarity cohort. Then we apply Shapley value to the cohort averages. We connect variable importance measures from explainable AI to function decompositions from global sensitivity analysis. We introduce a squared cohort Shapley value that splits previously studied Shapley effects over subjects, consistent with a Shapley axiom.
研究の動機と目的
- 非現実的または不自然な入力組み合わせを避けることで、ブラックボックスモデルの説明におけるベースライン・シャープレー値の限界を是正すること。
- 外挿を避けるために、観測済みデータポイントにのみ依存する変数重要度測定を構築すること。
- レッドリンディング監査のような文脈で、モデルに使用されていない変数からの間接的影響を検出できること。
- モデル固有のバイアスを避けるために、同一の予測子に対して等しい重要度を保証すること。
- モデルに依存しないおよび最近傍ベースの感度分析をサポートする手法を提供すること。
提案手法
- コホート・シャープレーは、各変数について類似度しきい値を用いて、ターゲットと類似した被験者を予測子の部分集合に対して選択することで、$2^d$ 個のコホートを形成する。
- 各予測子について、類似した被験者のみを含むようにコホートを精緻化することで、コホート平均予測値がどの程度変化するかを評価する。
- これらのコホート平均値を基にシャープレー値を計算することで、変数重要度を割り当て、シャープレー公理を満たす。
- 高次元データに対しては、モンテカルロサンプリングを用いてシャープレー値を効率的に近似する。
- モデルベースおよび応答ベースのコホート平均化をサポートすることで、異なる仮定下での感度分析を可能にする。
- 『類似した』被験者を定義するための類似度測定を用い、この測定の選択が最終的な重要度スコアに影響を与える。
実験結果
リサーチクエスチョン
- RQ1非現実的な反事後的入力を必要とせずに、ブラックボックスモデルの意思決定をどのように説明できるか?
- RQ2観測済みデータにのみ依存し、外挿を避ける変数重要度測定を設計できるか?
- RQ3相関的または重複する予測子に対して、コホート・シャープレーはベースライン・シャープレーと比較して真の予測的影響をどれほど正しく捉えられるか?
- RQ4コホート・シャープレーは、保護属性のようなモデルに使用されていない変数からの間接的影響を検出できるか?
- RQ5コホート・シャープレーは、モデル固有のアーティファクトに左右されず、同一の予測子に対して等しい重要度を保証するか?
主な発見
- ボストン住宅データセットにおいて、コホート・シャープレーは、ベースライン・シャープレーで最も重要な変数とされた'CRIM'を、非現実的な合成データポイントに依存していたため、最も重要な変数から最も重要でない変数の一つに再分類した。
- コホート・シャープレーは、'RM'、'ZN'、'LSTAT'を主な影響要因と特定した。これは、'ZN'がモデルに使用されていなくても、構造的依存関係を捉えられることを示している。
- この手法は、'ZN'の精緻化がコホート内での'LSTAT'値を間接的に低減させることを明らかにした。これは、'LSTAT'が低頻度で使用されていたにもかかわらず、高い重要度を示す理由を説明している。
- ベースライン・シャープレーでは、'ZN'がモデルに使用されていなかったため重要度がゼロであったが、コホート・シャープレーでは、コホート構成への間接的影響により非ゼロの重要度が割り当てられた。
- コホート・シャープレーの重要度スコアは、外挿された反事後的仮定ではなく、実際のデータ分布に基づいているため、より安定的で解釈可能であった。
- 数値解析の結果、マージナルサンプリングはホールアウトデータセットよりも著しく非現実的なデータポイントを生成することが判明し、コホートベースの手法の必要性を裏付けた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。