Skip to main content
QUICK REVIEW

[論文レビュー] All Models are Wrong but many are Useful: Variable Importance for Black-Box, Proprietary, or Misspecified Prediction Models, using Model Class Reliance

Aaron Fisher, Cynthia Rudin|arXiv (Cornell University)|Jan 4, 2018
Statistical Methods and Bayesian Inference被引用数 87
ひとこと要約

本稿では、ブラックボックス型または特許化されたモデルにおける変数の重要度の不安定性に対処するため、事前に定義されたモデルクラス内のすべての良好に適合するモデルにおける変数の重要度を評価する手法であるモデルクラス依存度(MCR)を導入する。確率的境界を導出し、順列ベースの重要度をU統計量および因果効果と結びつけることで、レースや性別などの予測子への依存度を評価する、堅牢で一般化可能なフレームワークを提供する。

ABSTRACT

Variable importance (VI) tools describe how much covariates contribute to a prediction model's accuracy. However, important variables for one well-performing model (for example, a linear model $f(\mathbf{x})=\mathbf{x}^{T}\beta$ with a fixed coefficient vector $\beta$) may be unimportant for another model. In this paper, we propose model class reliance (MCR) as the range of VI values across all well-performing model in a prespecified class. Thus, MCR gives a more comprehensive description of importance by accounting for the fact that many prediction models, possibly of different parametric forms, may fit the data well. In the process of deriving MCR, we show several informative results for permutation-based VI estimates, similar to the VI measures used in Random Forests. Specifically, we derive connections between permutation importance estimates for a single prediction model, U-statistics, conditional causal effects, and linear model coefficients. We then give probabilistic bounds for MCR, using a novel, generalizable technique. We apply MCR in a public dataset of Broward County criminal records to study the reliance of recidivism prediction models on sex and race. In this application, MCR can be used to help inform VI for unknown, proprietary models.

研究の動機と目的

  • 異なる良好に適合するモデル間での変数の重要度測定の不安定性、特にブラックボックス型または特許化されたシステムにおける問題を解決すること。
  • 単一のモデルに依存するのではなく、モデルクラスのばらつきを考慮した包括的な変数の重要度測定を構築すること。
  • 順列ベースの重要度推定に適用可能な、新しい一般化可能な技法を用いて、変数の重要度の確率的境界を導出すること。
  • レースや性別などの感受性のある属性への依存度を定量化することで、予後予測モデルのような高リスクの予測モデルにおける倫理的および解釈可能性の懸念を支援すること。

提案手法

  • 事前に定義されたモデルクラス内のすべての良好に適合するモデルにおける変数の重要度値の範囲として、モデルクラス依存度(MCR)を定義する。
  • 順列ベースの変数の重要度推定を用い、U統計量と結びつけることで、理論的性質および安定性の保証を得る。
  • 順列重要度と条件付き因果効果、および線形モデルの係数との間の関係を確立することで、予測モデリングにおける解釈性を向上させる。
  • さまざまなモデルクラスおよびデータタイプに適用可能な、新しい一般化可能な技法を用いて、MCRの確率的境界を導出する。
  • ブロワード郡の犯罪記録の公開データセットを用い、再犯予測モデルにおける性別およびレースへの依存度を評価する。

実験結果

リサーチクエスチョン

  • RQ1与えられたモデルクラス内における異なる良好に適合するモデル間で、変数の重要度はどのように変動するか?
  • RQ2順列ベースの変数の重要度推定は、正式にU統計量および因果効果と結びつけることができるか?
  • RQ3モデルの形が不明または不明瞭な場合、変数の重要度の確率的境界は何か?
  • RQ4MCRは、内部構造が入手不能な特許化されたまたはブラックボックス型モデルが感受性のある属性(レースや性別)にどれほど依存しているかをどのように評価するのを支援するか?
  • RQ5MCRは、実世界の予測システムにおける解釈性および公平性の評価をどの程度向上させることができるか?

主な発見

  • MCRは、モデルクラス内のすべての良好に適合するモデルにおける変数の重要度値の範囲を提供し、単一モデルの重要度よりもより堅牢で包括的な測定を可能にする。
  • 順列ベースの変数の重要度推定は正式にU統計量と結びつけられ、理論的分析および安定性の評価が可能になる。
  • 本手法は、順列重要度と条件付き因果効果との間の関係を確立し、予測モデリングにおける解釈性を向上させる。
  • MCRの確率的境界は、新しい一般化可能な技法を用いて導出され、モデルの形が不明な場合でも推論を可能にする。
  • ブロワード郡の再犯データセットにおいて、MCRは良好に適合するモデル間でレースや性別への依存度に顕著なばらつきがあることを明らかにした。これはモデルクラス依存性を示している。
  • MCRは、内部構造が入手不能な特許化されたまたはブラックボックス型モデルに対しても、意味のある変数の重要度評価を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。