Skip to main content
QUICK REVIEW

[論文レビュー] A Simple and Effective Model-Based Variable Importance Measure

Brandon Greenwell, Bradley C. Boehmke|arXiv (Cornell University)|May 12, 2018
Data Analysis with R参考文献 16被引用数 69
ひとこと要約

標準化された、モデルベースの変数重要度指標を部分依存プロット(PDP)を用いて提案し、監視学習アルゴリズム全体に適用可能。GBM、NN、AutoMLアンサンブルでのデモを行う。PDPを用いた相互作用の強さ評価方法を示し、FriedmanのH統計と比較する。

ABSTRACT

In the era of "big data", it is becoming more of a challenge to not only build state-of-the-art predictive models, but also gain an understanding of what's really going on in the data. For example, it is often of interest to know which, if any, of the predictors in a fitted model are relatively influential on the predicted outcome. Some modern algorithms---like random forests and gradient boosted decision trees---have a natural way of quantifying the importance or relative influence of each feature. Other algorithms---like naive Bayes classifiers and support vector machines---are not capable of doing so and model-free approaches are generally used to measure each predictor's importance. In this paper, we propose a standardized, model-based approach to measuring predictor importance across the growing spectrum of supervised learning algorithms. Our proposed method is illustrated through both simulated and real data examples. The R code to reproduce all of the figures in this paper is available in the supplementary materials.

研究の動機と目的

  • さまざまな監督付き学習アルゴリズム全体で、 predictor の重要度を定量化する標準化された方法を提供する。
  • PDPを介して予測と predictors の関係の推定に基づく変数重要度を関連付ける。
  • スタック、AutoMLなどのアンサンブルおよび複雑なモデルの変数重要度の解釈を可能にする。
  • PDPを用いて predictors 間の潜在的な相互作用効果を評価する機構を提供する。

提案手法

  • fitted model から各予測子の部分依存関数を計算する。
  • PDP の平坦さ指標として変数重要度を定量化し、連続予測子には標本標準偏差、カテゴリカル予測子には (range/4) を用いる。
  • アルゴリズム1を適用して、値のグリッド全体で各予測子の PDP 値を生成する。
  • 線形モデルでは、独立性と一様性の下で提案された指標が標準的な t 統計に基づく解釈と一致することを示す。
  • 標準偏差を用いた joint PDP の相互作用強度への拡張を行い、Friedman の H 統計量との比較を論じる。

実験結果

リサーチクエスチョン

  • RQ1 PDP を用いて単一のモデル非依存の変数重要度スコアを定義し、さまざまなアルゴリズム間で解釈可能にできるか。
  • RQ2 PDP の平坦さ(変動性)は予測結果に対する予測子の影響を信頼性高く示すか。
  • RQ3 PDP ベースの重要度は予測子間の相互作用効果をどう定量化できるか。
  • RQ4 Ames housing のような実データや AutoML/スタック済みアンサンブルで PDP ベースの重要度は実務でどのように機能するか。

主な発見

  • PDP ベースの重要度指標は実データで直感的な重要性と一致し、モデル特有の重要度(例:GBM)を Mirror または洗練させることができる。
  • Ames housing の例では Overall_Qual、Neighborhood、Gr_Liv_Area が top 予測子として現れ、従来の重要度と比較していくらか再順序化される。
  • この手法は Friedman の回帰 NN の例で真の予測子を正しく特定し、Garson や Olden を上回る。
  • アンサンブルおよび AutoML にも適用可能で、複雑なパイプラインからの変数重要度の解釈を可能にする。
  • joint PDP 標準偏差を用いた相互作用強度の診断は真の相互作用を特定し、場合によっては Friedman の H 統計量よりも優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。