Skip to main content
QUICK REVIEW

[論文レビュー] Consistent Individualized Feature Attribution for Tree Ensembles

Scott Lundberg, Gabriel Erion|arXiv (Cornell University)|Feb 12, 2018
Forest ecology and management参考文献 22被引用数 552
ひとこと要約

本論文は一般的な木モデルの特徴寄与の一貫性のない点を指摘し、木アンサンブルの正確で一貫した個別説明を可能にする fast Tree SHAP アルゴリズムと SHAP 交互作用値を用いた SHAP 値を導入する。

ABSTRACT

Interpreting predictions from tree ensemble methods such as gradient boosting machines and random forests is important, yet feature attribution for trees is often heuristic and not individualized for each prediction. Here we show that popular feature attribution methods are inconsistent, meaning they can lower a feature's assigned importance when the true impact of that feature actually increases. This is a fundamental problem that casts doubt on any comparison between features. To address it we turn to recent applications of game theory and develop fast exact tree solutions for SHAP (SHapley Additive exPlanation) values, which are the unique consistent and locally accurate attribution values. We then extend SHAP values to interaction effects and define SHAP interaction values. We propose a rich visualization of individualized feature attributions that improves over classic attribution summaries and partial dependence plots, and a unique "supervised" clustering (clustering based on feature attributions). We demonstrate better agreement with human intuition through a user study, exponential improvements in run time, improved clustering performance, and better identification of influential features. An implementation of our algorithm has also been merged into XGBoost and LightGBM, see http://github.com/slundberg/shap for details.

研究の動機と目的

  • ツリー ensemble に対する一貝性のある個別特徴付与の必要性を動機づけ、 formalize する。
  • 加法的特徴付与における唯一の一貫性があり局所的に正確な属性付与として SHAP 値を提案する。
  • 大規模な木アンサンブルの SHAP 値を計算するための高速かつ正確な Tree SHAP アルゴリズムを開発する。
  • SHAP を SHAP 交互作用値へ拡張し、特徴間の相互作用を捉える。
  • 視覚化、クラスタリング、実データ応用を通じて実用的な利点を示す。

提案手法

  • f_x(S)=E[f(x) | x_S] を定義し、唯一の一貫性があり局所的に正確な属性付与として SHAP 値を導出する。
  • Tree SHAP を開発し SHAP 値を O(TLD^2) 時間で計算する。これはナイーブな O(TL2^M) アプローチの多項式時間代替である。
  • Shapley 交互作用指数を用いて SHAP 交互作用値へ拡張し、特徴間の相互作用を定量化する。
  • SHAP 依存プロットと SHAP サマリープロットの可視化ツールを導入し、SHAP Attribute に基づく監督付きクラスタリングを追加する。
  • 実用的な利用のために XGBoost および LightGBM との統合実装を提供する。

実験結果

リサーチクエスチョン

  • RQ1SHAP 値は木アンサンブルにおける唯一の一貫性があり局所的に正確な個別特徴付与を提供するのか?
  • RQ2大規模な木アンサンブルに対して SHAP 値を効率的に計算する方法は?
  • RQ3SHAP 交互作用値は木モデル内の特徴相互作用を明らかにする役割を果たすか?
  • RQ4SHAP ベースの可視化と監督付きクラスタリングは既存の方法と比べ解釈性と実用的洞察を改善するのか?

主な発見

  • SHAP 値は欠測と条件依存の下で木アンサンブルに対する唯一の一貫性があり局所的に正確な個別属性付与である。
  • Tree SHAP は O(TLD^2) 時間で正確な SHAP 値を計算し、大規模モデルの説明を実現できる。
  • SHAP 交互作用値は予測内の特徴相互作用を原理的かつ対称的に測る指標を提供する。
  • SHAP に基づく可視化(サマリーおよび依存プロット)と監督付きクラスタリングは人間の直感との整合性とクラスタリング性能を向上させる。
  • 実証的デモンストレーションは以前の方法に比べて実行時間が短く、影響力のある特徴の識別が改善され、相互作用の洞察がより明確であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。