Skip to main content
QUICK REVIEW

[論文レビュー] Fast TreeSHAP: Accelerating SHAP Value Computation for Trees

Jilei Yang|arXiv (Cornell University)|Sep 20, 2021
Explainable Artificial Intelligence (XAI)参考文献 29被引用数 44
ひとこと要約

本論文は、ツリーベースのモデルに対する SHAP 値計算を高速化する Fast TreeSHAP v1 および v2 を紹介し、v1 で約1.5倍、v2 で約2.5倍〜3倍の速度改善を達成し、特に控えめなメモリコストでマルチタイム解釈に有益である。

ABSTRACT

SHAP (SHapley Additive exPlanation) values are one of the leading tools for interpreting machine learning models, with strong theoretical guarantees (consistency, local accuracy) and a wide availability of implementations and use cases. Even though computing SHAP values takes exponential time in general, TreeSHAP takes polynomial time on tree-based models. While the speedup is significant, TreeSHAP can still dominate the computation time of industry-level machine learning solutions on datasets with millions or more entries, causing delays in post-hoc model diagnosis and interpretation service. In this paper we present two new algorithms, Fast TreeSHAP v1 and v2, designed to improve the computational efficiency of TreeSHAP for large datasets. We empirically find that Fast TreeSHAP v1 is 1.5x faster than TreeSHAP while keeping the memory cost unchanged. Similarly, Fast TreeSHAP v2 is 2.5x faster than TreeSHAP, at the cost of a slightly higher memory usage, thanks to the pre-computation of expensive TreeSHAP steps. We also show that Fast TreeSHAP v2 is well-suited for multi-time model interpretations, resulting in as high as 3x faster explanation of newly incoming samples.

研究の動機と目的

  • 産業界における大規模なツリーアンサンブルで SHAP 値計算を高速化する必要性を動機づける。
  • 大規模サンプルサイズに対する TreeSHAP の計算手順を分析・改善する。
  • 理論的および実証的な速度向上を持つ Fast TreeSHAP v1 および v2 の2つの variants を提案する。
  • ワンタイム解釈とマルチタイム解釈のシナリオにおける速度とメモリ使用量のトレードオフを評価する。

提案手法

  • 木の SHAP 値計算を導出・簡略化して、TreeSHAP のボトルネックを特定する。
  • パス閾値を満たす部分集合のみに対してサブセットサイズ追跡を制約し、平均作業量を削減して Fast TreeSHAP v1 を構築する。
  • 全ての C ⊆ D_k に対してサブツリー寄与 U_{D_k,C} を事前計算して、空間を時間とトレードオフすることで Fast TreeSHAP v2 を構築する。
  • v1 と v2 の理論的な時間・空間の改善を示す計算量分析を提供する。
  • incoming data に対して事前計算と高速スコアリングを可能にする Prep および Score フェーズを v2 の実装。
  • 複数のデータセットでオリジナルの TreeSHAP および Fast TreeSHAP v1 と比較して性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1ツリーアンサンブルにおける TreeSHAP 計算をどのように再定式化して時間計算量を削減できるか。
  • RQ2大規模データセットとモデルサイズの変化に対する修正された TreeSHAP アルゴリズムの実用的な速度アップはどの程度か。
  • RQ3ツリー上の SHAP のためのサブツリー寄与を事前計算する際のメモリ-時間のトレードオフは何か。
  • RQ4Fast TreeSHAP v2 が最も恩恵を受けるのはどのシナリオ(ワンタイム解釈 vs マルチタイム解釈)か。

主な発見

  • Fast TreeSHAP v1 は、同じメモリフットプリントで TreeSHAP より約1.5倍高速な計算を提供する。
  • Fast TreeSHAP v2 は TreeSHAP より約2.5〜3倍の速度アップを達成し、メモリ使用量は控えめに増加する。
  • Fast TreeSHAP v2 は事前計算ステップのおかげでマルチタイムモデル解釈に特に適している。
  • データセットとモデルサイズをまたいで、モデルサイズが大きくなるほど Fast TreeSHAP v2 の速度向上が大きくなり、巨大モデルでは前処理時間が増加する。
  • バランス木では、スコアフェーズで線形時間スケーリングの改善を達成し、実務上最大で3xの速度向上を実現できる。
  • SHAP 値の精度は数値精度まで、元の TreeSHAP と一致している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。