Skip to main content
QUICK REVIEW

[論文レビュー] Explainable AI for Trees: From Local Explanations to Global Understanding

Scott Lundberg, Gabriel Erion|arXiv (Cornell University)|May 11, 2019
Explainable Artificial Intelligence (XAI)参考文献 68被引用数 262
ひとこと要約

この論文は TreeExplainer を提案し、木モデルの SHAP ベースの局所説明を正確に計算する多項式時間アルゴリズムを示す。局所的な相互作用を捉えるよう拡張し、多くの局所説明から全体像を構築する方法を示す。医療データセットにおける死亡、腎疾患、病院手技の所要時間などの応用、モデルの監視とサブグループ発見も実証する。

ABSTRACT

Tree-based machine learning models such as random forests, decision trees, and gradient boosted trees are the most popular non-linear predictive models used in practice today, yet comparatively little attention has been paid to explaining their predictions. Here we significantly improve the interpretability of tree-based models through three main contributions: 1) The first polynomial time algorithm to compute optimal explanations based on game theory. 2) A new type of explanation that directly measures local feature interaction effects. 3) A new set of tools for understanding global model structure based on combining many local explanations of each prediction. We apply these tools to three medical machine learning problems and show how combining many high-quality local explanations allows us to represent global structure while retaining local faithfulness to the original model. These tools enable us to i) identify high magnitude but low frequency non-linear mortality risk factors in the general US population, ii) highlight distinct population sub-groups with shared risk characteristics, iii) identify non-linear interaction effects among risk factors for chronic kidney disease, and iv) monitor a machine learning model deployed in a hospital by identifying which features are degrading the model's performance over time. Given the popularity of tree-based machine learning models, these improvements to their interpretability have implications across a broad set of domains.

研究の動機と目的

  • 木ベースのモデル(ランダムフォレスト、勾配ブースト木)の解釈性を改善するため、ゲーム理論上の保証を伴う正確な局所説明を提供する。
  • 局所説明を拡張して特徴相互作用を直接測定できるようにする。
  • 多数の局所説明を集約してグローバルなモデル構造を推定するツールを開発し、実践的な医療応用を示す。

提案手法

  • TreeExplainer を開発し、木のアンサンブルに対して SHAP 値を正確に多項式時間で計算する。
  • 局所的な特徴相互作用を捉える SHAP 相互作用値を導入する。
  • 局所的な忠実性を保持しつつ、局所説明をグローバルなモデル理解へ結びつける5つの方法を提案する。
  • 3つのデータセットとモデルに対して21の局所説明指標で評価する。
  • 大手木ベースの ML パッケージと統合された高性能実装を提供する。

実験結果

リサーチクエスチョン

  • RQ1木モデルに対して、正確な Shapley ベースの局所説明を効率的に計算できるか?
  • RQ2局所説明をどう拡張して局所レベルでの特徴相互作用を定量化するか?
  • RQ3多数の局所説明を集約してグローバルなモデル構造と挙動を明らかにするにはどうするか?
  • RQ4SHAP ベースの説明は医療の意思決定文脈で人間の直感と一致するか?
  • RQ5局所説明を用いて展開済みモデルを監視し、データドリフトや時間経過による問題を検出できるか?

主な発見

  • TreeExplainer は SHAP 値を正確に多項式時間で計算し、局所的な精度と一貫性の保証を提供する。
  • SHAP 相互作用値は、局所レベルで主効果と相互作用の成分に分解することを可能にする。
  • 多数の局所説明を集約することで、伝統的なグローバルな特徴重要度よりも豊かで忠実なグローバルモデル表現を得られる。
  • TreeExplainer は CKD、死亡、病院滞在データセットで21の評価指標において他の局所説明手法を上回る。
  • 局所説明埋め込みは、人口サブグループの監督付きクラスタリングと解釈可能な次元削減を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。