Skip to main content
QUICK REVIEW

[論文レビュー] Finding Influential Training Samples for Gradient Boosted Decision Trees

Boris Sharchilev, Yury Ustinovsky|arXiv (Cornell University)|Feb 19, 2018
Explainable Artificial Intelligence (XAI)参考文献 15被引用数 19
ひとこと要約

本稿では、勾配ブースティング決定木(GBDT)における影響力のあるトレーニングサンプルを特定するための効率的で近似可能な手法、FastLeafRefit および FastLeafInfluence を提案する。これらの手法は、木構造の安定性と勾配ベースの影響推定に裏打ちされたものであり、フルリトレーニングに比べて高速に、かつ正確に、モデル挙動に関する即効性のあるインサイト(例:データバイアスの検出、ラベル付けの優先順位付け)を提供する。実世界のシナリオにおいて、影響力のあるサンプルを的確に同定する点で、フルリトレーニングを上回る性能を示す。

ABSTRACT

We address the problem of finding influential training samples for a particular case of tree ensemble-based models, e.g., Random Forest (RF) or Gradient Boosted Decision Trees (GBDT). A natural way of formalizing this problem is studying how the model's predictions change upon leave-one-out retraining, leaving out each individual training sample. Recent work has shown that, for parametric models, this analysis can be conducted in a computationally efficient way. We propose several ways of extending this framework to non-parametric GBDT ensembles under the assumption that tree structures remain fixed. Furthermore, we introduce a general scheme of obtaining further approximations to our method that balance the trade-off between performance and computational complexity. We evaluate our approaches on various experimental setups and use-case scenarios and demonstrate both the quality of our approach to finding influential training samples in comparison to the baselines and its computational efficiency.

研究の動機と目的

  • 産業界で広く使われている非パrametricな木アンサンブルモデル(GBDT)に対して、スケーラブルな影響力分析手法の不足に対処すること。
  • 滑らかなパrametricモデルを想定したもともとの影響関数フレームワークを、GBDT の訓練における不連続的かつ微分不能な性質に対応できるように拡張すること。
  • 正確性と速度のバランスを取った、計算的に効率的な近似手法を開発し、実世界の機械学習ワークフローにおける実用的導入を可能にすること。
  • データバイアスや一般化性能の低下を引き起こすトレーニングサンプルを自動で同定することで、モデル改善を促進すること。
  • 個々のトレーニングインスタンスがテスト予測に与える影響を定量化することで、標的データキュレーション、モデルデバッグ、アクティブラーニングのフレームワークを提供すること。

提案手法

  • 小さなトレーニングサンプルの変更後も木構造が固定されると仮定し、Leave-One-Out リトレーニングと無限小の重み摂動に基づいて、それぞれ LeafRefit および LeafInfluence を影響力の代理指標として提案する。
  • GBDT の加法的構造を活用し、フルリトレーニングを避けるためにリーフレベルの寄与度を事前計算することで、LeafRefit の計算的に効率的な近似である FastLeafRefit を導入する。
  • GBDT 損失関数の解析的導関数を用いて、トレーニングサンプルの重みに関するモデル予測の微分を推定する勾配ベースの手法である FastLeafInfluence を開発する。
  • パスベースの勾配集約とリーフレベルの更新を用いて、再トレーニングなしに影響スコアを計算し、フル Leave-One-Out リトレーニングに比べて計算コストを著しく削減する。
  • 大規模な設定においては、影響計算に必要なリーフのみを選択する階層的近似スキームを実装し、精度を犠牲にして速度を確保する。
  • 各木が前のモデルの誤差を是正する勾配ブースティングの構造を活用し、中間予測および1階・2階微分を用いて、ブースティング段階を跨いで影響推定値を伝搬する。

実験結果

リサーチクエスチョン

  • RQ1フルリトレーニングなしで、GBDT モデルの影響力推定を計算的に実行可能にすることができるか?
  • RQ2FastLeafRefit および FastLeafInfluence は、Leave-One-Out リトレーニングで測定された真の影響をどの程度正確に近似できるか?
  • RQ3データバイアスやドメインシフトの存在下でも、これらの手法は影響力のあるサンプルをどれほど的確に同定できるか?
  • RQ4これらの手法は、データキュレーションやアクティブラーニングなどの実用的モデル改善を支援できるか?
  • RQ5さまざまな近似レベルにおいて、計算効率と正確性のトレードオフはどのように変化するか?

主な発見

  • FastLeafRefit および FastLeafInfluence は、データバイアスの存在下でも、最も影響力のあるトレーニングサンプルを的確に同定した。特に、年齢層 [40;50) でラベル y=1 のサンプルは、テスト損失に対して最も高い負の影響を示した。
  • FastLeafInfluence の影響スコアは、Leave-One-Out リトレーニングと非常に一貫しており、y=1、年齢∈[40;50) のサンプルでは平均影響が -0.652 であった。これは、これらのサンプルを削除するとテスト損失が著しく上昇することを示している。
  • y=0 で年齢∈[40;50) のサンプルは、正の影響(例:FastLeafRefit で +0.151)を示しており、トレーニングとテストのデータ分布を一致させるのに寄与していることが確認された。
  • FastLeafRefit および FastLeafInfluence は、フルリトレーニングに比べて顕著な高速化を達成した。特に Top64Leaves バリエーションは、計算時間を短縮しながらも、影響力順序のランキング精度を高い水準で維持した。
  • これらの手法は、合成データ、実世界のテーブルデータ、ドメインシフト実験を含む複数のデータセットおよびシナリオで、強固な性能を示し、一般化能が確認された。
  • 考慮するリーフ数を増やすほど近似の品質が向上した(例:Top64Leaves)。しかし、Top1Leaves ですら、フルリトレーニングの結果と強い一致を示しており、最小限のオーバーヘッドで実用的な有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。