Skip to main content
QUICK REVIEW

[论文解读] Finding Influential Training Samples for Gradient Boosted Decision Trees

Boris Sharchilev, Yury Ustinovsky|arXiv (Cornell University)|Feb 19, 2018
Explainable Artificial Intelligence (XAI)参考文献 15被引用 19
一句话总结

本文提出了 FastLeafRefit 和 FastLeafInfluence,通过利用树结构稳定性与基于梯度的影响估计,实现了对梯度提升决策树(GBDT)中影响性训练样本的高效近似。这些方法能够在不进行完整微调的情况下,快速提供关于模型行为的可操作洞察——例如检测数据偏差或优先标注数据——在速度上优于完整微调,并在真实场景中准确识别影响性样本。

ABSTRACT

We address the problem of finding influential training samples for a particular case of tree ensemble-based models, e.g., Random Forest (RF) or Gradient Boosted Decision Trees (GBDT). A natural way of formalizing this problem is studying how the model's predictions change upon leave-one-out retraining, leaving out each individual training sample. Recent work has shown that, for parametric models, this analysis can be conducted in a computationally efficient way. We propose several ways of extending this framework to non-parametric GBDT ensembles under the assumption that tree structures remain fixed. Furthermore, we introduce a general scheme of obtaining further approximations to our method that balance the trade-off between performance and computational complexity. We evaluate our approaches on various experimental setups and use-case scenarios and demonstrate both the quality of our approach to finding influential training samples in comparison to the baselines and its computational efficiency.

研究动机与目标

  • 解决非参数树集成模型(如 GBDT)在工业中广泛应用背景下,缺乏可扩展的影响性分析方法的问题。
  • 将原本针对平滑参数化模型设计的影响函数框架,扩展至处理 GBDT 训练中不连续、不可微的特性。
  • 开发计算高效的近似方法,在准确性和速度之间取得平衡,支持在真实机器学习工作流中的实际部署。
  • 通过自动识别影响性训练样本(如导致数据偏差或泛化能力差的样本),实现可操作的模型改进。
  • 提供一种针对目标数据整理、模型调试与主动学习的框架,通过量化单个训练实例对测试预测的影响来实现。

提出的方法

  • 基于小样本变化后树结构保持不变的假设,提出以留一法微调和无穷小权重扰动为基础的代理指标 LeafRefit 和 LeafInfluence,分别用于影响性估计。
  • 提出 FastLeafRefit 作为 LeafRefit 的计算高效近似方法,利用 GBDT 的可加性结构并预计算叶节点贡献,避免完整微调。
  • 开发 FastLeafInfluence,一种基于梯度的方法,通过 GBDT 损失函数的解析导数,估计模型预测对训练样本权重的导数。
  • 通过路径级梯度聚合与叶节点级更新计算影响分数,无需重新训练,显著降低计算成本,相比完整留一法微调有明显优势。
  • 实施分层近似方案,仅选择最相关的叶节点进行影响计算,在大规模场景中实现准确率与速度的权衡。
  • 利用梯度提升的结构特性——每棵树修正前序模型的误差——通过中间预测结果及一阶/二阶导数,将影响估计沿提升阶段逐层传播。

实验结果

研究问题

  • RQ1能否在不进行完整微调的情况下,使 GBDT 模型的影响性估计计算上可行?
  • RQ2FastLeafRefit 和 FastLeafInfluence 在多大程度上近似了通过留一法微调测得的真实影响性?
  • RQ3在存在数据偏差或领域分布偏移的情况下,这些方法识别影响性样本的能力如何?
  • RQ4这些方法能否指导实际的模型改进,如数据整理或主动学习?
  • RQ5在不同近似层级下,影响性估计的计算效率与准确性之间存在怎样的权衡?

主要发现

  • FastLeafRefit 和 FastLeafInfluence 在存在数据偏差的情况下成功识别出最具影响性的训练样本,其中年龄组 [40;50) 且标签 y=1 的样本对测试损失具有最高的负向影响。
  • FastLeafInfluence 的影响分数与留一法微调高度一致,y=1 且年龄 ∈[40;50) 样本的平均影响为 -0.652,表明移除这些样本会显著增加测试损失。
  • y=0 且年龄 ∈[40;50) 的样本被发现具有正面影响(如 FastLeafRefit 中 +0.151),确认其有助于对齐训练与测试数据分布。
  • FastLeafRefit 和 FastLeafInfluence 在速度上相比完整微调实现了显著加速,Top64Leaves 变体在保持高影响性排序准确性的同时大幅减少计算时间。
  • 这些方法在多个数据集和场景(包括合成数据、真实表格数据及领域偏移实验)中表现出鲁棒性,证实其泛化能力。
  • 随着考虑的叶节点数量增加(如 Top64Leaves),近似质量提升;但即使仅使用 Top1Leaves,其结果也与完整微调高度一致,表明在极低计算开销下仍具实际应用价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。