[论文解读] Finding Influential Training Samples for Gradient Boosted Decision Trees
本文提出了 FastLeafRefit 和 FastLeafInfluence,通过利用树结构稳定性与基于梯度的影响估计,实现了对梯度提升决策树(GBDT)中影响性训练样本的高效近似。这些方法能够在不进行完整微调的情况下,快速提供关于模型行为的可操作洞察——例如检测数据偏差或优先标注数据——在速度上优于完整微调,并在真实场景中准确识别影响性样本。
We address the problem of finding influential training samples for a particular case of tree ensemble-based models, e.g., Random Forest (RF) or Gradient Boosted Decision Trees (GBDT). A natural way of formalizing this problem is studying how the model's predictions change upon leave-one-out retraining, leaving out each individual training sample. Recent work has shown that, for parametric models, this analysis can be conducted in a computationally efficient way. We propose several ways of extending this framework to non-parametric GBDT ensembles under the assumption that tree structures remain fixed. Furthermore, we introduce a general scheme of obtaining further approximations to our method that balance the trade-off between performance and computational complexity. We evaluate our approaches on various experimental setups and use-case scenarios and demonstrate both the quality of our approach to finding influential training samples in comparison to the baselines and its computational efficiency.
研究动机与目标
- 解决非参数树集成模型(如 GBDT)在工业中广泛应用背景下,缺乏可扩展的影响性分析方法的问题。
- 将原本针对平滑参数化模型设计的影响函数框架,扩展至处理 GBDT 训练中不连续、不可微的特性。
- 开发计算高效的近似方法,在准确性和速度之间取得平衡,支持在真实机器学习工作流中的实际部署。
- 通过自动识别影响性训练样本(如导致数据偏差或泛化能力差的样本),实现可操作的模型改进。
- 提供一种针对目标数据整理、模型调试与主动学习的框架,通过量化单个训练实例对测试预测的影响来实现。
提出的方法
- 基于小样本变化后树结构保持不变的假设,提出以留一法微调和无穷小权重扰动为基础的代理指标 LeafRefit 和 LeafInfluence,分别用于影响性估计。
- 提出 FastLeafRefit 作为 LeafRefit 的计算高效近似方法,利用 GBDT 的可加性结构并预计算叶节点贡献,避免完整微调。
- 开发 FastLeafInfluence,一种基于梯度的方法,通过 GBDT 损失函数的解析导数,估计模型预测对训练样本权重的导数。
- 通过路径级梯度聚合与叶节点级更新计算影响分数,无需重新训练,显著降低计算成本,相比完整留一法微调有明显优势。
- 实施分层近似方案,仅选择最相关的叶节点进行影响计算,在大规模场景中实现准确率与速度的权衡。
- 利用梯度提升的结构特性——每棵树修正前序模型的误差——通过中间预测结果及一阶/二阶导数,将影响估计沿提升阶段逐层传播。
实验结果
研究问题
- RQ1能否在不进行完整微调的情况下,使 GBDT 模型的影响性估计计算上可行?
- RQ2FastLeafRefit 和 FastLeafInfluence 在多大程度上近似了通过留一法微调测得的真实影响性?
- RQ3在存在数据偏差或领域分布偏移的情况下,这些方法识别影响性样本的能力如何?
- RQ4这些方法能否指导实际的模型改进,如数据整理或主动学习?
- RQ5在不同近似层级下,影响性估计的计算效率与准确性之间存在怎样的权衡?
主要发现
- FastLeafRefit 和 FastLeafInfluence 在存在数据偏差的情况下成功识别出最具影响性的训练样本,其中年龄组 [40;50) 且标签 y=1 的样本对测试损失具有最高的负向影响。
- FastLeafInfluence 的影响分数与留一法微调高度一致,y=1 且年龄 ∈[40;50) 样本的平均影响为 -0.652,表明移除这些样本会显著增加测试损失。
- y=0 且年龄 ∈[40;50) 的样本被发现具有正面影响(如 FastLeafRefit 中 +0.151),确认其有助于对齐训练与测试数据分布。
- FastLeafRefit 和 FastLeafInfluence 在速度上相比完整微调实现了显著加速,Top64Leaves 变体在保持高影响性排序准确性的同时大幅减少计算时间。
- 这些方法在多个数据集和场景(包括合成数据、真实表格数据及领域偏移实验)中表现出鲁棒性,证实其泛化能力。
- 随着考虑的叶节点数量增加(如 Top64Leaves),近似质量提升;但即使仅使用 Top1Leaves,其结果也与完整微调高度一致,表明在极低计算开销下仍具实际应用价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。