QUICK REVIEW

[论文解读] Finding Influential Training Samples for Gradient Boosted Decision Trees

Boris Sharchilev, Yury Ustinovsky|arXiv (Cornell University)|Feb 19, 2018

Explainable Artificial Intelligence (XAI)参考文献 15被引用 19

一句话总结

本文提出了 FastLeafRefit 和 FastLeafInfluence，通过利用树结构稳定性与基于梯度的影响估计，实现了对梯度提升决策树（GBDT）中影响性训练样本的高效近似。这些方法能够在不进行完整微调的情况下，快速提供关于模型行为的可操作洞察——例如检测数据偏差或优先标注数据——在速度上优于完整微调，并在真实场景中准确识别影响性样本。

ABSTRACT

We address the problem of finding influential training samples for a particular case of tree ensemble-based models, e.g., Random Forest (RF) or Gradient Boosted Decision Trees (GBDT). A natural way of formalizing this problem is studying how the model's predictions change upon leave-one-out retraining, leaving out each individual training sample. Recent work has shown that, for parametric models, this analysis can be conducted in a computationally efficient way. We propose several ways of extending this framework to non-parametric GBDT ensembles under the assumption that tree structures remain fixed. Furthermore, we introduce a general scheme of obtaining further approximations to our method that balance the trade-off between performance and computational complexity. We evaluate our approaches on various experimental setups and use-case scenarios and demonstrate both the quality of our approach to finding influential training samples in comparison to the baselines and its computational efficiency.

研究动机与目标

解决非参数树集成模型（如 GBDT）在工业中广泛应用背景下，缺乏可扩展的影响性分析方法的问题。
将原本针对平滑参数化模型设计的影响函数框架，扩展至处理 GBDT 训练中不连续、不可微的特性。
开发计算高效的近似方法，在准确性和速度之间取得平衡，支持在真实机器学习工作流中的实际部署。
通过自动识别影响性训练样本（如导致数据偏差或泛化能力差的样本），实现可操作的模型改进。
提供一种针对目标数据整理、模型调试与主动学习的框架，通过量化单个训练实例对测试预测的影响来实现。

提出的方法

基于小样本变化后树结构保持不变的假设，提出以留一法微调和无穷小权重扰动为基础的代理指标 LeafRefit 和 LeafInfluence，分别用于影响性估计。
提出 FastLeafRefit 作为 LeafRefit 的计算高效近似方法，利用 GBDT 的可加性结构并预计算叶节点贡献，避免完整微调。
开发 FastLeafInfluence，一种基于梯度的方法，通过 GBDT 损失函数的解析导数，估计模型预测对训练样本权重的导数。
通过路径级梯度聚合与叶节点级更新计算影响分数，无需重新训练，显著降低计算成本，相比完整留一法微调有明显优势。
实施分层近似方案，仅选择最相关的叶节点进行影响计算，在大规模场景中实现准确率与速度的权衡。
利用梯度提升的结构特性——每棵树修正前序模型的误差——通过中间预测结果及一阶/二阶导数，将影响估计沿提升阶段逐层传播。

实验结果

研究问题

RQ1能否在不进行完整微调的情况下，使 GBDT 模型的影响性估计计算上可行？
RQ2FastLeafRefit 和 FastLeafInfluence 在多大程度上近似了通过留一法微调测得的真实影响性？
RQ3在存在数据偏差或领域分布偏移的情况下，这些方法识别影响性样本的能力如何？
RQ4这些方法能否指导实际的模型改进，如数据整理或主动学习？
RQ5在不同近似层级下，影响性估计的计算效率与准确性之间存在怎样的权衡？

主要发现

FastLeafRefit 和 FastLeafInfluence 在存在数据偏差的情况下成功识别出最具影响性的训练样本，其中年龄组 [40;50) 且标签 y=1 的样本对测试损失具有最高的负向影响。
FastLeafInfluence 的影响分数与留一法微调高度一致，y=1 且年龄 ∈[40;50) 样本的平均影响为 -0.652，表明移除这些样本会显著增加测试损失。
y=0 且年龄 ∈[40;50) 的样本被发现具有正面影响（如 FastLeafRefit 中 +0.151），确认其有助于对齐训练与测试数据分布。
FastLeafRefit 和 FastLeafInfluence 在速度上相比完整微调实现了显著加速，Top64Leaves 变体在保持高影响性排序准确性的同时大幅减少计算时间。
这些方法在多个数据集和场景（包括合成数据、真实表格数据及领域偏移实验）中表现出鲁棒性，证实其泛化能力。
随着考虑的叶节点数量增加（如 Top64Leaves），近似质量提升；但即使仅使用 Top1Leaves，其结果也与完整微调高度一致，表明在极低计算开销下仍具实际应用价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。