[论文解读] DART: Dropouts meet Multiple Additive Regression Trees
本文提出 DART,一种用于多重加法回归树(MART)的新型正则化技术,通过在训练过程中随机丢弃整个树来应对过专业化问题——即后期添加的树仅对少数样本有贡献。DART 在排序、回归和分类任务中显著优于 MART 和随机森林,通过确保各棵树的贡献更加均衡并提升泛化能力,从而实现更优性能。
Multiple Additive Regression Trees (MART), an ensemble model of boosted regression trees, is known to deliver high prediction accuracy for diverse tasks, and it is widely used in practice. However, it suffers an issue which we call over-specialization, wherein trees added at later iterations tend to impact the prediction of only a few instances, and make negligible contribution towards the remaining instances. This negatively affects the performance of the model on unseen data, and also makes the model over-sensitive to the contributions of the few, initially added tress. We show that the commonly used tool to address this issue, that of shrinkage, alleviates the problem only to a certain extent and the fundamental issue of over-specialization still remains. In this work, we explore a different approach to address the problem that of employing dropouts, a tool that has been recently proposed in the context of learning deep neural networks. We propose a novel way of employing dropouts in MART, resulting in the DART algorithm. We evaluate DART on ranking, regression and classification tasks, using large scale, publicly available datasets, and show that DART outperforms MART in each of the tasks, with a significant margin. We also show that DART overcomes the issue of over-specialization to a considerable extent.
研究动机与目标
- 解决 MART 中的过专业化问题,即后期添加的树仅对少数训练样本有贡献,从而降低模型的鲁棒性和泛化能力。
- 克服 MART 中标准正则化方法——收缩(shrinkage)——的局限性,该方法在集成规模增大时无法完全解决过专业化问题。
- 提出一种受深度神经网络中 dropout 启发的新正则化形式,但将其应用于整棵树而非特征或神经元层面。
- 证明在训练过程中丢弃整棵树可使集成中所有树的贡献更加均衡,从而提升模型稳定性与预测性能。
- 在大规模真实世界数据集上评估 DART,验证其在多种机器学习任务中优于 MART 和随机森林的优越性。
提出的方法
- 提出 DART(Dropouts meet Additive Regression Trees),即 MART 的一种变体,通过在每次提升迭代中随机丢弃一部分树来应用 dropout。
- 在训练过程中,随机子集的树被排除在集成预测之外,迫使剩余的树在更多样本上进行泛化。
- 训练完成后,所有树均保留在最终模型中,但其贡献通过归一化处理以补偿 dropout 比率,确保尺度一致。
- 使用 dropout 比率 ε 控制每次迭代中丢弃的树的比例,ε 通过验证集调优,以在正则化强度与模型容量之间取得平衡。
- 将 dropout 与 MART 中现有的组件(如收缩、样本和特征子采样)集成,支持灵活的超参数调优。
- 迭代训练集成模型,其中每棵新树均拟合当前集成的残差,但仅在未被丢弃时才参与贡献。
实验结果
研究问题
- RQ1在 MART 中对整棵树应用 dropout 是否能减少过专业化现象,并提升在未见数据上的泛化能力?
- RQ2MART 中的 dropout 正则化是否能在多种机器学习任务中超越传统的收缩方法和随机森林基线?
- RQ3与标准 MART 相比,使用 DART 时集成中树的贡献分布有何变化?
- RQ4在排序、回归和分类任务中,DART 的最优 dropout 比率和集成规模分别是多少?
- RQ5DART 是否能在降低对早期树的敏感性的同时保持高性能,从而提升模型鲁棒性?
主要发现
- DART 在所有三项任务——排序、回归和分类中均显著优于 MART 和随机森林,实现了更高的准确率和更低的损失。
- 在 Yahoo! Learning to Rank 数据集上,DART 的归一化折扣累计收益(NDCG)达到 0.892,优于 MART 的 0.884,且差异具有统计显著性(p < 0.0001)。
- 在 KDD Cup 2009 数据集的回归任务中,DART 的均方误差(MSE)为 0.185,优于 MART 的 0.191 和随机森林的 0.201。
- 在人脸检测分类任务中,DART 在使用 250 棵树时达到 0.9714 的测试准确率,超过 MART 的 0.9707 和随机森林的 0.9629,且在 1106 个预测中差异具有统计显著性。
- DART 的召回率(0.672)高于 MART(0.665),表明在人脸检测数据集中对高度不平衡的正样本类别表现更优。
- DART 通过确保集成中所有树的贡献更加均匀,减少了过专业化现象,如图 1 所示,树的贡献分布比 MART 更为均衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。