Skip to main content
QUICK REVIEW

[论文解读] Gradient Boosting Neural Networks: GrowNet

Sarkhan Badirli, Xuanqing Liu|arXiv (Cornell University)|Feb 19, 2020
Advanced Neural Network Applications参考文献 27被引用 54
一句话总结

GrowNet 将浅层神经网络作为梯度提升框架中的弱学习器,辅以纠错步骤和二阶统计量,在分类、回归和排序学习任务上实现了最先进的结果。

ABSTRACT

A novel gradient boosting framework is proposed where shallow neural networks are employed as ``weak learners''. General loss functions are considered under this unified framework with specific examples presented for classification, regression, and learning to rank. A fully corrective step is incorporated to remedy the pitfall of greedy function approximation of classic gradient boosting decision tree. The proposed model rendered outperforming results against state-of-the-art boosting methods in all three tasks on multiple datasets. An ablation study is performed to shed light on the effect of each model components and model hyperparameters.

研究动机与目标

  • 提出一种统一的梯度提升范式,利用神经网络作为弱学习器而非决策树。
  • 开发一种高效的一揽子训练算法,具有二阶统计量和纠错步骤,以提高稳定性和任务特定的调优。
  • 展示 GrowNet 在多个真实数据集上的分类、回归和排序任务的适用性与优越性。
  • 提供消融研究,了解组件(二阶统计量、纠错步骤、动态提升)和超参数的影响。

提出的方法

  • 将模型表示为浅层神经网络的加法集成: ŷ_i = sum_{k=1}^K α_k f_k(x_i)。
  • 通过对残差 g_i 与 h_i 的二阶牛顿法展开后的损失进行最小化来训练每个弱学习器 f_t。
  • 用前一轮弱学习器的倒数第二层特征来扩充输入,形成下一轮学习器的堆叠特征集。
  • 引入纠错步骤(C/S),对所有新增学习器在原始输入上重新联合训练,更新 α_t 并降低学习器间相关性。
  • 使用二阶统计量为每个弱学习器形成目标,使其在回归、分类和排序任务中实现相应的优化。
  • 在纠错步骤中应用动态提升速率 α_t,以便简化超参数调优。

实验结果

研究问题

  • RQ1用浅层神经网络作为弱学习器的梯度提升是否能够在常见的机器学习任务上超越传统的 GBDT 方法和深度神经网络?
  • RQ2引入二阶统计量和纠错步骤是否能在分类、回归和排序学习中提升稳定性、收敛性和泛化能力?
  • RQ3在多样数据集上,GrowNet 与 XGBoost、AdaNet 和深度网络在性能、训练时间和调参难易度方面有何比较?

主要发现

  • 在 Microsoft Learning to Rank (MSLR-WEB 10K) 和 Yahoo LTR 数据集上,GrowNet 在 NDCG@5 和 NDCG@10 方面优于 XGBoost 与 GrowNet 的变体(成对与广义 I-散度损失)。
  • 在 MSLR-WEB 10K 上,NDCG@5 从 XGBoost 的 0.4677(0.0287) 提升到 GrowNet(成对)0.5106(0.0011);NDCG@10 从 0.4858(0.0245) 提升到 0.5203(0.0015)。
  • 在 Yahoo LTR 上,NDCG@5 从 0.7618 提升到 0.7726,NDCG@10 从 0.7913 提升到 0.8101,使用 GrowNet(成对)。
  • GrowNet 也在回归任务中提供了与基线在 Higgs、CT 切片定位和 YearPredictionMSD 数据集上的分类任务中具有竞争力的 RMSE,及更高的 AUC。
  • 消融研究显示纠错步骤和二阶统计量带来可观的增益,而堆叠特征方法(倒数第二层特征)在排序任务中尤为提升。
  • 使用 30 个浅层学习器(两隐藏层的多层感知器)时,GrowNet 能与更深的 DNN 堆栈相匹配甚至超过,同时训练更快、调参需求更少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。