QUICK REVIEW

[论文解读] Gradient Boosting Machine: A Survey

Zhiyuan He, Danchen Lin|arXiv (Cornell University)|Aug 19, 2019

Machine Learning and Algorithms参考文献 12被引用 25

一句话总结

本综述为梯度提升机（GBM）提供了全面的数学框架，详细阐述了通过梯度下降法迭代最小化损失函数，从而构建高精度预测模型的机制。通过线搜索和最速下降法优化基学习器，系统推导出关键算法（如LAD、M-回归及逻辑回归变体），确立了GBM在回归、分类和排序任务中作为强大且灵活工具的地位。

ABSTRACT

In this survey, we discuss several different types of gradient boosting algorithms and illustrate their mathematical frameworks in detail: 1. introduction of gradient boosting leads to 2. objective function optimization, 3. loss function estimations, and 4. model constructions. 5. application of boosting in ranking.

研究动机与目标

为梯度提升机（GBM）在各类学习任务中提供严谨的数学基础。
分析通过迭代回 fitting 和梯度下降法优化参数模型与非参数模型的过程。
研究不同损失函数（L1、L2、Huber、分位数、伯努利和指数）在塑造模型行为与性能方面的作用。
展示GBM如何与排序算法（特别是LambdaMART）结合，以优化信息检索中的NDCG指标。
形式化推导在有限样本和非参数设定下，通过线搜索与梯度计算实现模型更新的过程。

提出的方法

使用最速下降优化方法，通过计算损失函数相对于模型输出的梯度，迭代最小化经验风险。
采用贪婪的、阶段式的加法模型构建方式：$ F_m(x) = F_{m-1}(x) + \beta_m h(x; a_m) $，其中每个基学习器 $ h $ 均拟合损失函数的负梯度。
通过线搜索推导最优步长 $ \rho_m $：$ \rho_m = \arg\min_\rho \mathbb{E}_{y,x} L(y, F_{m-1}(x) - \rho g_m(x)) $。
应用不同的损失函数（如L1、L2、Huber、分位数）以适应回归、鲁棒回归或分位数估计任务。
引入向量树以在多分类任务中强制实现和为零的约束，从而实现分裂增益与节点值的显式计算。
通过使用NDCG归一化梯度（Lambda梯度）$ \gamma_{ij} = S_{ij} \left| \frac{\partial \Delta \text{NDCG}}{\partial o_{ij}} \right| $，将GBM框架适配于排序任务，指导模型更新。

实验结果

研究问题

RQ1如何从函数梯度下降与损失最小化的视角系统推导梯度提升？
RQ2GBM中不同损失函数（如L1、L2、Huber、分位数）的数学性质与优化过程是什么？
RQ3GBM框架如何扩展以处理具有结构化目标的多分类与排序问题？
RQ4在GBM中，为实现多分类逻辑回归的和为零约束，需要进行哪些修改？
RQ5在LambdaMART中使用Lambda梯度相比标准GBM，如何提升排序性能？

主要发现

GBM框架通过使用函数梯度下降，推广了AdaBoost，使其可应用于分类之外的多种损失函数。
在LAD回归中，每个区域的最优更新为残差的中位数，即 $ \gamma_{jm} = \text{median}_{x_i \in R_{jm}} \{ y_i - F_{m-1}(x_i) \} $，从而确保对异常值的鲁棒性。
在使用Huber损失的M-回归中，更新通过基于中位数的修正计算：$ \gamma_{jm} = \widetilde{r_{jm}} + \frac{1}{N_{jm}} \sum \text{sign}(r_{m-1}(x_i) - \widetilde{r_{jm}}) \cdot \min(\delta_m, |r_{m-1}(x_i) - \widetilde{r_{jm}}|) $。
在二分类逻辑回归中，线搜索步骤通过变换后的残差近似：$ \gamma_{jm} = \sum \widetilde{y_i} / \sum |\widetilde{y_i}|(2 - |\widetilde{y_i}|) $，其中 $ \widetilde{y_i} = 2\widetilde{y_i}/(1 + \exp(2y_i F_{m-1}(x_i))) $。
在多分类逻辑回归中，更新规则为 $ \gamma_{jkm} = \frac{K-1}{K} \cdot \frac{\sum \widetilde{y_{ik}}}{\sum |\widetilde{y_{ik}}|(1 - |\widetilde{y_{ik}}|)} $，从而在概率约束下实现高效优化。
在排序任务中，LambdaMART使用Lambda梯度 $ \gamma_{ij} = S_{ij} \left| \frac{\partial \Delta \text{NDCG}}{\partial o_{ij}} \right| $，其中 $ S_{ij} = 1 $ 表示项目 $ i $ 比 $ j $ 更相关，以直接优化排序质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。