QUICK REVIEW

[论文解读] Efficient non-greedy optimization of decision trees

Mohammad Norouzi, Maxwell D. Collins|arXiv (Cornell University)|Nov 12, 2015

Machine Learning and Data Classification参考文献 25被引用 69

一句话总结

本文提出了一种非贪婪、全局优化的决策树训练方法，通过在经验损失的凸-凹上界上使用随机梯度下降，实现了分裂函数与叶节点参数的联合优化。该方法在泛化性能和过拟合控制方面优于贪婪基线方法，且通过一种快速推理变体实现了可扩展训练，将复杂度从 O(2^d p) 降低至 O(d²p)。

ABSTRACT

Decision trees and randomized forests are widely used in computer vision and machine learning. Standard algorithms for decision tree induction optimize the split functions one node at a time according to some splitting criteria. This greedy procedure often leads to suboptimal trees. In this paper, we present an algorithm for optimizing the split functions at all levels of the tree jointly with the leaf parameters, based on a global objective. We show that the problem of finding optimal linear-combination (oblique) splits for decision trees is related to structured prediction with latent variables, and we formulate a convex-concave upper bound on the tree's empirical loss. The run-time of computing the gradient of the proposed surrogate objective with respect to each training exemplar is quadratic in the the tree depth, and thus training deep trees is feasible. The use of stochastic gradient descent for optimization enables effective training with large datasets. Experiments on several classification benchmarks demonstrate that the resulting non-greedy decision trees outperform greedy decision tree baselines.

研究动机与目标

解决贪婪决策树归纳的次优性问题，即逐个节点优化分裂而未考虑全局结构。
通过构建具有可处理代理目标的全局优化问题，克服最优树学习的NP完全性。
通过将梯度计算复杂度从指数级降低至二次方级，实现深层树的高效训练。
在正则化的全局目标下，通过联合优化分裂函数与叶节点参数，提升泛化性能并减少过拟合。
提供一个非贪婪决策树学习的合理框架，支持稀疏性与核方法等扩展。

提出的方法

将决策树学习建模为带有隐变量的结构化预测问题，其中每个内部节点具有一个二值隐决策变量，用于表示所选择的路径。
构建经验损失的凸-凹上界，作为优化的可微代理目标。
使用随机梯度下降（SGD）在该代理目标下联合优化分裂权重 W 和叶节点参数 Θ。
引入一种快速的损失增强推理变体，通过利用树的结构将梯度计算复杂度从 O(2^d p) 降低至 O(d²p)。
使用轴对齐的贪婪树（CO2基线）初始化非贪婪方法，为 W 和 Θ 提供初始值。
通过参数 ν 的范数正则化控制间隔大小，并隐式剪枝叶节点，从而提升泛化性能。

实验结果

研究问题

RQ1在所有树层面上联合优化分裂函数是否能带来优于贪婪方法（逐节点优化）的泛化性能？
RQ2是否能够通过可扩展的梯度计算实现非贪婪优化的深层决策树高效训练？
RQ3正则化参数 ν 如何影响树的结构与泛化性能？
RQ4在不同树深度下，非贪婪训练相比贪婪基线在多大程度上减少了过拟合？
RQ5在非贪婪、全局优化设置下，该方法是否能超越现有非贪婪方法（如 CO2）？

主要发现

在多个基准测试中，非贪婪决策树在所有树深度下均实现了最佳测试准确率，优于贪婪和 CO2 基线。
该方法表现出更低的过拟合现象，即使在更深的树中，测试准确率也始终高于贪婪树。
正则化参数 ν 隐式控制剪枝：ν 值越小，激活的叶节点越少，如图 3 所示。
快速推理变体实现了可扩展训练，训练时间随深度线性增长而非指数增长，如图 4 所示。
该方法在不同数据集上泛化良好，在 MNIST、Connect4 等分类任务中均表现出一致的性能提升。
对 ν 和学习率 η 的超参数调优可获得最优模型，最终在测试集上的评估显示其准确率优于贪婪和 CO2 基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。