[论文解读] Canonical Correlation Forests
本文提出了一种新型的决策树集成方法——典型相关森林(Canonical Correlation Forests, CCFs),该方法基于局部典型相关分析(CCA)的超平面划分,能够比轴对齐树更有效地建模相关输入特征。CCFs 在预测精度方面优于随机森林和最先进的树集成方法,且训练速度更快,在无需超参数调优的情况下,超越了近期基准测试中的全部 179 种分类器。
We introduce canonical correlation forests (CCFs), a new decision tree ensemble method for classification and regression. Individual canonical correlation trees are binary decision trees with hyperplane splits based on local canonical correlation coefficients calculated during training. Unlike axis-aligned alternatives, the decision surfaces of CCFs are not restricted to the coordinate system of the inputs features and therefore more naturally represent data with correlated inputs. CCFs naturally accommodate multiple outputs, provide a similar computational complexity to random forests, and inherit their impressive robustness to the choice of input parameters. As part of the CCF training algorithm, we also introduce projection bootstrapping, a novel alternative to bagging for oblique decision tree ensembles which maintains use of the full dataset in selecting split points, often leading to improvements in predictive accuracy. Our experiments show that, even without parameter tuning, CCFs out-perform axis-aligned random forests and other state-of-the-art tree ensemble methods on both classification and regression problems, delivering both improved predictive accuracy and faster training times. We further show that they outperform all of the 179 classifiers considered in a recent extensive survey.
研究动机与目标
- 解决轴对齐决策树在处理相关输入特征时的局限性,此类特征可能导致模型性能下降并降低对特征旋转的敏感性。
- 通过使用更具信息量且基于数据的划分方式,克服传统树集成中个体树准确率与集成多样性之间的权衡。
- 开发一种可扩展、鲁棒且对超参数不敏感的集成方法,能够自然地整合特征相关性与多输出预测。
- 提出投影自助法(projection bootstrapping)作为袋装法(bagging)的替代方案,在划分选择过程中保持完整数据集的使用,从而提高预测精度。
- 证明 CCFs 在多种分类与回归任务中均优于现有方法,即使在未进行超参数调优的情况下也能表现优异。
提出的方法
- 在每个决策节点使用典型相关分析(CCA)计算超平面划分,以联合优化输入特征的相关性与输出预测性能。
- 通过局部 CCA 导出的倾斜超平面划分构建个体树,使决策边界不受输入特征坐标系的限制。
- 实现投影自助法——一种新型采样策略,保留完整数据集用于划分选择,避免数据子采样,从而提升划分质量。
- 使用改进的随机森林框架训练此类树的集成模型,保持与标准随机森林相似的计算复杂度。
- 通过将 CCA 扩展至处理每个节点的多变量响应变量,原生支持多输出预测。
- 采用单行接口进行训练与推理,支持黑盒部署,用户仅需极少专业知识。
实验结果
研究问题
- RQ1基于典型相关分析的超平面划分是否能相比轴对齐划分,提升决策树集成的预测精度?
- RQ2投影自助法是否在倾斜树集成中相比传统袋装法带来更好的模型性能?
- RQ3与轴对齐树方法相比,CCFs 在多大程度上降低了对输入特征旋转和相关性的敏感性?
- RQ4CCFs 是否能在未进行超参数调优的情况下实现最先进性能,超越近期基准测试中的全部 179 种分类器?
- RQ5CCFs 的计算复杂度与训练速度与标准随机森林及其他树集成方法相比如何?
主要发现
- CCFs 在分类与回归任务中均优于轴对齐随机森林及其他最先进树集成方法,在未调优超参数的情况下实现了更高的预测精度。
- 在包含 179 种分类器的全面基准测试中,CCFs 超越了所有其他方法,包括其他方法的调优版本,其评估基于一组多样化的数据集。
- 由于 CCA 基于的划分更具信息量和效率,CCFs 在每个节点评估的候选划分更少,因此训练时间比随机森林更短。
- 采用投影自助法通过在划分选择过程中保持完整数据集的使用,降低了方差并提升了泛化能力,从而改善了预测性能。
- CCFs 展现出对输入特征旋转与相关性的鲁棒性,因为其超平面划分能自适应地响应局部数据结构,而非受限于固定坐标轴。
- CCFs 以更少的树数量达到相当或更优的性能,表明其具有更高的样本效率与更低的计算成本。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。