[论文解读] Vectorized Adaptive Histograms for Sparse Oblique Forests
该论文提出了运行时自适应直方图和 SIMD 加速的直方图构造,采用混合 CPU-GPU 的方法加速稀疏斜率随机森林,在训练速度上相比先前的 SO-YDF 方法提升约 1.7–2.5 倍,同时保持准确性。
Classification using sparse oblique random forests provides guarantees on uncertainty and confidence while controlling for specific error types. However, they use more data and more compute than other tree ensembles because they create deep trees and need to sort or histogram linear combinations of data at runtime. We provide a method for dynamically switching between histograms and sorting to find the best split. We further optimize histogram construction using vector intrinsics. Evaluating this on large datasets, our optimizations speedup training by 1.7-2.5x compared to existing oblique forests and 1.5-2x compared to standard random forests. We also provide a GPU and hybrid CPU-GPU implementation.
研究动机与目标
- 在不牺牲准确性的前提下减少稀疏斜率随机森林(SO-forest)的训练时间。
- 开发一种运行时策略,根据节点基数选择性地使用直方图或精确排序。
- 向量化直方图填充以利用 SIMD 硬件实现更快的投影。
- 在大型、宽数据集上启用 GPU 加速,进一步降低训练时间。
- 提供一个开源实现及在生物医学表格数据集上的实证证据。
提出的方法
- 基于节点基数在直方图切换与精确分裂之间动态切换的直方图策略。
- 使用 SIMD 进行向量化直方图填充(两级箱线搜索,若可用则使用 AVX-512,分组为 16 宽)。
- 投影采样以形成稀疏斜率特征,并通过基于熵的准则评估分裂。
- 混合 CPU-GPU 调度:在有利时将大节点卸载到 GPU,保留小节点在 CPU。
- 在训练前通过微基准测试确定交叉点(盈亏点),据此为每个节点选择分裂方法。
- 基于 Yggdrasil 随机森林(YDF)的开源实现,并对宽数据集进行了改进。

实验结果
研究问题
- RQ1动态在直方图基础分裂与精确分裂之间为每个节点切换,是否能在不降低准确性的情况下降低稀疏斜率森林的训练时间?
- RQ2在现代 CPU 上向量化直方图构造能带来多大加速,GPU 卸载对大型宽数据集的影响如何?
- RQ3混合 CPU-GPU 部署在稀疏斜率森林中的实际性能与准确性权衡是什么?
- RQ4随着数据宽度(特征数量)和样本规模的增加,提出的优化是否具有可扩展性?
主要发现
- 相比于使用精确分裂的 SO-YDF 基线,在大规模数据集上,端到端的 CPU 训练时间减少了 1.7–2.5×。
- 仅使用动态直方图可以带来 20–30% 的加速;再增加向量化直方图填充可额外提升 20–30%。
- 利用 SIMD 进行向量化直方图填充通过两级箱线搜索降低直方图构建时间,实现直方图构建约 2× 的提升。
- 混合 CPU-GPU 实现对宽大数据集可进一步带来最高约 40% 的提升。
- 在大型数据集上,采用动态直方图方法的 SO-YDF 训练速度快于基于坐标轴对齐的 RF 训练;准确性与直方图方法统计学上无显著差异。
- 准确性比较表明,动态直方图在 OpenML CC18 基准测试中与标准直方图表现相近。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。