QUICK REVIEW

[論文レビュー] Vectorized Adaptive Histograms for Sparse Oblique Forests

Ariel Lubonja, Jungsang Yoon|arXiv (Cornell University)|Feb 27, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

この論文は runtime-adaptive histogram と SIMD 加速されたヒストグラム構築をハイブリッド CPU-GPU アプローチで組み合わせ、疎な斜め決定木 (SO-forest) の学習を高速化する。 prior SO-YDF 手法に比べて 1.7–2.5× の学習速度改善を達成しつつ精度を保持。

ABSTRACT

Classification using sparse oblique random forests provides guarantees on uncertainty and confidence while controlling for specific error types. However, they use more data and more compute than other tree ensembles because they create deep trees and need to sort or histogram linear combinations of data at runtime. We provide a method for dynamically switching between histograms and sorting to find the best split. We further optimize histogram construction using vector intrinsics. Evaluating this on large datasets, our optimizations speedup training by 1.7-2.5x compared to existing oblique forests and 1.5-2x compared to standard random forests. We also provide a GPU and hybrid CPU-GPU implementation.

研究の動機と目的

疎な斜めランダムフォレスト (SO-forest) の学習時間を精度を損なわず低減する。
ノードの類元基数に基づいてヒストグラムまたは正確なソーティングを選択的に使用する runtime 戦略を開発する。
SIMD ハードウェアを活用したヒストグラム充填のベクトル化。
大規模・広幅データセットでさらなる学習時間短縮のための GPU 加速を可能にする。
オープンソース実装と生物医療向け表形式データセットでの実証的エビデンスを提供する。

提案手法

ノードの類元基数に基づいてヒストグラムベースの分割と正確な分割の切替を行う動的ヒストグラム戦略。
SIMD を用いたベクトル化ヒストグラム充填（2 レベルのビン探索、16幅グループ、利用可能な場合 AVX-512）。
スプリットを評価する際にエントロピーベースの基準で疎な斜め特徴を形成する投影サンプリング。
大規模ノードを有利な場合に GPU へオフロードし、小規模ノードは CPU に保つハイブリッド CPU-GPU スケジューリング。
学習前のマイクロベンチマーク駆動のクロスオーバー点（ブレークエビット）決定によりノードごとの分割方法を選択。
広いデータセット向けに改良を加えた Yggdrasil Random Forest (YDF) 上でのオープンソース実装。

Figure 1 . Training runtime by tree depth on a dataset with 1M samples 4096 features. We compare exact splitting using sorting, approximate splitting using histograms, and our dynamic method that adaptively chooses between them.

実験結果

リサーチクエスチョン

RQ1ノードごとにヒストグラムベースと正確な分割の動的切替を行うことで、精度を損なうことなく疎な斜め森林の学習時間を削減できるか？
RQ2現代の CPU 上でヒストグラム構築をベクトル化することでどれだけの速度up が得られ、広幅データセットでの GPU オフロードの影響はどの程度か？
RQ3疎な斜め森林のためのハイブリッド CPU-GPU 展開の実用的な性能と精度のトレードオフは？
RQ4データ幅（特徴量）とサンプルサイズが増加するにつれて提案手法はスケールするか？

主な発見

大規模データセット上で、SO-YDF ベースラインの正確な分割と比較してエンドツーエンドの CPU 学習時間を 1.7–2.5×短縮。
動的ヒストグラムのみで 20–30% の速度向上を達成。ベクトル化ヒストグラム充填を追加するとさらに 20–30% の改善。
SIMD を用いたベクトル化ヒストグラム充填は2 レベルのビン探索を活用してヒストグラム構築を 2 倍の改善。
ハイブリッド CPU-GPU 実装は広く大規模なデータセットで最大 40% の追加利得をもたらす。
大規模データセットでは動的ヒストグラム法を用いた SO-YDF が軸対向 RF 学習より速く、精度はヒストグラムベースの方法と統計的に区別不能。
精度の比較では dynamic histograms が OpenML CC18 ベンチマーク全体で標準ヒストグラムと同等の性能を達成している。

Figure 2 . Workflow at each tree node. Histogram splitting of a random linear combination of features requires sparse access in both rows and columns, computing a vector sum, building histograms and evaluating split boundaries.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。