Skip to main content
QUICK REVIEW

[論文レビュー] GPU-acceleration for Large-scale Tree Boosting

Huan Zhang, Si Si|arXiv (Cornell University)|Jun 26, 2017
Machine Learning and Data Classification参考文献 12被引用数 61
ひとこと要約

GBDTとランダムフォレストにおける決定木構築を加速するGPUベースのヒストグラム手法を提案し、CPUベースのヒストグラムおよび厳密分割法に比して大幅な速度アップを達成しつつ、精度を維持する。

ABSTRACT

In this paper, we present a novel massively parallel algorithm for accelerating the decision tree building procedure on GPUs (Graphics Processing Units), which is a crucial step in Gradient Boosted Decision Tree (GBDT) and random forests training. Previous GPU based tree building algorithms are based on parallel multi-scan or radix sort to find the exact tree split, and thus suffer from scalability and performance issues. We show that using a histogram based algorithm to approximately find the best split is more efficient and scalable on GPU. By identifying the difference between classical GPU-based image histogram construction and the feature histogram construction in decision tree training, we develop a fast feature histogram building kernel on GPU with carefully designed computational and memory access sequence to reduce atomic update conflict and maximize GPU utilization. Our algorithm can be used as a drop-in replacement for histogram construction in popular tree boosting systems to improve their scalability. As an example, to train GBDT on epsilon dataset, our method using a main-stream GPU is 7-8 times faster than histogram based algorithm on CPU in LightGBM and 25 times faster than the exact-split finding algorithm in XGBoost on a dual-socket 28-core Xeon server, while achieving similar prediction accuracy.

研究の動機と目的

  • 決定木アンサンブルにおける高コストのリーフ分割計算のため、スケーラブルなGPU加速の必要性を動機づける。
  • 最適分割を近似するヒストグラムベースのGPUアルゴリズムを提案し、スケーラビリティを向上させる。
  • LightGBMにGPUヒストグラム手法を統合し、CPUおよびGPUのベースラインとベンチマークする。
  • 異なるGPUアーキテクチャに跨る大規模データセットでのスピードアップとメモリ効率を示す。

提案手法

  • GBDTのリーフ分割を近似するヒストグラムベースのアプローチを、GPU上の特徴ヒストグラムを用いて開発する。
  • 原子更新競合を削減しGPU利用率を最大化するために、ステップごとに複数のヒストグラムを構築する。
  • 特徴を小さなタプルに束ね、4バイト表現を使用して局在メモリにヒストグラムを収め、グローバルメモリアクセスを最小化する。
  • 小さなビンサイズ(例:64)を活用して並列性を高め、精度を犠牲にせずメモリフットプリントを削減する。
  • 大規模トレーニング用にLightGBMと統合されたGPUヒストグラムのドロップイン実装を提供する。

実験結果

リサーチクエスチョン

  • RQ1GPUのヒストグラムベースの分割探索は、巨大なGBDTトレーニングにおいて厳密分割GPUおよびCPUメソッドより優れているか?
  • RQ2多数の特徴ヒストグラムを並行構築する際のメモリとスレッド競合の考慮点は何か?
  • RQ3ビンサイズを小さくすることは、さまざまなデータセットに across training speedとモデル精度にどう影響するか?
  • RQ4GPUヒストグラム手法は、CPUの能力を超える大規模データセットや複数GPU構成へ拡張性があるか?

主な発見

  • GPUヒストグラムベースの木構築はCPUヒストグラム法に比べて大幅なスピードアップをもたらす(epsilonデータセットで63ビンヒストグラムを用いて7–8x高速)。
  • GPUヒストグラム手法はCPUおよびGPUの厳密分割法を上回り、特定のデータセットで約25xの学習速度向上を実現。
  • 減少した精度と小さなビンサイズを用いても、予測指標(AUC、NDCG)はCPUベースの手法と比較可能なまま。
  • 8 GBのGPUで全データセットのメモリ使用は最大1 GB程度と抑えられ、Higgsよりも大きいデータセットの単一GPU上でのトレーニングを可能にする。
  • 小さなビン(例:64)を用いると、テストデータセットでのスループットが向上し、精度を損なわない。
  • 厳密GPU法はメモリ制約に苦しみ、ヒストグラムベースのGPU手法ほどスケールしない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。