QUICK REVIEW

[論文レビュー] XGBoost: Scalable GPU Accelerated Learning

Rory Mitchell, Andrey Adinets|arXiv (Cornell University)|Jun 29, 2018

Advanced Image and Video Retrieval Techniques参考文献 4被引用数 34

ひとこと要約

本論文では、XGBoostにおけるマルチGPUアクセラレート勾配ブースティングアルゴリズムを提示し、学習、予測、勾配計算、意思決定木構築の全段階でエンドツーエンドのGPU並列処理を実現している。特徴量の量子化とランタイムデータ圧縮を活用することで、GPUメモリ使用量を4倍削減し、1台のクラウドインスタンス（8枚のV100 GPU搭載）で1億1500万件のインスタンスを3分未塔で処理する。これはCPUおよび他のGPU最適化ベースラインを上回る速度と精度を達成している。

ABSTRACT

We describe the multi-GPU gradient boosting algorithm implemented in the XGBoost library (https://github.com/dmlc/xgboost). Our algorithm allows fast, scalable training on multi-GPU systems with all of the features of the XGBoost library. We employ data compression techniques to minimise the usage of scarce GPU memory while still allowing highly efficient implementation. Using our algorithm we show that it is possible to process 115 million training instances in under three minutes on a publicly available cloud computing instance. The algorithm is implemented using end-to-end GPU parallelism, with prediction, gradient calculation, feature quantisation, decision tree construction and evaluation phases all computed on device.

研究の動機と目的

大規模データセットにおける勾配ブースティングモデルのスケーラブルかつ高速なトレーニングを、マルチGPUシステムを用いて実現すること。
ランタイムデータ圧縮および特徴量の量子化を通じて、高い計算効率を維持したままGPUメモリ使用量を削減すること。
意思決定木構築、予測、勾配評価を含む勾配ブースティングパイプラインの全段階でエンドツーエンドのGPUアクセラレーションを実装すること。
回帰、分類、多値分類、順序付けの4つの標準的なXGBoost学習タスクをGPUで完全にサポートし、既存のAPIとの完全な互換性を維持すること。
幅広い実世界のデータセットにおいて、最先端のCPUおよびGPU最適化勾配ブースティングフレームワーク（LightGBMやCatBoostなど）と比較して優れたパフォーマンスを達成すること。

提案手法

アルゴリズムは、入力特徴量を離散的なビンに量子化することで、木構築問題を効率的な勾配ヒストグラム蓄積問題に変換する。
ランタイムデータ圧縮技術により、量子化された値をビット単位の演算で log₂(max_value) ビットに圧縮し、GPUメモリ使用量を最大4倍まで削減する。
意思決定木構築は複数のGPUに並列化され、各GPUで部分的ヒストグラムが構築され、NCCLのAllReduce操作により統合される。
最適な分割は、統合されたヒストグラム上で並列スキャン（prefix sum）操作を用いて、分割利益を効率的に計算することで特定される。
予測と勾配評価はGPUにマッピングされ、1トレーニングインスタンスあたり1スレッドが使用され、高いメモリ帯域幅と並列性が活用される。
実装はGPU上でロジスティック回帰と線形回帰の目的関数をサポートしており、その他の目的関数（例：多値分類、順序付け）は現時点ではCPUで計算される。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドのGPUアクセラレーションは、大規模勾配ブースティングモデルのトレーニング時間を顕著に短縮できるか？
RQ2ランタイムデータ圧縮は、パフォーマンスを損なわせることなくGPUメモリ使用量を効果的に削減できるか？
RQ3AllReduceベースのヒストグラム集約を用いたマルチGPU並列処理は、意思決定木構築において複数GPUに効率的にスケーリングできるか？
RQ4LightGBM や CatBoost といった最先端のCPUおよびGPU最適化代替手法と比較して、GPUアクセラレートXGBoost実装の速度と精度はどの程度優れているか？
RQ5現代のハードウェア上で、GPUアクセラレートXGBoostが達成可能なデータセットサイズとトレーニング速度の上限は何か？

主な発見

XGBoost GPU実装は、8枚のTesla V100 GPUを搭載した1台のクラウドインスタンスで、1億1500万件のトレーニングインスタンスを3分未塔で処理した。
6つのベンチマークデータセットのうち3つ（特に最大のデータセットである航空会社データセット：1億1500万行）において、評価されたすべての手法の中で最も速く、最も近い競合他社手法と比較してほぼ3倍の高速化を達成した。
6つのデータセットすべてにおいて、実行時間は2分を超えないことが確認され、一貫したスケーラビリティと効率性が示された。
ビット単位の演算による量子化特徴量のランタイム圧縮により、GPUメモリ使用量が4倍以上削減された。
高い精度を維持しており、6つのデータセットのうち2つでは、最良のCPUベースXGBoost結果と同等またはわずかに上回った。
追加のGPUを追加することで効率的にスケーリングされ、航空会社データセットにおいて1GPU時280秒から8GPU時240秒にまでトレーニング時間が短縮された。これは強力なマルチGPUスケーリングを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。