[論文レビュー] Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems
論文は、 terabyte-scale sparse CTR models training 用の分散階層GPUパラメータサーバ(HBM-PS MEM-PS SSD-PS)を導入し、MPIクラスタより1.8–4.8xの学習速度向上と4–9xの価格性能比の改善を達成します。
Neural networks of ads systems usually take input from multiple resources, e.g., query-ad relevance, ad features and user portraits. These inputs are encoded into one-hot or multi-hot binary features, with typically only a tiny fraction of nonzero feature values per example. Deep learning models in online advertising industries can have terabyte-scale parameters that do not fit in the GPU memory nor the CPU main memory on a computing node. For example, a sponsored online advertising system can contain more than $10^{11}$ sparse features, making the neural network a massive model with around 10 TB parameters. In this paper, we introduce a distributed GPU hierarchical parameter server for massive scale deep learning ads systems. We propose a hierarchical workflow that utilizes GPU High-Bandwidth Memory, CPU main memory and SSD as 3-layer hierarchical storage. All the neural network training computations are contained in GPUs. Extensive experiments on real-world data confirm the effectiveness and the scalability of the proposed system. A 4-node hierarchical GPU parameter server can train a model more than 2X faster than a 150-node in-memory distributed parameter server in an MPI cluster. In addition, the price-performance ratio of our proposed system is 4-9 times better than an MPI-cluster solution.
研究の動機と目的
- 単一ノードのGPUメモリおよびCPUメモリを超える超大規模 CTR モデルを訓練する必要性を動機づける。
- HBM、メモリ、SSDの3層階層ストレージ設計を提案し、大規模な疎なモデルのGPU中心訓練を可能にする。
- 訓練を加速させるためのノード内およびノード間のGPUパラメータ同期を効率的に開発する。
- 実データ広告データセットでスケーラビリティを評価し、標準的なMPIクラスタのベースラインと比較する。
提案手法
- データ転送、パラメータ読み込み、GPU計算を重複実行させる4段階のパイプラインを設計する。
- 作業パラメータを原子更新で格納するため、HBM上の複数GPUにまたがる分散ハッシュテーブルを実装する。
- 全リデュース操作を介したノード間GPUパラメータ同期にはRDMAを使用する。
- SSD上のファイルにパラメータをクラスタリングし、ファイルレベルのパラメータ管理とバックグラウンド圧縮を用いて古くなったデータを管理する。
- モジュロハッシュを用いてキーを格納場所へマップすることで、GPU間およびノード間でパラメータを分割する。
実験結果
リサーチクエスチョン
- RQ1階層型GPUパラメータサーバは、精度を犠牲にせずテラバイト規模のCTRモデルを効率的に訓練できるか?
- RQ2従来のMPIベース訓練と比較して、HBM-PS、MEM-PS、SSD-PSを統合することによる性能とコストの利点は何か?
- RQ3データ転送、キャッシュ、およびI/O戦略は、実データの広告データに対する全体的な訓練スループットにどのような影響を与えるか?
主な発見
- 4ノードの階層GPUパラメータサーバは、5つのCTRモデルを横断してMPIクラスタベースラインより1.8–4.8xの訓練速度アップを達成。
- コスト正規化されたスピードアップはMPIソリューションと比較して4.4x〜9.0xの範囲。
- 階層システムの相対AUC精度はMPIベースラインの0.1%以内で、一部モデルはそれを上回ることがあり、ロスレス訓練を示唆。
- HBM-PSはプル/プッシュ操作が非ゼロ特徴量の数にスケールし、訓練時間は密なパラメータ数にスケールすることを示す。
- MEM-PSとSSD-PSはキャッシュとファイルレベルのパラメータ管理を通じてSSD I/Oの影響を低減し、主メモリ外訓練を可能にする。
- 実験は4つのGPUノード(ノードあたり8×32 GBのHBM)と、非ゼロパラメータが8e9〜1e11の5つのCTRモデルを用い、スケーラビリティと効率を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。