QUICK REVIEW

[論文レビュー] Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

Weijie Zhao, Deping Xie|arXiv (Cornell University)|Mar 12, 2020

Advanced Image and Video Retrieval Techniques参考文献 49被引用数 76

ひとこと要約

論文は、 terabyte-scale sparse CTR models training 用の分散階層GPUパラメータサーバ（HBM-PS MEM-PS SSD-PS）を導入し、MPIクラスタより1.8–4.8xの学習速度向上と4–9xの価格性能比の改善を達成します。

ABSTRACT

Neural networks of ads systems usually take input from multiple resources, e.g., query-ad relevance, ad features and user portraits. These inputs are encoded into one-hot or multi-hot binary features, with typically only a tiny fraction of nonzero feature values per example. Deep learning models in online advertising industries can have terabyte-scale parameters that do not fit in the GPU memory nor the CPU main memory on a computing node. For example, a sponsored online advertising system can contain more than $10^{11}$ sparse features, making the neural network a massive model with around 10 TB parameters. In this paper, we introduce a distributed GPU hierarchical parameter server for massive scale deep learning ads systems. We propose a hierarchical workflow that utilizes GPU High-Bandwidth Memory, CPU main memory and SSD as 3-layer hierarchical storage. All the neural network training computations are contained in GPUs. Extensive experiments on real-world data confirm the effectiveness and the scalability of the proposed system. A 4-node hierarchical GPU parameter server can train a model more than 2X faster than a 150-node in-memory distributed parameter server in an MPI cluster. In addition, the price-performance ratio of our proposed system is 4-9 times better than an MPI-cluster solution.

研究の動機と目的

単一ノードのGPUメモリおよびCPUメモリを超える超大規模 CTR モデルを訓練する必要性を動機づける。
HBM、メモリ、SSDの3層階層ストレージ設計を提案し、大規模な疎なモデルのGPU中心訓練を可能にする。
訓練を加速させるためのノード内およびノード間のGPUパラメータ同期を効率的に開発する。
実データ広告データセットでスケーラビリティを評価し、標準的なMPIクラスタのベースラインと比較する。

提案手法

データ転送、パラメータ読み込み、GPU計算を重複実行させる4段階のパイプラインを設計する。
作業パラメータを原子更新で格納するため、HBM上の複数GPUにまたがる分散ハッシュテーブルを実装する。
全リデュース操作を介したノード間GPUパラメータ同期にはRDMAを使用する。
SSD上のファイルにパラメータをクラスタリングし、ファイルレベルのパラメータ管理とバックグラウンド圧縮を用いて古くなったデータを管理する。
モジュロハッシュを用いてキーを格納場所へマップすることで、GPU間およびノード間でパラメータを分割する。

実験結果

リサーチクエスチョン

RQ1階層型GPUパラメータサーバは、精度を犠牲にせずテラバイト規模のCTRモデルを効率的に訓練できるか？
RQ2従来のMPIベース訓練と比較して、HBM-PS、MEM-PS、SSD-PSを統合することによる性能とコストの利点は何か？
RQ3データ転送、キャッシュ、およびI/O戦略は、実データの広告データに対する全体的な訓練スループットにどのような影響を与えるか？

主な発見

4ノードの階層GPUパラメータサーバは、5つのCTRモデルを横断してMPIクラスタベースラインより1.8–4.8xの訓練速度アップを達成。
コスト正規化されたスピードアップはMPIソリューションと比較して4.4x〜9.0xの範囲。
階層システムの相対AUC精度はMPIベースラインの0.1%以内で、一部モデルはそれを上回ることがあり、ロスレス訓練を示唆。
HBM-PSはプル/プッシュ操作が非ゼロ特徴量の数にスケールし、訓練時間は密なパラメータ数にスケールすることを示す。
MEM-PSとSSD-PSはキャッシュとファイルレベルのパラメータ管理を通じてSSD I/Oの影響を低減し、主メモリ外訓練を可能にする。
実験は4つのGPUノード（ノードあたり8×32 GBのHBM）と、非ゼロパラメータが8e9〜1e11の5つのCTRモデルを用い、スケーラビリティと効率を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。