[論文レビュー] Deep Learning Training in Facebook Data Centers: Design of Scale-up and Scale-out Systems
本論文は Zion、Facebookのスケールアップ型トレーニングプラットフォームを8つのCPUソケットと8つのアクセラレータを備えて紹介し、データ並列・モデル並列を用いた今後のスケールアウト型トレーニング(DLRM)に関する設計上の考慮事項と、トポロジー認識通信およびRDMAトランスポートを伴う設計について論じる。
Large-scale training is important to ensure high performance and accuracy of machine-learning models. At Facebook we use many different models, including computer vision, video and language models. However, in this paper we focus on the deep learning recommendation models (DLRMs), which are responsible for more than 50% of the training demand in our data centers. Recommendation models present unique challenges in training because they exercise not only compute but also memory capacity as well as memory and network bandwidth. As model size and complexity increase, efficiently scaling training becomes a challenge. To address it we design Zion - Facebook's next-generation large-memory training platform that consists of both CPUs and accelerators. Also, we discuss the design requirements of future scale-out training systems.
研究の動機と目的
- データセンターにおける深層学習トレーニングの計算資源とメモリ需要の高まりを動機づける。特にDLRM向け。
- Zionハードウェアプラットフォームとそのメモリ・計算特性を説明する。
- 今後のスケールアウト型トレーニングシステムの設計要件と、それがインターコネクトやアクセラレータに与える影響を特定する。
提案手法
- 埋め込みテーブルを含む密な特徴と疎な特徴の混在を持つ DLRM ワークロードを説明する。
- データ並列およびモデル並列のトレーニングマッピングと allreduce および alltoall プリミティブの使用を説明する。
- 8ソケットCPUと8つのアクセラレータを備えた Zion のスケールアップ設計と、ベンダー非依存のアクセラレータ用 Open Accelerator Module (OAM) を提示する。
- CPUファブリック、アクセラレータファブリック、PCIe といった相互接続ネットワークの選択肢と、それらが通信パターンに与える影響を論じる。
- allreduce および alltoall のための ring と fully-connected トポロジの分析比較を提供し、トポロジの性能への影響を示す。
実験結果
リサーチクエスチョン
- RQ1DLRM におけるデータ並列およびモデル並列戦略は、allreduce および alltoall 通信へどのようにマッピングされるか?
- RQ2Zion をはじめとするスケールアップ・プラットフォームの設計が、今後のスケールアウト型トレーニングシステムに与える影響は何か?
- RQ3分散 DLRM トレーニングにおける同期プリミティブ(allreduce/alltoall)に対するインターコネクトのトポロジとトランスポートの影響は?
- RQ4拡張可能なトレーニングシステム設計におけるベンダー非依存のアクセラレータ形状(OAM)の役割は何か?
主な発見
- 埋め込みテーブルと密な MLP のため、DLRMs はデータ並列とモデル並列の両方を必要とする。埋め込みが alltoall 通信を、密な層が allreduce を駆動する。
- Zion は 8 CPU ソケットと 8つのアクセラレータを提供し、CPU とアクセラレータのメモリ/計算のトレードオフを際立たせる。
- 非同期トレーニングは、ジョブ内のホスト数にほぼ線形にスループットを拡大するが、トレーナー数が増えるにつれて同期オプションが必要になる。
- トポロジとトランスポートの選択(ring vs fully-connected、GDR/RDMA)は、allreduce および alltoall の性能に著しく影響し、より小さなメッセージで恩恵が大きく、scale-out では alltoall 帯域幅が critical になる。
- Open Accelerator Module (OAM) はベンダー非依存のアクセラレータ統合を可能にし、柔軟でスケーラブルなトレーニングアーキテクチャを支える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。