[論文レビュー] HetPipe: Enabling Large DNN Training on (Whimpy) Heterogeneous GPU Clusters through Integration of Pipelined Model Parallelism and Data Parallelism
HetPipe はパイプライン化されたモデル並列性をデータ並列性と組み合わせ、弱いものを含む異種GPUで大規模DNNを訓練する。実験では最先端のDPより最大で 49% 高速収束を実現。
Deep Neural Network (DNN) models have continuously been growing in size in order to improve the accuracy and quality of the models. Moreover, for training of large DNN models, the use of heterogeneous GPUs is inevitable due to the short release cycle of new GPU architectures. In this paper, we investigate how to enable training of large DNN models on a heterogeneous GPU cluster that possibly includes whimpy GPUs that, as a standalone, could not be used for training. We present a DNN training system, HetPipe (Heterogeneous Pipeline), that integrates pipelined model parallelism (PMP) with data parallelism (DP). In HetPipe, a group of multiple GPUs, called a virtual worker, processes minibatches in a pipelined manner, and multiple such virtual workers employ data parallelism for higher performance. We also propose a novel parameter synchronization model, which we refer to as Wave Synchronous Parallel (WSP) to accommodate both PMP and DP for virtual workers, and provide convergence proof of WSP. Our experimental results on a given heterogeneous setting show that with HetPipe, DNN models converge up to 49% faster compared to the state-of-the-art DP technique.
研究の動機と目的
- 混在する(潜在的に貧弱な)GPUを含む異種GPUクラスタ上で大規模DNNの訓練を促進する。
- 仮想ワーカー内の PMP を組み合わせ、仮想ワーカー間で DP を組み合わせることで効率的な利用を可能にする。
- 異種でパイプライン化された訓練に適した収束保証付きの同期モデルを提供する。
提案手法
- 異種性の下でデータ並列性を可能にするため、複数のGPUで構成される仮想ワーカーを導入する。
- DNNモデルを各仮想ワーカー内のPMP用にk個のパーティションに分割してパイプラインを形成する。
- Wave Synchronous Parallel (WSP) を、ウェーブごとに更新を集約する収束保証付きの同期モデルとして提案する。
- 境界付きのグローバルスレテンシを持つグローバル重み同期のためにパラメータサーバを使用する。
- WSP の収束証明を提供する。
- HetPipe を実装するように TensorFlow を修正し、4-GPU の異種クラスターで評価する。
実験結果
リサーチクエスチョン
- RQ1PMP と DP を組み合わせることにより、異種GPUクラスター上で大規模DNNモデルを efficiently training できるか?
- RQ2HetPipe でパイプライン性能を最大化するために、GPUリソースはどのように割り当て・分割すべきか?
- RQ3異種性とパイプライン実行下で Wave Synchronous Parallel は収束を保証するか?
- RQ4Horovod の AllReduce など最先端の DP アプローチと比べてどのような性能向上が得られるか?
- RQ5異種_DP+PMP設定におけるグローバルおよびローカルスレテンシを HetPipe はどう扱うか?
主な発見
- HetPipe は Horovod ベースの DP より収束を最大で 49%、VGG-19、39%、ResNet-152 の異種クラスター設定で実現する。
- 仮想ワーカーを形成することで、貧弱な単一 GPU には大きすぎる可能性がある大規模モデルの訓練を可能にする。
- 仮想ワーカー内の PMP と仮想ワーカー間の DP は異種GPUの利用率を改善する。
- WSP は境界付きスレテンシを前提とした、PMP と DP を組み合わせた設定に対して収束保証を提供する。
- ミニバッチごとではなくウェーブごとに更新を集約することでグローバル同期を削減し、通信オーバーヘッドを低減。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。