QUICK REVIEW

[論文レビュー] PipeMare: Asynchronous Pipeline Parallel DNN Training

Bowen Yang, Jian Zhang|arXiv (Cornell University)|Oct 9, 2019

Advanced Neural Network Applications参考文献 18被引用数 26

ひとこと要約

PipeMare は、同期パイプライン並列学習で一般的なハードウェア非効率性（パイプラインバブルや重複メモリの増大など）を排除する非同期パイプライン並列学習手法を提案する。学習率の再スケジューリングヒューリスティクスと乖離補正を用いることで、GPipe や PipeDream といった最先端の同期手法と同等のモデル精度を維持しながら、パイプライン利用率を最大 4.3× 向上させたり、メモリ使用量を最大 2.7× 減少させることに成功した。ResNet や Transformer アーキテクチャで実証された。

ABSTRACT

Pipeline parallelism (PP) when training neural networks enables larger models to be partitioned spatially, leading to both lower network communication and overall higher hardware utilization. Unfortunately, to preserve the statistical efficiency of sequential training, existing PP techniques sacrifice hardware efficiency by decreasing pipeline utilization or incurring extra memory costs. In this paper, we investigate to what extent these sacrifices are necessary. We devise PipeMare, a simple yet robust training method that tolerates asynchronous updates during PP execution without sacrificing utilization or memory, which allows efficient use of fine-grained pipeline parallelism. Concretely, when tested on ResNet and Transformer networks, asynchrony enables PipeMare to use up to $2.7 imes$ less memory or get $4.3 imes$ higher pipeline utilization, with similar model quality, when compared to state-of-the-art synchronous PP training techniques.

研究の動機と目的

同期実行がパイプライン並列 DNN 学習における統計的効率性を維持するために本当に必要かどうかを調査すること。
同期パイプライン並列学習に起因するハードウェア非効率性（パイプラインバブルや重複重みコピーのための追加メモリなど）を排除すること。
非同期性に耐性を持つことで、現代のハードウェアアクセラレータ上で効率的で細粒度なパイプライン並列学習を可能にすること。
高いハードウェア利用率と低いメモリフットプリントを維持しながら、競争力のあるモデル精度を達成する堅牢な学習手法を開発すること。

提案手法

同期実行を回避する非同期パイプライン並列学習のモデルを導入し、これによりパイプラインバブルを排除するとともに、メモリオーバーヘッドを低減する。
勾配遅延に基づいて学習率を動的に調整する学習率再スケジューリングヒューリスティクスを採用し、非同期状態での学習を安定化させる。
非同期更新によって生じる統計的誤差を低減するための乖離補正を適用し、モデル精度を向上させる。
微小バッチ処理を固定ステージ数とともに用いることで、効率的なパイプライン実行を実現するとともに、勾配の一貫性を保つ。
学習率再スケジューリングと乖離補正の技術を組み合わせ、活性化再計算と直交的に統合することで、さらにメモリフットプリントを削減する。
実際の非同期学習状況を模擬するため、各ステージの勾配遅延を切断指数分布でモデル化する。

実験結果

リサーチクエスチョン

RQ1非同期パイプライン並列学習は、モデル精度を損なわずに高いハードウェア利用率と低いメモリ使用量を達成できるか？
RQ2パイプライン並列学習における統計的効率性を維持するために、同期実行が本当に必要なのか？
RQ3学習率再スケジューリングは、非同期パイプライン環境下で固定の勾配遅延状態においても学習を安定化させられるか？
RQ4乖離補正は非同期パイプライン学習におけるモデル精度をどのように向上させるか？
RQ5提案されたヒューリスティクスは、Hogwild! スタイルの確率的非同期学習といった他の非同期学習設定へ一般化可能か？

主な発見

PipeMare は、ResNet や Transformer モデルにおいて、GPipe や PipeDream といった同期手法と比較して最大 4.3× のパイプライン利用率向上を達成した。
PipeMare は、最先端の同期パイプライン並列学習技術と比較して、モデル品質に損なわれることなく最大 2.7× のメモリ使用量削減を実現した。
乖離補正を適用した PipeMare は、非同期学習下でも CIFAR10（94.80% のテスト精度）および IWSLT14（33.8 BLEU スコア）の両方で高いモデル精度を達成した。
学習率再スケジューリングヒューリスティクスは、Hogwild! スタイルの確率的非同期状態でもテスト性能を向上させ、ResNet や Transformer モデルにおいて同期学習と同等の精度を達成した。
PipeMare は活性化再計算と直交的に統合可能であり、精度を損なわずに活性化メモリフットプリントをさらに削減できる。
本手法により、従来の同期実行による制限を克服し、現代のハードウェアアクセラレータ上で細粒度なパイプライン並列学習を効率的に実行できるようになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。