[論文レビュー] TicTac: Accelerating Distributed Deep Learning with Communication Scheduling
TicTac はパラメータ転送のほぼ最適な順序を強制することで分散ディープラーニングのスループットを向上させ、計算と通信の重なりを最大化。推論で最大37.7%、トレーニングで19.2%の改善を、遅延(ストラグラー)を減らしつつ達成。
State-of-the-art deep learning systems rely on iterative distributed training\nto tackle the increasing complexity of models and input data. The iteration\ntime in these communication-heavy systems depends on the computation time,\ncommunication time and the extent of overlap of computation and communication.\n In this work, we identify a shortcoming in systems with graph representation\nfor computation, such as TensorFlow and PyTorch, that result in high variance\nin iteration time --- random order of received parameters across workers. We\ndevelop a system, TicTac, to improve the iteration time by fixing this issue in\ndistributed deep learning with Parameter Servers while guaranteeing\nnear-optimal overlap of communication and computation. TicTac identifies and\nenforces an order of network transfers which improves the iteration time using\nprioritization. Our system is implemented over TensorFlow and requires no\nchanges to the model or developer inputs. TicTac improves the throughput by up\nto $37.7\\%$ in inference and $19.2\\%$ in training, while also reducing\nstraggler effect by up to $2.3\\times$. Our code is publicly available.\n
研究の動機と目的
- PS(パラメータサーバー)を用いたDAGベースの分散DLにおける反復時間のばらつきの原因を特定する。
- 計算と通信の重なりを最大化するよう、ネットワーク転送の順序を決定するスケジューリング手法を開発する。
- モデル変更なしでスケジューリングを実装するため、TensorFlow 内に軽量な適用機構を提供する。
提案手法
- 各ワーカーのDAG上のrecv操作のほぼ最適解に近い順序付けとして、スケジューリング問題をモデル化する。
- TICとTACという2つのヒューリスティックを提案し、より良い重なりのためにパラメータ転送を優先する。
- スケジューリング効率指標と、スケジュール品質を定量化する2つの境界(上限 U_Makespan と下限 L_Makespan)を定義する。
- TensorFlow 1.8 で TIC と TAC を実装し、オフラインの優先度計算と gRPC による送信者側でのオンライン適用を行う。
実験結果
リサーチクエスチョン
- RQ1パラメータ転送の順序は、Parameter Server を用いた Model Replica における反復時間と重なりにどのような影響を与えるか?
- RQ2DAG ベースのスケジューリング(TIC/TAC)はストラグラーを減らし、トレーニングと推論のスループットを向上させるか?
- RQ3この設定におけるスケジューリング効率を評価するための理論的境界と指標は何か?
主な発見
- ベースラインと比較して、推論で最大37.7%、トレーニングで19.2%のスループット向上。
- より予測可能な転送順序によってストラグラーの影響を最大で2.3倍減少。
- ネットワークが大きくなるほど利益は増加する(ワーカー・PSが多いほど)、ただし通信が計算をあまりにも支配する場合、スケジューリングの効果は低下する。
- TIC は TAC に近い性能を示し、DAGレベルの情報でほぼ最適に近いスケジューリングが可能であることを示唆。
- モデルや開発者入力の変更は不要で、システムはネットワーク転送レイヤーで順序を強制する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。