[論文レビュー] Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads
この論文は Microsoft のマルチテナント GPU クラスター(Philly)の2か月分のトレースを分析し、ギャングスケジューリング、局所性、および障害が利用率とトレーニング性能に与える影響を理解し、DNN ワークロード向けのスケジューラ設計ガイドラインを提供します。
With widespread advances in machine learning, a number of large enterprises are beginning to incorporate machine learning models across a number of products. These models are typically trained on shared, multi-tenant GPU clusters. Similar to existing cluster computing workloads, scheduling frameworks aim to provide features like high efficiency, resource isolation, fair sharing across users, etc. However Deep Neural Network (DNN) based workloads, predominantly trained on GPUs, differ in two significant ways from traditional big data analytics workloads. First, from a cluster utilization perspective, GPUs represent a monolithic resource that cannot be shared at a fine granularity across users. Second, from a workload perspective, deep learning frameworks require gang scheduling reducing the flexibility of scheduling and making the jobs themselves inelastic to failures at runtime. In this paper we present a detailed workload characterization of a two-month long trace from a multi-tenant GPU cluster in a large enterprise. By correlating scheduler logs with logs from individual jobs, we study three distinct issues that affect cluster utilization for DNN training workloads on multi-tenant clusters: (1) the effect of gang scheduling and locality constraints on queuing, (2) the effect of locality on GPU utilization, and (3) failures during training. Based on our experience running a large-scale operation, we provide design guidelines pertaining to next-generation cluster schedulers for DNN training workloads.
研究の動機と目的
- 局所性の制約とガングスケジューリングがマルチテナント DNN トレーニング・クラスタのキュー遅延に与える影響を特性化する。
- GPU 利用率と局所性およびジョブ間干渉がトレーニング性能にもたらす影響を測定する。
- 障害モードとその発生時期を特定して、故障対応型のスケジューリングとリトライ方針を通知する。
- 共有GPUクラスタでDNNワークロードを扱う次世代スケジューラの設計指針を提供する。
提案手法
- Microsoft の Philly GPU クラスターの75日間の本番トレースを分析し、YARN スケジューラログ、ジョブごとのフレームワークログ、および Ganglia のハードウェア指標を組み合わせる。
- キュー遅延をフェアシェア遅延と断片化遅延に定義・定量化する。
- 実トレースデータと ResNet-50 を用いたコントロール実験の両方を用いて、局所性と共置がトレーニング効率に与える影響と GPU 利用率を評価する。
- 収束までのエポック数や障害分布を含むトレーニング進行パターンを特徴づける。
- スケジューラ設計指針を提案する:局所性とキュー遅延のトレードオフを検討し、共置ワークロードを分離し、専用プールで早期に障害を検出して対処する。
実験結果
リサーチクエスチョン
- RQ1局所性の制約とギャングスケジューリングは、マルチテナントGPUクラスタにおけるDNNトレーニングジョブのキュー遅延にどう影響するか?
- RQ2異なる局所性および共置シナリオ下で実現される GPU 利用率はどの程度で、これがトレーニングのスループットにどのように影響するか?
- RQ3トレーニングジョブの障害の主な原因と発生時期は何か、スケジューラはそれに応じてリトライ方針をどう適応すべきか?
- RQ4共有GPUインフラストラクチャ上のDNNワークロード向けの次世代スケジューラを改善する具体的な設計指針は何か?
主な発見
- キュー遅延はフェアシェア遅延よりも断片化によって支配されており、局所性の制約を緩和すると待機時間が短縮され、特に大規模GPUジョブで顕著である。
- 利用中のGPUの平均利用率は約52%、16-GPUジョブでは分配と干渉のため非効率が高い。
- 分散トレーニングと共置は、同期オーバーヘッドと共有リソースの競合(PCIe/RDMA)のためGPU利用率を低下させる。
- 約30%のジョブが失敗または終了され、GPU時間使用に不均等に寄与する。障害はスタック全体で発生し、プログラミングエラーがトレーニング初期に多い。
- 通過した多くのジョブは、最低損失に到達するまでほぼ全エポックを必要とする。改善が停滞した場合の早期打ち切りの潜在的節約を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。