[論文レビュー] Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads
Gavel は、ディープラーニングワークロード向けの非均一性に配慮したクラスタースケジューラであり、スケジューリング方針を最適化問題として定式化することで、公平性、マケスパン、コスト効率を向上させる。アクセラレータ(例:GPU、TPU)間のパフォーマンス非均一性をモデル化し、リソースの共有を可能にすることで、非均一性に配慮しないスケジューラーよりも平均ジョブ完了時間が最大3.5倍速く、マケスパンが2.5倍低くなる。
Specialized accelerators such as GPUs, TPUs, FPGAs, and custom ASICs have been increasingly deployed to train deep learning models. These accelerators exhibit heterogeneous performance behavior across model architectures. Existing schedulers for clusters of accelerators, which are used to arbitrate these expensive training resources across many users, have shown how to optimize for various multi-job, multi-user objectives, like fairness and makespan. Unfortunately, existing schedulers largely do not consider performance heterogeneity. In this paper, we propose Gavel, a heterogeneity-aware scheduler that systematically generalizes a wide range of existing scheduling policies. Gavel expresses these policies as optimization problems, making it easy to optimize for objectives in a heterogeneity-aware way, while also being cognizant of performance optimizations like space sharing. Gavel then uses a round-based scheduling mechanism to ensure jobs receive their ideal allocation given the target scheduling policy. Gavel's heterogeneity-aware policies allow a heterogeneous cluster to sustain higher input load, and improve end objectives such as average job completion time and makespan by up to 3.5x compared to heterogeneity-agnostic policies.
研究の動機と目的
- 既存の GPU やアクセラレータクラスタースケジューラーに見られる非均一性への無配慮な点を是正する。これらはしばしばアクセラレータタイプ間のパフォーマンス差を無視する。
- 公平性、マケスパン最小化、コストに配慮したスケジューリングといった多様なスケジューリング方針を統合するフレームワークを提供し、アクセラレータのパフォーマンス非均一性を考慮する。
- リソース共有や配置感受性といったパフォーマンス最適化を、非均質な環境におけるスケジューリング目標の向上に寄与する形で統合する。
- 部門間の公平性と個々のジョブの公平性をバランスさせる複雑な階層的スケジューリング方針をサポートし、効率的かつ解析的根拠に基づいたものとする。
- 最適なリソース割り当てが物理ハードウェア上で実際に実現可能であることを保証する、分離型でラウンドベースのスケジューリングメカニズムを提供する。
提案手法
- スケジューリング方針を最適化問題として定式化し、目的関数をジョブスループットに依存させる。これにより、非均一性に配慮した最適化が可能になる。
- プロファイリングと行列補完に基づくスループット推定器を用い、共同配置されたジョブのパフォーマンスをリアルタイムで予測することで、正確なリソース割り当てが可能になる。
- ラウンドベースのスケジューリングメカニズムにより、方針の定式化と割り当ての実行を分離し、ジョブが理想的なリソース割合を受け取ることを保証する。
- 最適化モデルにリソース共有と配置感受性を組み込み、アドホックな共同配置戦略を凌駕するリソース利用効率とパフォーマンス向上を実現する。
- 最大最小公平性、最短ジョブ優先、最小マケスパン、階層的公平性といった多様な方針を、それぞれ異なる最適化目的として定式化することで、幅広い方針をサポートする。
- 既存のパフォーマンス推定技術(例:Quasar)を活用し、オンラインで欠損するスループットデータを推定することで、動的ワークロード下でも高いスケジューリング精度を維持する。
実験結果
リサーチクエスチョン
- RQ1多様なアクセラレータタイプやモデルアーキテクチャを想定した環境において、スケジューリング方針を体系的に非均一性に配慮したものに一般化できるか?
- RQ2パフォーマンス非均一性とリソース共有を明示的にモデル化することで、ジョブ完了時間やマケスパンといったクラスタの主要指標にどのような影響を与えるか?
- RQ3統一された最適化ベースのフレームワークが、非均質なクラスタ環境において、公平性、コスト最小化、マケスパン最小化といった多様なスケジューリング方針をどの程度サポートできるか?
- RQ4Gavel のラウンドベースのリソース割り当てメカニズムは、物理ハードウェア上で最適な非均一性に配慮したリソース割り当てが実際に実現される仕組みをどのように保証するか?
- RQ5アクセラレータの非均一性と共同配置効果の両方を考慮したスケジューリング意思決定によって、どの程度のパフォーマンス向上が達成可能か?
主な発見
- Gavel は、Gandiva や Tiresias といった非均一性に配慮しないスケジューラーよりも、平均ジョブ完了時間を最大3.5倍改善する。
- 特にクラスタ負荷が高い状況下で、非均一性に配慮した方針最適化によりマケスパンが最大2.5倍低減する。
- 遅延SLOを満たしつつコストを最小化する場合、より適切なアクセラレータ選定とジョブの共同配置により、コスト効率が1.4倍向上する。
- Gavel ではリソース共有を明示的にモデル化しているため、Gandiva のアドホックな共同配置アプローチに比べ、スケジューリング目標が最大2.2倍向上する。
- 非均一性に配慮しないスケジューラーよりも、Gavel はより高い最大クラスタ負荷を維持でき、スケーラビリティとリソース利用効率の向上を示している。
- スループット推定器により、オンラインでのパフォーマンス予測が高精度に実現され、高負荷時でも平均ジョブ完了時間の低下はわずかに抑えられる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。