QUICK REVIEW

[論文レビュー] Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy, Challenges and Vision

Wei Gao, Qinghao Hu|arXiv (Cornell University)|May 24, 2022

Cloud Computing and Resource Management被引用数 21

ひとこと要約

この調査はGPUデータセンターにおけるDLワークロードのスケジューリングを分析し、トレーニングと推論のスケジューラを分類し、課題を整理し、今後の方向性を提案します。

ABSTRACT

Deep learning (DL) shows its prosperity in a wide variety of fields. The development of a DL model is a time-consuming and resource-intensive procedure. Hence, dedicated GPU accelerators have been collectively constructed into a GPU datacenter. An efficient scheduler design for such GPU datacenter is crucially important to reduce the operational cost and improve resource utilization. However, traditional approaches designed for big data or high performance computing workloads can not support DL workloads to fully utilize the GPU resources. Recently, substantial schedulers are proposed to tailor for DL workloads in GPU datacenters. This paper surveys existing research efforts for both training and inference workloads. We primarily present how existing schedulers facilitate the respective workloads from the scheduling objectives and resource consumption features. Finally, we prospect several promising future research directions. More detailed summary with the surveyed paper and code links can be found at our project website: https://github.com/S-Lab-System-Group/Awesome-DL-Scheduling-Papers

研究の動機と目的

GPUデータセンターのスケジューリングに影響を与えるDLワークロード特性を特定する。
目的カテゴリごとにDLトレーニングと推論の既存スケジューラを調査する。
DL特有のスケジューリング課題に対処するためのメカニズムを分析する。
限界を強調し、将来のスケジューラ設計の方向性を提案する。

提案手法

効率性、公平性、遅延の観点とリソース使用（GPUの異種性、共有、メモリ、インタコネクト）でスケジューリング解決策を分類する。
2017–2022の代表的なDLトレーニングと推論スケジューラを要約し、それらのアプローチをDL特有の課題に対応づける。
配置、プリエンプション、プロファイリング、エラスティシティなどDLスケジューラの設計検討事項を分析する。
性能モデリング、トレース分析、ワークロード特性などの有効化技法を論じる。
DLスケジューリングと従来のHPC/ビッグデータスケジューラを比較して、固有の要件を特定する。

実験結果

リサーチクエスチョン

RQ1GPUデータセンターでのDLワークロードをスケジューリングする際の主な課題は何か。
RQ2既存のスケジューラは目的を達成するために共通の戦略を共有しているか。
RQ3急速に発展するDL技術に適応するよう、スケジューラをどのように洗練させるべきか。
RQ4DLデータセンターにおけるトレーニングと推論の設計上のトレードオフの鍵は何か。

主な発見

DLトレーニングと推論は、スケジューラ設計を左右する異なる目的とリソースニーズを持つ。
多くのスケジューラは意思決定を改善するために性能モデリング、プロファイリング、ワークロードトレースを使用する。
DL特有の課題には、トレーニングでの資源集約的な使用、異種性のアフィニティ、プリエンプションオーバーヘッド、推論では利用率低下と遅延-精度-コストのトレードオフが含まれる。
既存の解決策はしばしばアドホックで、特定の目的に特化しており、DLワークロード全体への統一的な扱いは限定的である。
この調査はGPUデータセンターにおけるDLワークロードの複雑さに対処する将来の方向性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。