QUICK REVIEW

[論文レビュー] DL2: A Deep Learning-driven Scheduler for Deep Learning Clusters

Yanghua Peng, Yixin Bao|arXiv (Cornell University)|Sep 13, 2019

IoT and Edge/Fog Computing参考文献 47被引用数 23

ひとこと要約

DL2は、ディープラーニング駆動のスケジューラーであり、ディープラーニングクラスタのリソース割り当てを動的に調整し、平均ジョブ完了時間を最小化することを目的としている。オフラインの教師あり学習とオンラインの強化学習を組み合わせ、リアルタイムのフィードバックとポリシー最適化により、DRFとOptimusスケジューラーをそれぞれ44.1%および17.5%の割合で上回る性能を発揮する。

ABSTRACT

More and more companies have deployed machine learning (ML) clusters, where deep learning (DL) models are trained for providing various AI-driven services. Efficient resource scheduling is essential for maximal utilization of expensive DL clusters. Existing cluster schedulers either are agnostic to ML workload characteristics, or use scheduling heuristics based on operators' understanding of particular ML framework and workload, which are less efficient or not general enough. In this paper, we show that DL techniques can be adopted to design a generic and efficient scheduler. DL2 is a DL-driven scheduler for DL clusters, targeting global training job expedition by dynamically resizing resources allocated to jobs. DL2 advocates a joint supervised learning and reinforcement learning approach: a neural network is warmed up via offline supervised learning based on job traces produced by the existing cluster scheduler; then the neural network is plugged into the live DL cluster, fine-tuned by reinforcement learning carried out throughout the training progress of the DL jobs, and used for deciding job resource allocation in an online fashion. By applying past decisions made by the existing cluster scheduler in the preparatory supervised learning phase, our approach enables a smooth transition from existing scheduler, and renders a high-quality scheduler in minimizing average training completion time. We implement DL2 on Kubernetes and enable dynamic resource scaling in DL jobs on MXNet. Extensive evaluation shows that DL2 outperforms fairness scheduler (i.e., DRF) by 44.1% and expert heuristic scheduler (i.e., Optimus) by 17.5% in terms of average job completion time.

研究の動機と目的

動的ワークロード特性に適応できない静的およびヒューリスティックベースのスケジューラーの非効率性に対処すること。
シミュレーションベースの強化学習の限界を克服し、合成シミュレータではなく、ライブクラスタ運用からの実世界のフィードバックを用いること。
既存のスケジューラーへのスムーズな移行を可能にするために、履歴スケジューリング意思決定をニューラルネットワークの事前学習信号として活用すること。
教師あり事前学習とオンライン強化学習を組み合わせたハイブリッド学習アプローチにより、平均ジョブ完了時間を最小化すること。
明示的なパフォーマンスモデリングやMLフレームワークの専門知識に依存しない汎用的かつフレームワークに依存しないスケジューラーを設計すること。

提案手法

既存のクラスタスケジューラーからの履歴ジョブトレースとスケジューリング意思決定を用いて、ニューラルネットワークをオフライン教師あり学習で事前学習し、最低限のパフォーマンスを保証すること。
事前学習済みモデルをKubernetesベースのライブDLクラスタにデプロイし、ジョブ実行中のリアルタイムリソース割り当て意思決定を実行すること。
実際のジョブトレーニング進捗からのフィードバックを用いて、オンライン強化学習によりニューラルネットワークを微調整し、平均ジョブ完了時間を最小化すること。
リソース割り当て意思決定の高次元アクション空間を効率的に探索するためのジョブに特化した探索戦略を導入し、学習収束を向上させること。
動的でマルチテナント環境における訓練の安定化とポリシー最適化を向上させるために、アクター・クリティック型ディープ強化学習フレームワークを採用すること。
意思決定に情報を持つよう、ジョブレベルのメトリクス（例：損失、正解率、リソース使用量）とクラスタレベルのリソース利用可能性を含む入力状態表現を設計すること。

実験結果

リサーチクエスチョン

RQ1実際のクラスタフィードバックで訓練されたディープ強化学習モデルは、DRF や Optimus といった従来のスケジューラーを上回り、平均ジョブ完了時間を短縮できるか？
RQ2オフライン教師あり事前学習は、既存スケジューラーからのスムーズな移行を可能にするとともに、オンラインRLにおける初期段階での悪意のある意思決定を回避できるか？
RQ3ジョブに特化した探索は、動的リソース割り当ての高次元アクション空間において、収束性とパフォーマンスをどの程度向上させるか？
RQ4明示的なパフォーマンスモデルやフレームワーク固有のヒューリスティクスに依存しない汎用的でブラックボックス型のDLスケジューラーは、有効であるか？
RQ5ライブトレーニングジョブからの実際のフィードバック統合は、シミュレーションベースの学習と比較して、スケジューリングポリシーのスケーラビリティとロバスト性にどのように影響を与えるか？

主な発見

DL2は、公平性に基づくDRFスケジューラーと比較して、平均ジョブ完了時間を44.1%短縮し、リソース効率の向上を顕著に示している。
DL2は、エキスパートヒューリスティックベースのOptimusスケジューラーと比較して、平均ジョブ完了時間で17.5%の改善を達成し、手作業で設計されたスケジューリングルールを上回ることを実証した。
オフライン教師あり事前学習とオンライン強化学習の組み合わせにより、純粋なオンラインRLに比べて収束が速く、より優れたスケジューリングポリシーが得られる。
ジョブに特化した探索の活用により、アクション空間における学習効率が著しく向上し、初期学習段階での悪意のある意思決定のリスクが低減された。
訓練収束速度はクラスタ数にほぼ線形に向上する傾向を示しており、大規模な展開によりポリシー学習が加速することが示唆された。
本アプローチは汎用的であり、最小限のアーキテクチャ変更で、すべてのアーキテクチャとジョブ配置意思決定をサポート可能に拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。