[论文解读] DL2: A Deep Learning-driven Scheduler for Deep Learning Clusters
DL2 提出了一种面向深度学习集群的深度学习驱动调度器,结合离线监督学习与在线强化学习,动态调整资源分配,以最小化平均作业完成时间。通过实时反馈与策略优化,其在减少训练完成时间方面相比 DRF 和 Optimus 调度器分别提升了 44.1% 和 17.5%。
More and more companies have deployed machine learning (ML) clusters, where deep learning (DL) models are trained for providing various AI-driven services. Efficient resource scheduling is essential for maximal utilization of expensive DL clusters. Existing cluster schedulers either are agnostic to ML workload characteristics, or use scheduling heuristics based on operators' understanding of particular ML framework and workload, which are less efficient or not general enough. In this paper, we show that DL techniques can be adopted to design a generic and efficient scheduler. DL2 is a DL-driven scheduler for DL clusters, targeting global training job expedition by dynamically resizing resources allocated to jobs. DL2 advocates a joint supervised learning and reinforcement learning approach: a neural network is warmed up via offline supervised learning based on job traces produced by the existing cluster scheduler; then the neural network is plugged into the live DL cluster, fine-tuned by reinforcement learning carried out throughout the training progress of the DL jobs, and used for deciding job resource allocation in an online fashion. By applying past decisions made by the existing cluster scheduler in the preparatory supervised learning phase, our approach enables a smooth transition from existing scheduler, and renders a high-quality scheduler in minimizing average training completion time. We implement DL2 on Kubernetes and enable dynamic resource scaling in DL jobs on MXNet. Extensive evaluation shows that DL2 outperforms fairness scheduler (i.e., DRF) by 44.1% and expert heuristic scheduler (i.e., Optimus) by 17.5% in terms of average job completion time.
研究动机与目标
- 解决静态和基于启发式的调度器在深度学习集群中因无法适应动态工作负载特性而导致的低效问题。
- 通过利用真实集群运行中的实际反馈而非合成模拟器,克服基于模拟的强化学习的局限性。
- 通过利用历史调度决策作为神经网络的预训练信号,实现与现有调度器的平滑过渡。
- 通过结合监督预训练与在线强化学习的混合学习方法,最小化平均作业完成时间。
- 设计一种通用的、与框架无关的调度器,不依赖显式性能建模或对机器学习框架的深入专业知识。
提出的方法
- 使用离线监督学习,在现有集群调度器的历史作业轨迹和调度决策上预训练神经网络,以确保基线性能。
- 将预训练模型部署于基于 Kubernetes 的真实深度学习集群中,在作业执行期间实时做出资源分配决策。
- 利用实际作业训练进度的反馈,通过在线强化学习对神经网络进行微调,重点是最小化平均作业完成时间。
- 引入作业感知探索,以高效地遍历资源分配决策的高维动作空间,提升学习收敛性。
- 采用演员-评论家深度强化学习框架,以在动态、多租户环境中稳定训练并提升策略优化效果。
- 设计输入状态表示,包含作业级指标(如损失、准确率、资源使用情况)和集群级资源可用性,以支持明智的决策制定。
实验结果
研究问题
- RQ1在减少平均作业完成时间方面,基于真实集群反馈训练的深度强化学习模型是否能优于传统调度器(如 DRF 和 Optimus)?
- RQ2离线监督预训练在实现与现有调度器平滑过渡的同时,是否能有效避免在线强化学习初期的糟糕决策?
- RQ3作业感知探索在动态资源分配的高维动作空间中,对学习收敛性和性能的提升程度如何?
- RQ4一种无需依赖显式性能模型或框架特定启发式规则的通用、黑箱式深度学习调度器是否有效?
- RQ5与基于模拟的训练相比,集成来自实际训练作业的真实反馈如何影响调度策略的可扩展性和鲁棒性?
主要发现
- 与基于公平性的 DRF 调度器相比,DL2 将平均作业完成时间减少了 44.1%,显著提升了资源利用效率。
- 与基于专家启发式规则的 Optimus 调度器相比,DL2 在平均作业完成时间上实现了 17.5% 的改进,验证了其在手工规则调度上的优越性。
- 离线监督预训练与在线强化学习的结合,相比纯在线强化学习,能实现更快的收敛速度和更高质量的调度策略。
- 采用作业感知探索显著提升了动作空间中的学习效率,降低了早期训练阶段出现糟糕决策的风险。
- 训练收敛速度几乎随集群数量呈线性增长,表明更大规模的部署可加速策略学习。
- 该方法具有良好的泛化能力,仅需极少的架构修改,即可扩展支持所有减少架构和作业放置决策。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。