[论文解读] Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads
Gavel 是一种针对深度学习工作负载的异构性感知集群调度器,通过将调度策略形式化为优化问题,以提升公平性、完成时间(makespan)和成本效率。通过建模加速器(如 GPU、TPU)之间的性能异构性并支持资源共享,Gavel 相较于忽略异构性的调度器,实现了平均作业完成时间提升最多 3.5 倍,且完成时间(makespan)降低最多 2.5 倍。
Specialized accelerators such as GPUs, TPUs, FPGAs, and custom ASICs have been increasingly deployed to train deep learning models. These accelerators exhibit heterogeneous performance behavior across model architectures. Existing schedulers for clusters of accelerators, which are used to arbitrate these expensive training resources across many users, have shown how to optimize for various multi-job, multi-user objectives, like fairness and makespan. Unfortunately, existing schedulers largely do not consider performance heterogeneity. In this paper, we propose Gavel, a heterogeneity-aware scheduler that systematically generalizes a wide range of existing scheduling policies. Gavel expresses these policies as optimization problems, making it easy to optimize for objectives in a heterogeneity-aware way, while also being cognizant of performance optimizations like space sharing. Gavel then uses a round-based scheduling mechanism to ensure jobs receive their ideal allocation given the target scheduling policy. Gavel's heterogeneity-aware policies allow a heterogeneous cluster to sustain higher input load, and improve end objectives such as average job completion time and makespan by up to 3.5x compared to heterogeneity-agnostic policies.
研究动机与目标
- 为解决现有 GPU 和加速器集群调度器缺乏异构性感知的问题,这些调度器通常忽略不同加速器类型之间的性能差异。
- 提供一个统一框架,可泛化多种调度策略(如公平性、最小化完成时间、成本感知调度),同时考虑加速器性能异构性。
- 以一种能提升异构环境中调度目标的方式,集成性能优化技术(如资源共享和放置敏感性)。
- 支持复杂、分层的调度策略,平衡部门间与单个作业间的公平性,同时保持高效且具有分析基础。
- 提供解耦的、基于轮次的调度机制,确保在物理硬件上实际实现最优分配。
提出的方法
- 将调度策略形式化为优化问题,其中目标函数依赖于作业吞吐量,从而实现对异构性的感知优化。
- 使用基于性能剖析和矩阵补全的吞吐量估算器,实时预测共置作业的性能,从而实现准确的资源分配决策。
- 通过基于轮次的调度机制,将策略制定与分配执行解耦,确保作业获得其理想的资源份额。
- 将资源共享和放置敏感性整合进优化模型,提升资源利用率和性能,超越临时的共置策略。
- 通过将每种策略(如最大最小公平性、最短作业优先、最小完成时间、分层公平性)表示为独立的优化目标,支持广泛的调度策略。
- 利用现有性能估算技术(如 Quasar)在线推断缺失的吞吐量数据,确保在动态工作负载下仍保持高调度精度。
实验结果
研究问题
- RQ1能否系统性地将调度策略泛化为对多种加速器类型和模型架构的异构性感知?
- RQ2显式建模性能异构性和资源共享对关键集群目标(如作业完成时间、完成时间)有何影响?
- RQ3统一的基于优化的框架在异构集群中,能在多大程度上支持多样化的调度策略(如公平性、成本最小化、完成时间最小化)?
- RQ4Gavel 的基于轮次的分配机制如何确保在物理硬件上实际实现最优的、异构性感知的资源分配?
- RQ5当调度决策同时考虑加速器异构性和共置效应时,可实现多大的性能提升?
主要发现
- 与 Gandiva 和 Tiresias 等忽略异构性的调度器相比,Gavel 将平均作业完成时间最多提升 3.5 倍。
- 通过异构性感知的策略优化,完成时间(makespan)最多降低 2.5 倍,尤其在高集群负载下表现显著。
- 在满足延迟 SLO 的前提下最小化成本时,成本效率提升 1.4 倍,得益于更优的加速器选择和作业共置策略。
- 与 Gandiva 的临时共置方法相比,Gavel 显式建模资源共享,使调度目标最多提升 2.2 倍。
- Gavel 在高负载下仍能维持比忽略异构性的调度器更高的最大集群负载,表明其具备更好的可扩展性和资源利用率。
- 吞吐量估算器实现了准确的在线性能预测,即使在高负载下,平均作业完成时间也仅略有下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。