[论文解读] Themis: Fair and Efficient GPU Cluster Scheduling for Machine Learning Workloads
Themis 是一种针对机器学习工作负载的新型 GPU 集群调度框架,通过两级基于拍卖的分配系统确保完成时间公平性。通过将 GPU 分配建模为一种动态拍卖,其中投标根据公平性与效率之间的权衡进行优先排序,Themis 相较于最先进的调度器实现了更高的集群利用率和更好的公平性。
Modern distributed machine learning (ML) training workloads benefit significantly from leveraging GPUs. However, significant contention ensues when multiple such workloads are run atop a shared cluster of GPUs. A key question is how to fairly apportion GPUs across workloads while ensuring overall cluster efficiency. We find that established cluster scheduling disciplines that provide instantaneous fair share of resources are a poor fit because of ML workloads' unique attributes. ML jobs are typically long running, have coarse grained tasks that need to be gang-scheduled, and their performance is sensitive to tasks' relative placement. These properties cannot be captured by existing fair sharing schemes. We propose Themis, a new scheduling framework for ML training workloads. It's GPU allocation policy enforces that ML workloads complete in a finish-time fair manner, a new notion we introduce. To capture placement sensitivity and ensure efficiency, Themis uses a two-level scheduling architecture where ML workloads bid on available resources that are offered in an auction run by a central arbiter. Our auction design allocates GPUs to winning bids by trading off efficiency for fairness in the short term but compensating for finish-time fairness in the long term. Our evaluation on a number of machine learning models shows that Themis can ensure greater fairness while providing more efficient allocations compared to state-of-the-art schedulers.
研究动机与目标
- 解决现有公平共享调度在长周期、组调度的机器学习工作负载中应用于 GPU 集群时的局限性。
- 设计一种调度框架,以考虑机器学习训练中的放置敏感性和任务共位置需求。
- 在保持高集群效率的同时,实现完成时间公平性——即工作负载按其资源配额比例完成。
- 开发一种两级调度架构,将资源投标与集中仲裁分离,以实现大规模集群的可扩展性。
- 使用真实机器学习工作负载对框架进行评估,量化其在公平性和效率方面的改进。
提出的方法
- Themis 提出了一种新的公平性度量指标,称为完成时间公平性,确保工作负载按其资源份额比例完成。
- 采用两级调度架构:每个节点上的本地调度器收集来自机器学习作业的投标,中央仲裁器运行拍卖以分配 GPU。
- 拍卖机制根据综合评分优先处理投标,该评分平衡了紧迫性、公平性和效率,短期效率增益通过长期公平性补偿来抵消。
- GPU 分配决策通过动态投标系统做出,作业提交的投标反映了其资源需求和优先级。
- 通过确保单个作业所需的所有 GPU 同时分配,系统强制执行组调度,以保持放置敏感性。
- 通过反馈回路根据历史表现和公平性指标调整未来投标,以维持长期平衡。
实验结果
研究问题
- RQ1调度框架能否在不牺牲集群效率的前提下,为共享 GPU 集群中的机器学习工作负载实现完成时间公平性?
- RQ2放置敏感性和组调度约束在多大程度上影响公平且高效的 GPU 调度器的设计?
- RQ3基于拍卖的机制在多大程度上能够平衡机器学习集群调度中的短期效率与长期公平性?
- RQ4所提出的两级架构在大规模 GPU 集群中如何实现可扩展性并保持响应性?
- RQ5在公平性和资源利用率方面,Themis 相较于现有调度器提供了哪些性能提升?
主要发现
- Themis 相较于最先进的调度器,显著提升了完成时间公平性,确保工作负载按其资源配额比例完成。
- 该框架通过动态投标机制减少了 GPU 空闲时间,并更好地匹配资源供给与需求,从而提高了集群效率。
- 通过强制执行组调度,Themis 保持了对任务放置和共位置敏感的机器学习工作负载的高性能。
- 基于拍卖的分配机制在实现短期效率增益的同时,通过时间补偿机制确保长期公平性平衡。
- 在多种机器学习模型上的评估表明,Themis 在多个基准场景下均优于现有调度器,在公平性和利用率指标上表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。