Skip to main content
QUICK REVIEW

[论文解读] Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy, Challenges and Vision

Wei Gao, Qinghao Hu|arXiv (Cornell University)|May 24, 2022
Cloud Computing and Resource Management被引用 21
一句话总结

本综述分析 GPU 数据中心中的 DL 工作负载调度,对训练和推理调度器进行分类,概述挑战,并提出未来方向。

ABSTRACT

Deep learning (DL) shows its prosperity in a wide variety of fields. The development of a DL model is a time-consuming and resource-intensive procedure. Hence, dedicated GPU accelerators have been collectively constructed into a GPU datacenter. An efficient scheduler design for such GPU datacenter is crucially important to reduce the operational cost and improve resource utilization. However, traditional approaches designed for big data or high performance computing workloads can not support DL workloads to fully utilize the GPU resources. Recently, substantial schedulers are proposed to tailor for DL workloads in GPU datacenters. This paper surveys existing research efforts for both training and inference workloads. We primarily present how existing schedulers facilitate the respective workloads from the scheduling objectives and resource consumption features. Finally, we prospect several promising future research directions. More detailed summary with the surveyed paper and code links can be found at our project website: https://github.com/S-Lab-System-Group/Awesome-DL-Scheduling-Papers

研究动机与目标

  • 识别影响 GPU 数据中心调度的 DL 工作负载特征。
  • 调查在目标类别下用于 DL 训练和推理的现有调度器。
  • 分析用于解决 DL 特定调度挑战的机制。
  • 强调局限性并提出未来调度设计的方向。

提出的方法

  • 按目标(效率、公平、延迟)和资源使用(GPU 异质性、共享、内存、互连)对调度解决方案进行分类。
  • 总结 2017–2022 年代表性的 DL 训练和推理调度器,并将其方法映射到 DL 特定挑战。
  • 分析设计考虑因素,如放置、抢占、性能分析和弹性在 DL 调度中的应用。
  • 讨论使能技术,如性能建模、轨迹分析、以及流量/工作负载特征化。
  • 对比 DL 调度与传统 HPC/大数据调度器,以识别独特需求。

实验结果

研究问题

  • RQ1在 GPU 数据中心中调度 DL 工作负载的主要挑战是什么?
  • RQ2现有调度器是否在实现目标方面共享共同策略?
  • RQ3应如何改进调度器以适应快速发展的 DL 技术?
  • RQ4在 DL 数据中心的训练与推理调度之间,关键设计权衡是什么?

主要发现

  • DL 训练和推理具有不同的目标和资源需求,驱动调度器设计。
  • 许多调度器使用性能建模、性能分析和工作负载跟踪来改进决策。
  • DL 特定挑战包括对资源的高强度使用、异质性亲和性以及训练的抢占开销,以及推理的低利用率、延迟-精度-成本权衡。
  • 现有解决方案通常是临时性和针对特定目标的,缺乏对 DL 工作负载的统一处理。
  • 该综述概述未来方向,以应对 GPU 数据中心中 DL 工作负载的复杂性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。