[论文解读] No more 996: Understanding Deep Learning Inference Serving with an Automatic Benchmarking System.
本文提出了一种用于深度学习推理服务的自动、基于配置的基准测试系统,该系统自动化了工作负载生成、作业调度和性能分析,适用于异构软硬件栈。通过集成两级调度器,系统将平均作业编译时间减少了最多1.43倍(提升30%),使开发人员能够以极少的设置快速评估和优化模型部署配置。
Deep learning (DL) models have become core modules for many applications. However, deploying these models without careful performance benchmarking that considers both hardware and software's impact often leads to poor service and costly operational expenditure. To facilitate DL models' deployment, we implement an automatic and comprehensive benchmark system for DL developers. To accomplish benchmark-related tasks, the developers only need to prepare a configuration file consisting of a few lines of code. Our system, deployed to a leader server in DL clusters, will dispatch users' benchmark jobs to follower workers. Next, the corresponding requests, workload, and even models can be generated automatically by the system to conduct DL serving benchmarks. Finally, developers can leverage many analysis tools and models in our system to gain insights into the trade-offs of different system configurations. In addition, a two-tier scheduler is incorporated to avoid unnecessary interference and improve average job compilation time by up to 1.43x (equivalent of 30\% reduction). Our system design follows the best practice in DL clusters operations to expedite day-to-day DL service evaluation efforts by the developers. We conduct many benchmark experiments to provide in-depth and comprehensive evaluations. We believe these results are of great values as guidelines for DL service configuration and resource allocation.
研究动机与目标
- 为解决深度学习模型部署中系统性性能基准测试的缺失问题,该问题导致服务品质低下和运营成本高昂。
- 通过简单的配置文件实现自动化基准测试,减少开发人员的工程负担。
- 通过全面的分析工具和模型,提供系统配置权衡的可操作洞察。
- 通过两级调度器提高深度学习集群中的作业调度效率,减少干扰并加速编译。
- 在多样化的软硬件栈上建立标准化、可重复的深度学习服务性能评估框架。
提出的方法
- 系统使用仅包含几行代码的配置文件来定义模型、工作负载和目标硬件,实现作业的自动化生成。
- 采用领导者-跟随者架构,由中心服务器将基准测试作业分发到工作节点执行。
- 系统根据配置自动生成功能请求、工作负载和模型,确保基准测试的一致性和可重复性。
- 两级调度器负责作业调度,以减少干扰并提高编译效率,实现最高1.43倍的加速。
- 系统集成多种分析工具和模型,用于评估不同配置下的性能权衡。
- 设计遵循深度学习集群运维的最佳实践,以简化日常服务评估与调优。
实验结果
研究问题
- RQ1如何以最少的开发人员投入高效地对深度学习推理服务进行基准测试?
- RQ2作业调度对深度学习集群中编译时间和系统吞吐量有何影响?
- RQ3不同的软硬件配置如何影响推理性能和资源利用率?
- RQ4模型部署配置中的关键性能权衡是什么?
- RQ5自动化基准测试系统能否降低生产环境中深度学习部署的运营成本并提升服务品质?
主要发现
- 所提出的基准测试系统使开发人员仅需几行配置代码即可启动全面的性能评估。
- 两级调度器将平均作业编译时间最多减少1.43倍,相当于性能提升30%。
- 系统支持自动生成功能请求、工作负载和模型,确保基准测试的一致性和可重复性。
- 通过集成的分析工具和模型,该框架可提供关于系统配置权衡的可操作洞察。
- 全面的基准测试实验提供了深入的评估结果,可作为模型部署和资源分配的实际指导。
- 该系统设计符合生产环境的最佳实践,加速了深度学习服务的日常评估与调优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。