[论文解读] AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving
AlpaServe 自动在集群中分区并放置大量深度学习模型集合,利用模型并行来实现统计复用并在突发工作负载下提高 SLO 达成。
Model parallelism is conventionally viewed as a method to scale a single large deep learning model beyond the memory limits of a single device. In this paper, we demonstrate that model parallelism can be additionally used for the statistical multiplexing of multiple devices when serving multiple models, even when a single model can fit into a single device. Our work reveals a fundamental trade-off between the overhead introduced by model parallelism and the opportunity to exploit statistical multiplexing to reduce serving latency in the presence of bursty workloads. We explore the new trade-off space and present a novel serving system, AlpaServe, that determines an efficient strategy for placing and parallelizing collections of large deep learning models across a distributed cluster. Evaluation results on production workloads show that AlpaServe can process requests at up to 10x higher rates or 6x more burstiness while staying within latency constraints for more than 99% of requests.
研究动机与目标
- 为在超出内存容量的情况下服务多个大型模型而使用模型并行提供动机并进行分析。
- 描述在对延迟敏感的服务中,模型并行开销与统计复用增益之间的权衡。
- 开发自动分区、放置和调度多模型跨集群的算法,以最大化 SLO 达成。
提出的方法
- 将基于 Alpa 的 Autoparallelization 扩展用于服务,重点关注前向传播并最小化最大阶段延迟。
- 开发一个两级仿真器引导的贪心放置算法,以在设备组之间优化模型复制、分组和模型并行配置。
- 使用基于 DP 的跨运算间并行分析和基于 ILP 的运算内并行分析,枚举用于服务工作负载的候选并行配置。
- 集成仿真器以在预测的工作负载模式下估计 SLO 达成情况并指导放置决策。
- 为面向推理的工作负载提供对训练导向自动并行化的扩展,使其不需要权重同步。
实验结果
研究问题
- RQ1在何种条件下,模型并行性能提高多模型工作负载的服务延迟与 SLO 达成?
- RQ2集群应如何分区,哪些模型应共存或被复制以在突发请求下最大化 SLO 达成?
- RQ3服务中的跨运算间并行和运算内并行的开销是什么,它们如何影响放置决策?
- RQ4自动化剪枝配置空间是否能有效识别高性能的模型并行服务策略?
主要发现
- 模型并行性使跨设备实现统计复用,降低平均延迟并提高突发容忍度,尤其在内存有限或工作负载突发时。
- 在突发性(高 CV)到达情形下,所示的两模型、两 GPU 场景的模型并行放置可实现均值延迟高达 1.9x 的加速。
- 当 SLO 很紧(期限短)时,模型并行性能减少 SLO 违规,但由于开销,在较宽松的 SLO 情况下可能不及副本化。
- 跨运算并行的开销主要来自阶段不均衡,而运算内并行的开销则由设备间通信主导;两者对吞吐量与延迟的影响不同。
- 通过仿真器引导的贪心放置算法,通过在集群中对模型副本和分组进行最佳放置和配置,可以实现高 SLO 达成(通常>98%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。